Basecamp Research lance le Trillion Gene Atlas pour développer des thérapies conçues par l'IA USA - Français Japan - Japanese USA - español USA - English USA - English

AUSTIN, Texas et SAN JOSE, Californie, 18 mars 2026 /PRNewswire/ -- Basecamp Research, un laboratoire d'IA d'avant-garde pour la conception biologique, annonce aujourd'hui le lancement du Trillion Gene Atlas, une initiative scientifique historique visant à générer et à modéliser des données biologiques à l'échelle du millier de milliards de gènes. Lancé en collaboration avec Anthropic, Ultima Genomics et PacBio, et alimenté par l'infrastructure NVIDIA AI, le Trillion Gene Atlas vise à multiplier par 100 la diversité génétique évolutive connue en collectant les données génomiques de plus de 100 millions d'espèces sur des milliers de sites dans le monde entier.

Une telle performance est rendue possible grâce au réseau croissant de partenaires mondiaux de Basecamp Research dans le domaine de la biodiversité. Son objectif ultime est de fournir les données d'entraînement vastes et diversifiées nécessaires aux systèmes d'IA pour apprendre de l'évolution afin de concevoir de nouveaux médicaments à la demande.

« Les modèles d'IA biologique actuels sont formés sur une fine tranche de la vie sur Terre », déclare Glen Gowers, cofondateur et CEO de Basecamp Research, lors d'un discours à SXSW à Austin. « Le Trillion Gene Atlas élargit l'univers génétique connu de plusieurs ordres de grandeur au-delà de ce que l'on trouve dans les bases de données publiques. La formation de modèles à cette échelle établit un nouveau paradigme pour la conception de thérapies programmables. »

Cette initiative, d'une ampleur comparable à celle du projet du génome humain, a été dévoilée à l'occasion de la session Santé du SXSW et de la conférence NVIDIA GTC à San Jose.

Avec l'augmentation considérable de la taille des modèles et de la puissance de calcul, la diversité des données est une condition essentielle pour avancer dans le développement de médicaments par l'IA et les tests de référence dans le monde réel. Tous les modèles actuels de fondation basés sur les séquences reposent sur des variantes des mêmes référentiels publics, 80 % d'entre eux étant formés sur une base de données publique contenant moins de 250 millions de séquences.

Les modèles de fondation EDEN de Basecamp Research, publiés en janvier, contournent le « mur de données » évolutif de l'industrie en s'entraînant entièrement sur BaseData™, une base de données génomique propriétaire qui est actuellement plus de dix fois plus grande que toutes les ressources publiques combinées. En apprenant à partir d'un nombre sans précédent de dix milliards de gènes nouveaux pour la science et d'un million d'espèces nouvellement découvertes, EDEN a débloqué de nouvelles lois d'échelle essentielles pour l'IA dans le domaine de la biologie.

Cette expansion massive de la diversité des ensembles de données a permis à EDEN d'aller au-delà de la simple prédiction, ce qui en fait le premier modèle capable de concevoir diverses thérapies directement à partir d'un message d'alerte sur une maladie. Lors de la validation en laboratoire humide, EDEN a démontré une activité « zero-shot » dans les cellules T humains primaires sans qu'aucune donnée humaine ou clinique ne soit nécessaire. Le modèle a permis d'obtenir des résultats positifs dans de multiples domaines, notamment l'insertion génique programmable par l'IA (aiPGI) pour insérer des gènes sains et la conception de peptides antimicrobiens ciblés avec un taux de réussite de 97% contre les agents pathogènes prioritaires.

Le Trillion Gene Atlas s'appuie sur cette approche en élargissant considérablement l'étendue et la profondeur contextuelle des données génomiques dans l'« internet de la biologie » connu et adapté à l'apprentissage de l'IA.

« Des modèles plus grands ne suffisent pas », ajoute Phil Lorenz, CTO de Basecamp Research. « EDEN a montré que les performances de l'IA biologique suivent des trajectoires d'échelle beaucoup plus raides avec des données de meilleure qualité et entièrement contextualisées. Le Trillion Gene Atlas multiplie ce principe par 100. »

Au cours des six dernières années, Basecamp Research a mis en place un réseau de collaborateurs scientifiques dans 31 pays, établissant un pipeline évolutif de génomique évolutive conçu pour la formation de l'IA. Grâce à une combinaison innovante de nouveaux cadres réglementaires et économiques et de technologies de séquençage de l'ADN entièrement hors réseau, l'entreprise recueille des données génomiques de haute qualité dans des écosystèmes hors de portée des laboratoires traditionnels.

Ces partenariats sont fondés sur l'échange de connaissances, le renforcement des capacités locales et des accords équitables d'accès et de partage des avantages, conformément aux nouvelles réglementations relatives aux informations sur les séquences numériques. Ce cadre permet une collecte de données génomiques responsable, à grande échelle et de haute qualité, tout en investissant dans l'infrastructure scientifique et la formation dans les régions partenaires.

Dans le cadre du lancement de l'atlas, Basecamp annonce de nouveaux partenariats au Chili, en Argentine et une collaboration élargie en Antarctique, étendant ainsi son réseau mondial de biodiversité.

Le Trillion Gene Atlas est rendu possible grâce aux progrès réalisés dans le domaine du séquençage à très haut débit, à lecture courte et longue, et de l'informatique accélérée. Basecamp s'est associé à Ultima Genomics et PacBio pour fournir un séquençage à l'échelle industrielle, y compris des lectures longues riches en données et d'une grande précision.

Ultima est un développeur de systèmes de séquençage de nouvelle génération (NGS) à très haut rendement. Le dernier système de séquençage d'Ultima, la série UG200, fait progresser l'architecture de séquençage unique de l'entreprise, basée sur des plaquettes, afin de permettre le séquençage à haut rendement du génome entier et le séquençage multi-omique à l'échelle industrielle, à un prix bas, pour permettre des initiatives telles que le Trillion Atlas.

« La biologie a été fondamentalement privée de données par rapport à d'autres domaines tels que le langage ou la vision par ordinateur, et les chercheurs ne disposaient pas des outils nécessaires pour générer des données à grande échelle », déclare Gilad Almogy, fondateur et CEO d'Ultima Genomics. « Nous sommes convaincus que l'IA aura un impact considérable sur notre compréhension de la biologie et de la santé humaine, et la série UG200 a été conçue dès le départ pour permettre aux ensembles de données massives nécessaires à l'IA biologique de tenir cette promesse. Nous sommes ravis que notre technologie permette à Basecamp de concrétiser sa vision et de faire avancer des initiatives innovantes telles que le Trillion Gene Atlas ».

« Le séquençage PacBio HiFi fournit des lectures longues très précises qui préservent le contexte génomique complet et permettent une résolution au niveau des sous-espèces et même des souches dans des échantillons complexes », déclare Christian Henry, président et CEO de PacBio. « Les données HiFi constituent la base fiable et riche en informations dont les modèles d'IA biologique ont besoin pour apprendre de la nature à grande échelle et alimenter des initiatives telles que le Trillion Gene Atlas. »

Le Trillion Gene Atlas s'appuiera sur l'infrastructure informatique accélérée de NVIDIA pour traiter d'énormes quantités de données génétiques à l'échelle de la pétabase. Dans le cadre de cet effort, Basecamp prévoit d'exploiter NVIDIA Parabricks pour accélérer sensiblement l'assemblage métagénomique. Cette collaboration porte à la fois sur l'ingénierie avancée et sur le développement de nouvelles méthodes algorithmiques afin d'optimiser la reconstitution d'échantillons environnementaux complexes. Grâce à cette accélération, le traitement de quadrillions de paires de bases d'ADN, une tâche qui aurait pris plus de 20 ans auparavant, devrait prendre moins de deux ans.

Grâce au traitement parallélisé des données, à l'annotation automatisée et à la formation de modèles à grande échelle, les partenaires espèrent réduire à moins de deux ans une tâche qui aurait auparavant nécessité plus de 20 ans de traitement. Cette compression du séquençage, de l'assemblage, de l'annotation et de la formation au modèle a pour but d'élargir les performances et la portée des modèles biologiques de base dans le cadre du développement thérapeutique.

Anthropic rejoint dans le cadre de son effort plus large pour ajouter de nouvelles capacités pour les sciences de la vie : connecter Claude à d'autres plateformes scientifiques. En collaboration avec l'équipe Claude for Life Sciences, l'objectif est d'exploiter le Trillion Gene Atlas et EDEN pour faire de Claude un partenaire de recherche encore plus productif pour les scientifiques et les cliniciens, et de soutenir les organisations qui mettent de nouvelles avancées scientifiques à la disposition du public.

En associant les capacités de raisonnement avancé de Claude, les capacités de conception thérapeutique d'EDEN et les bibliothèques CUDA-X de NVIDIA pour traiter les données non structurées, l'initiative vise à créer un flux de travail intégré pour interpréter des données cliniques complexes et les traduire directement en conception thérapeutique.

Le Trillion Gene Atlas repose sur trois piliers : le séquençage de l'ADN à grande échelle, les partenariats mondiaux pour la fourniture de données et l'informatique de pointe. Associées à des systèmes d'IA capables de raisonner sur des données complexes, ces fondations peuvent contribuer à transformer de vastes ensembles de données en découvertes thérapeutiques. En multipliant par 100 les données évolutives accessibles à l'IA, Basecamp Research vise à rendre la conception de médicaments plus rapide et plus systématique, prolongeant ainsi les avancées antérieures d'EDEN dans des domaines tels que la thérapie génique et la lutte contre les bactéries résistantes aux antibiotiques.