Basecamp Research startet den Trillion Gene Atlas, um KI-entwickelte Therapeutika zu skalieren USA - Deutsch Japan - Japanese USA - español USA - English USA - English USA - Français Korea - 한국어

AUSTIN, Texas und SAN JOSE, Kalifornien, 18. März 2026 /PRNewswire/ -- Basecamp Research, ein Frontier-KI-Labor für biologisches Design, gab heute den Start des Trillion Gene Atlas bekannt, einer wegweisenden wissenschaftlichen Initiative zur Generierung und Modellierung biologischer Daten im Maßstab von einer Billion Genen. Der Trillion Gene Atlas wurde in Zusammenarbeit mit Anthropic, Ultima Genomics und PacBio gestartet und wird von NVIDIA-KI-Infrastruktur unterstützt. Ziel ist es, die bekannte evolutionäre genetische Vielfalt um das Hundertfache zu erweitern, indem Genomdaten von mehr als 100 Millionen Arten an Tausenden Standorten weltweit erhoben werden.

Möglich wird dies dank des wachsenden globalen Netzwerks an Biodiversitätspartnern von Basecamp Research. Das übergeordnete Ziel besteht darin, die umfangreichen und vielfältigen Trainingsdaten bereitzustellen, die KI-Systeme benötigen, um aus der Evolution zu lernen und neue Medikamente auf Abruf zu entwickeln.

„Die heutigen biologischen KI-Modelle werden anhand eines engen Ausschnitts des Lebens auf der Erde trainiert", sagte Glen Gowers, Mitgründer und Geschäftsführer von Basecamp Research, bei seinem Auftritt auf der SXSW in Austin. „Der Trillion Gene Atlas erweitert das bekannte genetische Universum um Größenordnungen über das hinaus, was in öffentlichen Datenbanken enthalten ist. Das Training von Modellen in diesem Maßstab etabliert ein neues Paradigma für programmierbares therapeutisches Design."

Die Initiative, die mit dem Humangenomprojekt vergleichbar ist, wurde im Rahmen des Health Track auf der SXSW sowie auf der NVIDIA GTC-Konferenz in San Jose vorgestellt.

Angesichts des starken Zuwachses bei Modellgröße und Rechenleistung sind vielfältige Daten ein kritischer Treiber für Fortschritte in der KI-gestützten Arzneimittelentwicklung und bei praxisnahen Benchmarks. Alle derzeitigen sequenzbasierten Foundation-Modelle stützen sich auf Varianten derselben öffentlichen Repositorien, wobei 80 % dieser Modelle auf einer öffentlichen Datenbank mit weniger als 250 Millionen Sequenzen trainiert wurden.

Die im Januar vorgestellten EDEN-Foundation-Modelle von Basecamp Research umgehen die evolutionäre „Datenmauer" der Branche, indem sie vollständig auf BaseData™ trainiert wurden, einer firmeneigenen Genomdatenbank, die derzeit mehr als zehnmal so groß ist wie alle öffentlichen Ressourcen zusammen. Durch das Lernen aus beispiellosen 10 Milliarden neuen, wissenschaftlich bislang unbekannten Genen aus 1 Million neu entdeckter Arten erschloss EDEN neue, entscheidende Skalierungsgesetze für KI in der Biologie.

Diese massive Ausweitung der Datensatzvielfalt führte EDEN über reine Vorhersagen hinaus und machte es zum ersten Modell, das vielfältige Therapeutika direkt auf Basis eines Krankheitsprompts entwerfen kann. Bei der Validierung im Nasslabor zeigte EDEN Zero-Shot-Aktivität in primären menschlichen T-Zellen, ohne dass menschliche oder klinische Daten erforderlich waren. Das Modell hat bereits Treffer in mehreren Frontier-Modalitäten erzeugt, darunter insbesondere die bahnbrechende AI-Programmable Gene Insertion (aiPGI) zum Einfügen gesunder Gene sowie die Entwicklung zielgerichteter antimikrobieller Peptide mit einer Trefferquote von 97 % gegen prioritäre Krankheitserreger.

Der Trillion Gene Atlas baut auf diesem Ansatz auf, indem er die Breite und kontextuelle Tiefe genomischer Daten im bekannten „Internet der Biologie", die sich für das KI-Training eignen, erheblich erweitert.

„Größere Modelle allein reichen nicht aus", ergänzte Phil Lorenz, Technischer Leiter von Basecamp Research. „EDEN hat gezeigt, dass die Leistung biologischer KI bei höherwertigen und vollständig kontextualisierten Daten deutlich steileren Skalierungsverläufen folgt. Der Trillion Gene Atlas erweitert dieses Prinzip um das Hundertfache."

In den vergangenen sechs Jahren hat Basecamp Research ein Netzwerk wissenschaftlicher Kooperationspartner in 31 Ländern aufgebaut und damit eine skalierbare Pipeline für evolutionäre Genomik etabliert, die gezielt für das KI-Training entwickelt wurde. Durch die Kombination neuer regulatorischer und wirtschaftlicher Rahmenwerke mit vollständig netzunabhängigen DNA-Sequenzierungstechnologien erhebt das Unternehmen hochwertige Genomdaten aus Ökosystemen, die außerhalb der Reichweite klassischer Labore liegen.

Diese Partnerschaften beruhen auf Wissensaustausch, lokalem Kapazitätsaufbau sowie fairen Access-and-Benefit-Sharing-Vereinbarungen im Einklang mit entstehenden Regelungen zu digitalen Sequenzinformationen. Dieses Rahmenwerk ermöglicht eine verantwortungsvolle, groß angelegte und hochwertige Erhebung genomischer Daten und investiert zugleich in wissenschaftliche Infrastruktur und Ausbildung in den Partnerregionen.

Im Rahmen des Starts des Atlas kündigt Basecamp neue Partnerschaften in Chile und Argentinien sowie eine ausgeweitete Zusammenarbeit in der Antarktis an und baut damit sein globales Biodiversitätsnetzwerk weiter aus.

Der Trillion Gene Atlas wird durch Fortschritte bei ultra-hochdurchsatzfähiger Short-Read- und Long-Read-Sequenzierung sowie durch beschleunigtes Computing ermöglicht. Basecamp arbeitet mit Ultima Genomics und PacBio zusammen, um Sequenzierung im industriellen Maßstab bereitzustellen, darunter datenreiche Long Reads mit hoher Genauigkeit.

Ultima entwickelt Ultra-High-Throughput-Systeme für Next-Generation-Sequencing (NGS). Das jüngste Sequenzierungssystem von Ultima, die UG200 Series, entwickelt die einzigartige waferbasierte Sequenzierungsarchitektur des Unternehmens weiter, um Whole-Genome- und Multiomics-Sequenzierung mit hohem Durchsatz im industriellen Maßstab zu einem niedrigen Preisniveau zu ermöglichen und so Initiativen wie den Trillion Gene Atlas zu unterstützen.

„Im Vergleich zu anderen Bereichen wie Sprache oder Computer Vision war die Biologie grundsätzlich datenarm, weil Forschenden bislang die Werkzeuge fehlten, um Daten in großem Maßstab zu erzeugen", sagte Gilad Almogy, Gründer und Geschäftsführer von Ultima Genomics. „Wir sind fest davon überzeugt, dass KI unser Verständnis von Biologie und menschlicher Gesundheit massiv prägen wird, und die UG200 Series wurde von Grund auf dafür entwickelt, die enormen Datensätze bereitzustellen, die BioAI benötigt, um dieses Versprechen einzulösen. Wir freuen uns, dass unsere Technologie Basecamp bei dieser Vision unterstützen und innovative Initiativen wie den Trillion Gene Atlas voranbringen kann."

„Die PacBio-HiFi-Sequenzierung liefert hochpräzise Long Reads, die den vollständigen genomischen Kontext bewahren und Auflösung bis auf Unterart- und sogar Stammebene in komplexen Proben ermöglichen", sagte Christian Henry, Präsident und Geschäftsführer von PacBio. „HiFi-Daten liefern die verlässliche, informationsreiche Grundlage, die biologische KI-Modelle brauchen, um im großen Maßstab aus der Natur zu lernen und Initiativen wie den Trillion Gene Atlas voranzutreiben."

Der Trillion Gene Atlas wird durch die Infrastruktur für beschleunigtes Computing von NVIDIA betrieben, um gewaltige Mengen genetischer Daten im Petabasen-Maßstab zu verarbeiten. Im Rahmen dieser Initiative plant Basecamp, NVIDIA Parabricks zu nutzen, um die metagenomische Assemblierung deutlich zu beschleunigen. Diese Zusammenarbeit konzentriert sich sowohl auf fortschrittliches Engineering als auch auf die Entwicklung neuer algorithmischer Methoden, um die Rekonstruktion komplexer Umweltproben zu optimieren. Dank dieser Beschleunigung dürfte die Verarbeitung von Billiarden DNA-Basenpaaren, eine Aufgabe, die früher mehr als 20 Jahre beansprucht hätte, in weniger als zwei Jahren abgeschlossen werden.

Durch parallele Datenverarbeitung, automatisierte Annotation und groß angelegtes Modelltraining erwarten die Partner, eine Aufgabe, die zuvor mehr als 20 Jahre Verarbeitungszeit erfordert hätte, auf weniger als zwei Jahre zu verkürzen. Diese Verkürzung von Sequenzierung, Assemblierung, Annotation und Modelltraining soll Leistung und Anwendungsbreite biologischer Foundation-Modelle in der therapeutischen Entwicklung erweitern.

Anthropic beteiligt sich im Rahmen seiner umfassenderen Bemühungen um neue Fähigkeiten für die Lebenswissenschaften: Claude mit mehr wissenschaftlichen Plattformen zu verknüpfen. Claude mit mehr wissenschaftlichen Plattformen zu verbinden. Gemeinsam mit dem Team von Claude for Life Sciences soll der Trillion Gene Atlas zusammen mit EDEN dazu beitragen, Claude zu einem noch produktiveren Forschungspartner für Wissenschaftler und Kliniker zu machen und Organisationen zu unterstützen, die neue wissenschaftliche Fortschritte der Öffentlichkeit zugänglich machen.

Durch die Kombination der fortschrittlichen Schlussfolgerungsfähigkeiten von Claude, der Fähigkeiten von EDEN im therapeutischen Design sowie der CUDA-X Libraries von NVIDIA zur Verarbeitung unstrukturierter Daten zielt die Initiative darauf ab, einen integrierten Workflow zu schaffen, mit dem sich komplexe klinische Daten interpretieren und direkt in therapeutisches Design übersetzen lassen.

Der Trillion Gene Atlas basiert auf drei Säulen: groß angelegte DNA-Sequenzierung, globale Partnerschaften für die Datenversorgung sowie fortschrittliche Rechenleistung. Zusammen mit KI-Systemen, die aus komplexen Daten Schlussfolgerungen ziehen können, können diese Grundlagen dazu beitragen, umfangreiche Datensätze in therapeutische Entdeckungen zu überführen. Indem Basecamp Research die für KI verfügbaren Evolutionsdaten nochmals um das Hundertfache erhöht, will das Unternehmen die Arzneimittelentwicklung schneller und systematischer machen und damit die bisherigen Fortschritte von EDEN in Bereichen wie Gentherapie und dem Kampf gegen antibiotikaresistente Bakterien ausweiten.