Récemment, la société de biologie vivante américaine Tahoe Bio (anciennement Vevo Therapeutics) a officiellement lancé son modèle fondamental d'IA majeur : Tahoe-x1 (Tx1), un grand modèle de 3 milliards de paramètres conçu spécifiquement pour décoder les relations complexes entre les gènes, les cellules et les médicaments. Le lancement de ce modèle marque le passage de l'IA de "outil d'aide" à un "moteur de modélisation du système vital", ouvrant ainsi de nouvelles voies pour la découverte de cibles anticancéreuses et les thérapies personnalisées.

image.png

Innovations architecturales : 3 milliards de paramètres, conçus pour le monde des cellules uniques

Le Tahoe-x1 repose sur une architecture d'encodeur Transformer, entraîné par le modèle de langage masqué (MLM), avec des données d'entraînement comprenant impressionnantes 266 millions de profils transcriptomiques de cellules uniques, notamment le jeu de données Tahoe-100M de Tahoe Bio - un ensemble de données qui enregistre les réponses des perturbations de milliers de molécules sur les lignées cellulaires cancéreuses, téléchargeé près de 200 000 fois par la communauté scientifique mondiale.

Pour concilier performance et utilité pratique, la famille de modèles propose plusieurs versions de tailles différentes (comme Tx1-70M), grâce à des technologies d'optimisation comme FlashAttention v2, offrant une efficacité de calcul 3 à 30 fois supérieure à celle des modèles cellulaires similaires, permettant même un fonctionnement efficace sur des GPU ordinaires, réduisant ainsi considérablement les barrières de la recherche.

Compétence 1 : Identifier précisément les "points faibles" du cancer, dépassant tous les modèles existants

Dans les tâches de prédiction de l'essentialité génétique (Gene Essentiality), le Tahoe-x1 dépasse complètement les modèles existants sur l'ensemble de données DépMap, pouvant identifier avec précision les "gènes moteurs principaux" qui maintiennent la survie des tumeurs dans différents sous-types de cancers. Cette capacité permet aux chercheurs de localiser rapidement des cibles à haut potentiel, réduisant significativement le cycle de découverte à validation, particulièrement utile pour les cancers difficiles à traiter, fortement hétérogènes.

Compétence 2 : Restaurer automatiquement les voies de cancérisation, révélant les réseaux de coordination moléculaire

Le modèle ne peut pas seulement identifier des gènes individuels, mais peut aussi capturer les voies de signalisation activées de manière coopérative pendant la cancérisation. Sur les tests du base de données MSigDB, le Tahoe-x1 affiche le taux de précision le plus élevé pour la restauration des "programmes de signes de cancérisation" (hallmark programs), permettant d'analyser automatiquement des processus biologiques clés tels que le déséquilibre du cycle cellulaire ou les défauts de réparation de l'ADN, fournissant ainsi des perspectives systémiques pour les thérapies combinées à plusieurs cibles.

Compétence 3 : Prédire efficacement les effets des médicaments sans échantillon, rendant la simulation clinique virtuelle possible

La chose la plus excitante est la capacité de généralisation sans exemple (zero-shot generalization) du Tahoe-x1 - même face à des types cellulaires ou des échantillons de patients jamais vus, le modèle peut "raisonner par analogie" basé sur ses connaissances existantes, prédire sa réponse à un médicament spécifique. Cela signifie que, à l'avenir, le développement de médicaments pourra simuler des milliers de schémas thérapeutiques sur ordinateur, sélectionner les combinaisons les plus prometteuses, puis passer au laboratoire ou aux essais cliniques, réduisant ainsi considérablement les coûts d'essai-erreur et le taux d'échec.

En combinant un cadre post-entraînement, le modèle peut également s'adapter à divers arrières-plan de patients, accélérant ainsi la mise en œuvre des thérapies personnalisées contre le cancer.

Observations d'AIbase : Open source + données orientées, l'écosystème de l'IA en biologie s'accélère

Tahoe Bio a levé un total de 42 millions de dollars, et construit actuellement la plus grande carte de perturbation de cellules uniques au monde, comprenant jusqu'à 1 milliard de points de données. Cette fois-ci, le Tahoe-x1 n'ouvre pas seulement les poids du modèle (Hugging Face) et le code (GitHub), mais fournit également une démonstration interactive, et une préimpression est déjà disponible sur bioRxiv, entièrement orientée vers la collaboration de la communauté scientifique.

AIbase estime que la véritable percée du Tahoe-x1 réside dans le fait qu'il amène l'IA de "corrélation statistique" à un "compréhension mécanique". Lorsque le modèle peut penser comme un biologiste, comment les gènes sont régulés, comment les médicaments interviennent, comment les cellules répondent, le paradigme de développement de médicaments passera de "test-erreur" à "prévision".