Hace unos días, la empresa estadounidense de ciencias de la vida Tahoe Bio (anteriormente Vevo Therapeutics) anunció oficialmente su modelo base de inteligencia artificial de gran envergadura - Tahoe-x1 (Tx1), un modelo de 3.000 millones de parámetros especializado en descifrar la compleja relación entre genes, células y medicamentos. El lanzamiento de este modelo marca el momento en que la IA pasa de ser una "herramienta de apoyo" a convertirse en un "motor de modelado del sistema vital", abriendo nuevos caminos para la identificación de objetivos terapéuticos en el cáncer y las terapias personalizadas.

Revolution en la arquitectura: 3.000 millones de parámetros, diseñados para el mundo de las células individuales
Tahoe-x1 se basa en la arquitectura de codificadores Transformer y utiliza el modelado de lenguaje con máscara (MLM) para su entrenamiento. Los datos de entrenamiento incluyen un sorprendente número de 266 millones de perfiles transcriptómicos de células individuales, incluyendo el conjunto de datos Tahoe-100M de perturbaciones construido por Tahoe Bio, que registra las respuestas de más de mil moléculas a las líneas celulares del cáncer y ha sido descargado casi 200.000 veces por la comunidad científica mundial.
Para equilibrar rendimiento y utilidad, la familia del modelo ofrece versiones de diferentes tamaños (como Tx1-70M), y mediante tecnologías de optimización como FlashAttention v2, logra una eficiencia computacional 3 a 30 veces mayor que los modelos celulares similares, pudiendo funcionar eficientemente incluso en tarjetas gráficas comunes, reduciendo significativamente la barrera para la investigación científica.
Capacidad uno: Localizar con precisión la "veta vital" del cáncer, superando a todos los modelos existentes
En la tarea de predicción de esencialidad genética (Gene Essentiality), Tahoe-x1 supera completamente a los modelos existentes en el conjunto de datos DepMap autoritario, siendo capaz de identificar con precisión los "genes principales" que mantienen la supervivencia del tumor en distintas subtipos de cáncer. Esta capacidad ayuda a los investigadores a localizar rápidamente objetivos de alto valor, acortando significativamente el ciclo de descubrimiento a validación, especialmente útil para cánceres de alta heterogeneidad.
Capacidad dos: Restaurar automáticamente los caminos de la transformación maligna, revelando redes de coordinación molecular
El modelo no solo identifica genes individuales, sino que también capta las vías de señalización activadas en conjunto durante la transformación maligna. En pruebas en la base de datos MSigDB, la exactitud de Tahoe-x1 en la restauración de "programas de señales de transformación" (hallmark programs) es la mejor, pudiendo analizar automáticamente programas biológicos clave como el control desordenado del ciclo celular o la deficiencia en la reparación del ADN, proporcionando así perspectivas sistemáticas para terapias combinadas de múltiples objetivos.
Capacidad tres: Predicción sin muestra, la prueba clínica virtual se hace realidad
Lo más emocionante es la capacidad de generalización sin muestra (zero-shot generalization) de Tahoe-x1: incluso frente a tipos celulares o muestras de pacientes nunca antes vistos, el modelo puede predecir su respuesta a medicamentos específicos basándose en conocimientos previos mediante "razonamiento por analogía". Esto significa que en el futuro, el desarrollo de medicamentos podrá simular miles de esquemas de tratamiento en computadora, seleccionando las combinaciones más prometedoras, para luego pasar al laboratorio o a estudios clínicos, reduciendo significativamente el costo de error y la tasa de fracaso.
Combinado con un marco de post-entrenamiento, el modelo también puede adaptarse a diversos antecedentes de pacientes, acelerando la implementación de terapias personalizadas contra el cáncer.
Observación de AIbase: Open source + datos impulsados, ecosistema de IA biológica se desarrolla rápidamente
Tahoe Bio ha recaudado un total de 42 millones de dólares, y está construyendo el mapa de perturbaciones de células individuales más grande del mundo, alcanzando un objetivo de 1.000 millones de puntos de datos. En esta ocasión, Tahoe-x1 no solo abre su código fuente (Hugging Face) y sus pesos del modelo, sino que también proporciona una demostración interactiva, y su preimpresión ya está disponible en bioRxiv, abrazando plenamente la colaboración de la comunidad científica.
AIbase considera que el verdadero avance de Tahoe-x1 radica en que le da a la IA un salto de "correlación estadística" hacia "comprensión mecánica". Cuando el modelo piensa como un biólogo sobre cómo los genes regulan, cómo los medicamentos intervienen y cómo responden las células, el paradigma de investigación farmacéutica pasará completamente de "prueba y error" a "predicción".
En el futuro, con la continuación del crecimiento de los datos, Tahoe-x1 podría convertirse en la infraestructura de la medicina personalizada: simulando millones de posibles tratamientos en el mundo virtual, para ganar esa oportunidad efectiva para los pacientes en el mundo real.





