Dans le domaine de la modélisation des séquences biologiques, les progrès des techniques de deep learning sont remarquables, mais les besoins informatiques élevés et la dépendance à de grands ensembles de données posent problème à de nombreux chercheurs. Récemment, une équipe de chercheurs du MIT, de l'Université Harvard et de l'Université Carnegie Mellon a présenté une nouvelle méthode de modélisation des séquences biologiques appelée Lyra. Cette méthode réduit considérablement le nombre de paramètres, à seulement 1/120 000 de celui des modèles traditionnels, et peut être entraînée en seulement deux heures à l'aide de deux GPU, améliorant ainsi considérablement l'efficacité du modèle.
Lyra s'inspire de l'épistasie en biologie (c'est-à-dire les interactions entre les mutations au sein d'une séquence). Elle utilise une architecture sous-quadratique pour comprendre efficacement la relation entre les séquences biologiques et leurs fonctions. Ce nouveau modèle présente des performances exceptionnelles dans plus de 100 tâches biologiques, notamment la prédiction de l'aptitude des protéines, l'analyse des fonctions de l'ARN et la conception de CRISPR, atteignant même les meilleures performances actuelles (SOTA) dans certaines applications clés.
Comparé aux réseaux neuronaux convolutifs (CNN) et aux modèles Transformer traditionnels, Lyra est 64,18 fois plus rapide en termes d'inférence, tout en réduisant considérablement les besoins en paramètres. Ceci est dû à sa structure de modèle hybride innovante. Lyra combine un modèle espace d'état (SSM) et une convolution à porte projetée (PGC) pour capturer les dépendances locales et globales dans les séquences biologiques. Le SSM modélise efficacement les relations globales grâce à la transformée de Fourier rapide (FFT), tandis que le PGC se concentre sur l'extraction des caractéristiques locales. La combinaison des deux permet à Lyra d'atteindre un bon équilibre entre efficacité de calcul et interprétabilité.
L'efficacité de Lyra pourrait non seulement stimuler les progrès de la recherche biologique fondamentale, mais aussi jouer un rôle important dans des applications pratiques telles que le développement de traitements, la surveillance des agents pathogènes et la biofabrication. L'équipe de recherche espère que Lyra permettra à un plus grand nombre de chercheurs de réaliser des modèles complexes de séquences biologiques, même avec des ressources limitées, accélérant ainsi l'exploration des sciences biologiques.