Récemment, Meta a lancé son plus vaste ensemble de données ouvertes d'IA, OMol25, accompagné de la présentation du modèle d'intelligence artificielle universel UMA (Universal Atom Model), conçu pour prédire les propriétés chimiques des molécules et des matériaux. Ces deux avancées visent à accélérer le développement de médicaments, la création de matériaux pour les batteries ainsi que l'étude des catalyseurs dans des domaines clés.
Selon Meta, le jeu de données OMol25 contient plus d'un milliard de calculs moléculaires avec une précision élevée, ce qui en fait la ressource la plus importante jamais publiée. La génération de cette immense base de données a nécessité plus de 60 milliards d'heures de calcul. OMol25 couvre un large éventail de types de molécules, allant des petites molécules organiques aux biomolécules (comme les protéines et les fragments d'ADN), aux complexes métalliques et aux électrolytes. De plus, il inclut des informations sur les états chargés, les spins, diverses configurations spatiales (conformations) et les informations liées aux réactions chimiques, fournissant des données détaillées sur les propriétés chimiques telles que l'énergie, les forces, la distribution des charges et les orbitales. Actuellement, le jeu de données OMol25 est accessible sur la plateforme Hugging Face.
Le modèle UMA, publié simultanément avec OMol25, est un nouveau modèle IA développé par Meta, entraîné sur OMol25 et d'autres ensembles de données. L'originalité d'UMA réside dans sa capacité à prédire les propriétés chimiques au niveau atomique, avec une rapidité bien supérieure aux méthodes de calcul traditionnelles. Contrairement aux anciens modèles spécifiquement conçus pour des tâches spécifiques, UMA est polyvalent, pouvant s'appliquer à diverses applications allant de la simulation moléculaire (pour la découverte de médicaments) aux études de matériaux et de catalyseurs. Construit sur des réseaux neuronaux graphiques avancés et adoptant une architecture "mixture of experts", UMA offre un bon équilibre entre vitesse de calcul et précision des prédictions. Dans les tests de référence, les performances d'UMA sont comparables à celles des modèles spécialisés hautement optimisés.
Meta souligne que grâce à UMA, des simulations moléculaires et des calculs qui prenaient auparavant plusieurs jours peuvent désormais être accomplis en quelques secondes. Cela permet aux chercheurs de trier rapidement des milliers de nouvelles molécules potentielles avant même leur synthèse en laboratoire, facilitant ainsi une évaluation efficace de leurs potentiels en tant que médicaments ou matériaux de batterie. Le modèle UMA est également disponible pour téléchargement sur Hugging Face.
A noter également, Meta a introduit une nouvelle méthode de simulation moléculaire basée sur l'IA appelée « échantillonnage accompagné ». Contrairement aux modèles d'IA classiques qui nécessitent souvent beaucoup de données réelles pour générer de nouvelles structures moléculaires, l’échantillonnage accompagné peut apprendre et proposer de nouvelles structures même en l’absence de données réelles. Cette technique s'appuie sur des concepts issus de la théorie du contrôle stochastique et des processus de diffusion, que Meta considère particulièrement adaptés à la simulation moléculaire. Les expériences montrent que cette méthode peut explorer rapidement de nombreuses variantes de structures moléculaires avec peu de calculs, générant des conformations qui correspondent souvent à celles obtenues avec des logiciels traditionnels, voire surpassent ces résultats lorsqu'il s'agit de molécules complexes. Le modèle, le code et plus d'informations sont disponibles sur Hugging Face et GitHub.
Malgré les progrès significatifs réalisés, Meta souligne qu'il reste encore des défis à relever. Par exemple, certaines zones de la chimie, comme les polymères, certains métaux ou les états protonés complexes, ne sont pas encore suffisamment couvertes par les données. De plus, les modèles d'IA doivent encore s'améliorer dans la prédiction des charges, des spins et des interactions à longue portée.