MILS est un projet open source publié par Facebook Research, visant à démontrer la capacité des grands modèles linguistiques (LLM) à traiter des tâches visuelles et auditives sans aucune formation préalable. Cette technologie exploite des modèles pré-entraînés et des algorithmes optimisés pour générer automatiquement des descriptions d'images, d'audio et de vidéo. Cette avancée technologique ouvre de nouvelles perspectives pour le développement de l'intelligence artificielle multimodale, démontrant le potentiel des LLM dans les tâches intermodales. Le modèle s'adresse principalement aux chercheurs et développeurs, leur offrant un outil puissant pour explorer les applications multimodales. Ce projet est actuellement gratuit et open source, afin de stimuler la recherche académique et le développement technologique.