MILS es un proyecto de código abierto publicado por Facebook Research, diseñado para demostrar la capacidad de los modelos lingüísticos de gran tamaño (LLM) para procesar tareas visuales y auditivas sin entrenamiento previo. Esta tecnología, mediante el uso de modelos preentrenados y algoritmos de optimización, permite la generación automática de descripciones de imágenes, audio y vídeo. Este avance tecnológico proporciona nuevas perspectivas para el desarrollo de la inteligencia artificial multimodal, mostrando el potencial de los LLM en tareas intermodales. El modelo está dirigido principalmente a investigadores y desarrolladores, ofreciéndoles una herramienta potente para explorar aplicaciones multimodales. Actualmente, el proyecto es de código abierto y gratuito, con el objetivo de impulsar la investigación académica y el desarrollo tecnológico.