MILS é um projeto de código aberto lançado pelo Facebook Research, que demonstra a capacidade de modelos de linguagem grandes (LLMs) de processar tarefas visuais e auditivas sem nenhum treinamento prévio. A tecnologia utiliza modelos pré-treinados e algoritmos otimizados para gerar descrições automáticas de imagens, áudios e vídeos. Essa inovação tecnológica proporciona novas perspectivas para o desenvolvimento da inteligência artificial multimodal, mostrando o potencial dos LLMs em tarefas intermodais. O modelo é direcionado principalmente a pesquisadores e desenvolvedores, fornecendo uma ferramenta robusta para explorar aplicações multimodais. Atualmente, o projeto é de código aberto e gratuito, com o objetivo de impulsionar a pesquisa acadêmica e o desenvolvimento tecnológico.