El Instituto de Inteligencia Artificial de Allen, en colaboración con varias universidades, ha publicado OLMo, el primer modelo de lenguaje grande (LLM) 100% de código abierto a nivel mundial. Este incluye pesos, código fuente, conjuntos de datos y el proceso de entrenamiento completo. Las evaluaciones de rendimiento muestran que OLMo-7B supera ligeramente a otros modelos en varias tareas. Simultáneamente, los investigadores han hecho público el conjunto de datos de preentrenamiento Dolma, impulsando la investigación abierta en el campo del preentrenamiento de modelos de lenguaje. En cuanto a la transparencia de los datos, se proporcionan herramientas de organización y análisis de datos.