Mistral-Nemo-Instruct-2407 est un grand modèle linguistique (LLM) entraîné conjointement par Mistral AI et NVIDIA. Il s'agit d'une version affinée par instruction de Mistral-Nemo-Base-2407. Ce modèle, entraîné sur des données multilingues et de code, surpasse de manière significative les modèles existants de taille similaire ou inférieure. Ses principales caractéristiques incluent : entraînement sur des données multilingues et de code, fenêtre contextuelle de 128 k, alternative à Mistral 7B. L'architecture du modèle comprend 40 couches, 5120 dimensions, 128 dimensions de tête, 1436 dimensions cachées, 32 têtes, 8 têtes kv (GQA), un vocabulaire de 2^17 (environ 128 k), et des embeddings rotationnels (theta=1M). Ce modèle a obtenu d'excellents résultats dans plusieurs tests de référence, tels que HellaSwag (0-shot), Winogrande (0-shot) et OpenBookQA (0-shot).