R1-V est un projet axé sur l'amélioration de la capacité de généralisation des modèles linguistiques visuels renforcés (VLM). Grâce à la technique d'apprentissage par renforcement avec récompenses vérifiables (RLVR), il améliore considérablement la capacité de généralisation des VLM dans les tâches de comptage visuel, notamment lors des tests hors distribution (OOD). L'importance de cette technique réside dans sa capacité à optimiser efficacement les modèles à grande échelle à un coût extrêmement faible (seulement 2,62 $ de coût de formation), ouvrant de nouvelles perspectives pour la mise en pratique des modèles linguistiques visuels. Le projet s'appuie sur des améliorations apportées aux méthodes d'entraînement des VLM existantes, avec pour objectif d'améliorer les performances du modèle dans des tâches visuelles complexes grâce à des stratégies d'entraînement innovantes. La nature open source de R1-V en fait également une ressource importante pour les chercheurs et les développeurs souhaitant explorer et appliquer les technologies VLM avancées.