Kürzlich hat Xiaomi die Multi-Modal-Lösung MiMo-VL, die den MiMo-7B ablöst, in verschiedenen Bereichen erhebliche Leistungsfähigkeit gezeigt. Das Modell übertrifft bei der allgemeinen Fragebeantwortung und dem Verständnis von Bildern, Videos und Sprache sowie bei vielen anderen Aufgaben gleichzeitig marktübliche Multi-Modal-Modelle wie Qwen2.5-VL-7B mit deutlich mehr Parametern. Insbesondere bei der GUI-Grounding-Aufgabe erreicht es Leistungen, die mit spezialisierten Modellen vergleichbar sind, und bereitet damit die Ankunft der Agent-Ära vor.
Obwohl das MiMo-VL-7B-Modell nur 7 Milliarden Parameter hat, erzielt es herausragende Ergebnisse bei multi-modalen Inferenzaufgaben. Es führt gegenüber dem zehnmal größeren Alibaba-Modell Qwen-2.5-VL-72B und QVQ-72B-Preview sowie dem geschlossenen Quellenmodell GPT-4o deutlich in Wettbewerben wie OlympiadBench und verschiedenen Mathematik-Wettbewerben (MathVision, MathVerse). Bei internen Evaluierungen zur Erfahrung von Benutzern übertrifft es sogar GPT-4o und ist somit eines der besten Open-Source-Modelle. In realen Anwendungen zeigt es hervorragende Fähigkeiten bei komplexen bildlichen Inferenzen und Fragenbeantwortungen und auch im Umgang mit GUI-Operationen, die bis zu 10 Schritte dauern, wobei es Benutzern hilft, Produkte wie das Xiaomi SU7 in ihre Wunschlisten zu legen.
Die umfassenden visuellen Wahrnehmungsfähigkeiten des MiMo-VL-7B verdanken sich hochwertigen Vorverarbeitungsdaten und innovativen Algorithmen für hybrides Online-Reinforcement-Lernen (MORL). Während der mehrstufigen Vorverarbeitung sammelt Xiaomi qualitativ hochwertige multi-modale Vorverarbeitungsdaten in Form von Bild-Text-Paaren, Video-Text-Paaren und GUI-Operationen, die insgesamt 2,4 Billionen Tokens umfassen. Durch die schrittweise Anpassung der Anteile verschiedener Datentypen wird die Fähigkeit zur langfristigen multi-modalen Inferenz gestärkt. Hybrides Online-Reinforcement-Lernen integriert Text-Inferenz-, Multi-Modal-Wahrnehmungs- und -Inferenzsignale sowie RLHF und beschleunigt die Trainingsprozesse durch stabile Online-Algorithmen, was die Inferenz- und Wahrnehmungsleistung sowie die Benutzererfahrung systematisch verbessert.
Verwandte Links: https://huggingface.co/XiaomiMiMo.