KI-Nachrichten

Verpassen Sie keinen Moment der globalen KI-Innovation

KI-Tagesübersicht

Tägliche Drei-Minuten-KI-Branchentrends

KI-Zeitleiste

Meilensteine der KI-Industrie

Al hardware

die artillerie der artillerie

KI-Monetarisierungs-Leitfaden

Neueste Fälle

KI-Monetarisierungsfall-Sharing

Bildersammlung

KI-Bilderstellungs-Monetarisierungsfälle

Videosammlung

KI-Videoerstellungs-Monetarisierungsfälle

Audiosammlung

KI-Audioerstellungs-Monetarisierungsfälle

Inhaltssammlung

KI-Content-Writing-Monetarisierungsfälle

KI-Tutorials

Neueste Tutorials

Kostenlose Weitergabe der neuesten KI-Tutorials

KI-Produkt-Rankings

KI-Produkt-Ranking

Zeigt das Ranking der Gesamtbesuche von KI-Websites

KI-Traffic-Wachstumsranking

Verfolgen Sie die am schnellsten wachsenden KI-Websites nach Traffic

KI-Traffic-Rückgangsranking

Konzentrieren Sie sich auf KI-Websites mit signifikanten Traffic-Einbrüchen

KI-Wochenranking

Zeigt das wöchentliche Besuchsranking von KI-Websites

Beliebte Länder-Rankings

Vereinigte Staaten

KI-Websites, die bei US-Nutzern am beliebtesten sind

China

KI-Websites, die bei chinesischen Nutzern am beliebtesten sind

Indien

KI-Websites, die bei indischen Nutzern am beliebtesten sind

Brasilien

KI-Websites, die bei brasilianischen Nutzern am beliebtesten sind

Beliebte Kategorie-Rankings

Bildgenerierung

Ranking der Gesamtbesuche von KI-Bildgenerierungs-Websites

Persönlicher Assistent

Ranking der Gesamtbesuche von KI-Websites für persönliche Assistenten

Charaktergenerierung

Ranking der Gesamtbesuche von KI-Websites zur Charaktergenerierung

Videogenerierung

Ranking der Gesamtbesuche von KI-Videogenerierungs-Websites

Beliebte Open-Source-Datenrankings

KI-Projektranking

GitHub beliebte KI-Projekte nach Gesamt-Stars

KI-Projektwachstumsranking

GitHub beliebte KI-Projekte nach Wachstumsrate

KI-Entwickler-Ranking

GitHub beliebtes KI-Entwickler-Ranking

KI-Organisationsranking

GitHub beliebtes KI-Organisationsranking

Beliebte Open-Source-Kategorien

Deepseek

GitHub beliebte Deepseek Open-Source-Projekte

TTS

GitHub beliebte TTS Open-Source-Projekte

LLM

GitHub beliebte LLM Open-Source-Projekte

ChatGPT

GitHub beliebte ChatGPT Open-Source-Projekte

KI-Open-Source-Projektbibliothek

Überblick

Überblick über GitHub beliebte KI-Open-Source-Projekte

Produktbibliothek Tool Navigation MCP

Xiaomi-MiMo-VL-Multimodal-Modell ist jetzt Open Source

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 3 Minuten Lesezeit · May 30, 2025

Kürzlich hat Xiaomi die Multi-Modal-Lösung MiMo-VL, die den MiMo-7B ablöst, in verschiedenen Bereichen erhebliche Leistungsfähigkeit gezeigt. Das Modell übertrifft bei der allgemeinen Fragebeantwortung und dem Verständnis von Bildern, Videos und Sprache sowie bei vielen anderen Aufgaben gleichzeitig marktübliche Multi-Modal-Modelle wie Qwen2.5-VL-7B mit deutlich mehr Parametern. Insbesondere bei der GUI-Grounding-Aufgabe erreicht es Leistungen, die mit spezialisierten Modellen vergleichbar sind, und bereitet damit die Ankunft der Agent-Ära vor.

Obwohl das MiMo-VL-7B-Modell nur 7 Milliarden Parameter hat, erzielt es herausragende Ergebnisse bei multi-modalen Inferenzaufgaben. Es führt gegenüber dem zehnmal größeren Alibaba-Modell Qwen-2.5-VL-72B und QVQ-72B-Preview sowie dem geschlossenen Quellenmodell GPT-4o deutlich in Wettbewerben wie OlympiadBench und verschiedenen Mathematik-Wettbewerben (MathVision, MathVerse). Bei internen Evaluierungen zur Erfahrung von Benutzern übertrifft es sogar GPT-4o und ist somit eines der besten Open-Source-Modelle. In realen Anwendungen zeigt es hervorragende Fähigkeiten bei komplexen bildlichen Inferenzen und Fragenbeantwortungen und auch im Umgang mit GUI-Operationen, die bis zu 10 Schritte dauern, wobei es Benutzern hilft, Produkte wie das Xiaomi SU7 in ihre Wunschlisten zu legen.

Die umfassenden visuellen Wahrnehmungsfähigkeiten des MiMo-VL-7B verdanken sich hochwertigen Vorverarbeitungsdaten und innovativen Algorithmen für hybrides Online-Reinforcement-Lernen (MORL). Während der mehrstufigen Vorverarbeitung sammelt Xiaomi qualitativ hochwertige multi-modale Vorverarbeitungsdaten in Form von Bild-Text-Paaren, Video-Text-Paaren und GUI-Operationen, die insgesamt 2,4 Billionen Tokens umfassen. Durch die schrittweise Anpassung der Anteile verschiedener Datentypen wird die Fähigkeit zur langfristigen multi-modalen Inferenz gestärkt. Hybrides Online-Reinforcement-Lernen integriert Text-Inferenz-, Multi-Modal-Wahrnehmungs- und -Inferenzsignale sowie RLHF und beschleunigt die Trainingsprozesse durch stabile Online-Algorithmen, was die Inferenz- und Wahrnehmungsleistung sowie die Benutzererfahrung systematisch verbessert.

Verwandte Links: https://huggingface.co/XiaomiMiMo.

MiMo-VL Xiaomi Multimodal-Modell Qwen2.5-VL-7B

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe