Das Allen Institute for Artificial Intelligence (Ai2) hat kürzlich Molmo vorgestellt, eine neue Familie quelloffener, multimodaler KI-Modelle, die beeindruckende Leistungen zeigt und in mehreren Drittanbieter-Benchmark-Tests sogar OpenAIs GPT-4o, Anthropics Claude 3.5 Sonnet und Googles Gemini 1.5 übertrifft.

image.png

Molmo kann nicht nur vom Benutzer hochgeladene Bilder analysieren, sondern wurde auch mit „tausendmal weniger Daten als die Konkurrenz“ trainiert – ein Ergebnis seiner einzigartigen Trainingsmethoden.

image.png

Diese Veröffentlichung unterstreicht Ai2s Engagement für offene Forschung und bietet leistungsstarke Modelle sowie offene Gewichte und Daten für eine breitere Community und Unternehmen. Die Molmo-Familie umfasst vier Hauptmodelle: Molmo-72B, Molmo-7B-D, Molmo-7B-O und MolmoE-1B. Das Flaggschiff-Modell Molmo-72B mit 72 Milliarden Parametern zeichnet sich besonders aus.

Nach verschiedenen Bewertungen erreichte Molmo-72B in 11 wichtigen Benchmark-Tests die Höchstpunktzahl und lag in Bezug auf die Benutzerpräferenz nur knapp hinter GPT-4o. Ai2 hat auch ein Modell namens OLMoE vorgestellt, das auf einer „Ensemble-Methode kleiner Modelle“ basiert und darauf abzielt, die Kosten zu senken.

Die Architektur von Molmo wurde sorgfältig entwickelt, um eine effiziente und hervorragende Leistung zu gewährleisten. Alle Modelle verwenden OpenAIs ViT-L/14336px CLIP-Modell als visuellen Encoder, der Bilder in verschiedenen Maßstäben in visuelle Token verarbeitet. Der Sprachmodellteil ist ein Decoder-Transformer mit unterschiedlichen Kapazitäten und Offenheit.

Das Training erfolgte in zwei Phasen: zunächst ein multimodales Pretraining, gefolgt von einem überwachten Feintuning. Im Gegensatz zu vielen modernen Modellen stützt sich Molmo nicht auf Reinforcement Learning mit menschlichem Feedback, sondern aktualisiert die Modellparameter durch einen sorgfältig abgestimmten Trainingsprozess.

Molmo erzielte in mehreren Benchmark-Tests hervorragende Ergebnisse, insbesondere bei komplexen Aufgaben wie Dokumentenlesen und visueller Inferenz, was seine Leistungsfähigkeit unter Beweis stellt. Ai2 hat diese Modelle und Datensätze bereits auf Hugging Face veröffentlicht und wird in den kommenden Monaten weitere Modelle und erweiterte technische Berichte veröffentlichen, um Forschern mehr Ressourcen zur Verfügung zu stellen.

Wenn Sie die Funktionen von Molmo kennenlernen möchten, können Sie jetzt eine öffentliche Demo auf der offiziellen Molmo-Website durchführen (https://molmo.allenai.org/).

Highlights:

🌟 Ai2s Molmo, ein quelloffenes multimodales KI-Modell, übertrifft branchenführende Produkte.

📊 Molmo-72B zeigt in mehreren Benchmark-Tests herausragende Leistungen und liegt nur knapp hinter GPT-4o.

🔍 Hohe Offenheit: Modelle und Datensätze stehen Forschern zur freien Verfügung.