Das AI-Team (AIDC-AI) der Alibaba International Digital Trade Group hat kürzlich ein neues multimodales großes Sprachmodell Ovis2.5 veröffentlicht, das zwei Versionen mit 9B und 2B Parametern bietet. Das Modell ist als wirtschaftliche visuelle Schlussfolgerungslösung konzipiert und zeigt in seinem Größenbereich herausragende Leistungsfähigkeit, was es zu einem neuen Benchmark für multimodale KI-Anwendungen macht.
Die Kernmerkmale von Ovis2.5
1. **Native Auflösungserkennung**: Ovis2.5 verwendet den NaViT-Visual-Encoder, der die feinen Details und die globale Struktur eines Bildes ohne Verluste beibehält, um eine hochwertige visuelle Verarbeitungsfähigkeit sicherzustellen.
2. **Tiefe Schlussfolgerungsfähigkeit**: Das Modell unterstützt einen „Denkmodus“, der möglicherweise Teile der technischen Merkmale von Alis Qwen3 nutzt. Neben der linearen Denkketten (CoT)-Schlussfolgerung kann sich Ovis2.5 auch selbst überprüfen und korrigieren und unterstützt ein konfigurierbares Denkbudget, um die Genauigkeit bei der Problemlösung zu verbessern.
3. **Führend in Diagramm- und Dokumenten-OCR**: Auf den Größen 9B und 2B erreicht Ovis2.5 in komplexer Diagrammanalyse, Dokumentenverständnis (einschließlich Tabellen und Formulare) sowie optischer Zeichenerkennung (OCR) führende Positionen im Branchenvergleich und bietet damit starken Support für reale Anwendungsszenarien.
4. **Weite Aufgabenabdeckung**: Das Modell schneidet gut in Bildschlussfolgerung, Videoverstehen und visuellen Lokalisierungsbenchmark-Tests ab und zeigt damit eine starke allgemeine multimodale Fähigkeit.
Die Veröffentlichung von Ovis2.5 unterstreicht die kontinuierliche Innovation von AIDC-AI im Bereich multimodaler KI-Technologie. Durch die Erreichung einer hohen Leistung in einem kompakten Modellgrößenbereich bietet Ovis2.5 Entwicklern und Unternehmen eine effiziente und leicht implementierbare Lösung, insbesondere für Szenarien, die eine Kombination aus visueller und textbasierter Schlussfolgerung erfordern. Das Modell ist auf Plattformen wie GitHub und Hugging Face open source, was die Zusammenarbeit und Innovation in der globalen KI-Gemeinschaft weiter voranbringt.
Diese Veröffentlichung ist ein weiterer wichtiger Fortschritt des AIDC-AI innerhalb der Ovis-Serie und gibt der Entwicklung multimodaler großer Sprachmodelle neue Impulse.