Das KI-Abteilung von Alibaba hat heute offiziell die kompakte Version der Qwen3-VL-Serie mit visueller Sprachmodellen veröffentlicht, wobei es sich um Varianten mit 4 Milliarden und 8 Milliarden Parametern handelt. Dieser Schritt markiert einen bedeutenden Fortschritt bei der Anwendung fortschrittlicher multimodaler KI-Technologien auf Edge-Geräte und Ressourcenbegrenzte Umgebungen.

Leistungssteigerung: Kleine Modelle messen sich mit den Großen

Die neu veröffentlichten Modelle mit 4B und 8B bieten sowohl Instruct- als auch Thinking-Versionen und sind für zentrale multimodale Fähigkeiten wie STEM-Reasoning, Visual Question Answering (VQA), Optical Character Recognition (OCR), Videoverstehen und Agentenaufgaben optimiert.

Laut den veröffentlichten Benchmark-Tests zeigten diese kleinen Modelle eine herausragende Leistung und übertrafen dabei Konkurrenten wie Gemini2.5Flash Lite und GPT-5Nano. Besonders beeindruckend ist, dass ihre Leistung in einigen Bereichen sogar mit dem größeren Qwen2.5-VL-72B-Modell vergleichbar ist, das nur sechs Monate zuvor veröffentlicht wurde, was eine sehr hohe Parameter-Effizienz zeigt.

QQ20251015-103538.png

Ressourcenoptimierung, KI-Demokratisierung fördern

Der Schlüsselvorteil des neuen Modells besteht darin, dass der VRAM-Verbrauch deutlich reduziert wird, sodass es direkt auf Verbraucherhardware wie Laptops und Smartphones laufen kann. Um die Effizienz weiter zu steigern, bietet Alibaba auch eine FP8-Quantisierungsversion an, die die Ressourcenverbrauch weiter reduziert, ohne die Kernkompetenzen einzubüßen. „Kleine VL-Modelle eignen sich für die Implementierung und haben in der Mobiltelefon- und Roboterbranche eine große Bedeutung“, sagte ein Mitglied des Qwen-Entwicklerteams.

Schnelle Iteration, Open-Source-Teilung

Die Einführung dieser kompakten Modelle folgt der Roadmap der im September vorgestellten Qwen3-VL-Serie (mit einem Stammmodell mit 235 Milliarden Parametern). Bisher hat Alibaba bereits am Anfang des Oktober eine 30B-A3B-Variante veröffentlicht, die mit nur 30 Milliarden aktiven Parametern Ergebnisse erzielte, die mit GPT-5Mini und Claude4Sonnet vergleichbar sind. Diese schnelle Iteration wird von der Branche als Beweis dafür angesehen, dass Alibaba die Demokratisierung leistungsstarker KI vorantreibt, insbesondere für embodied systems wie Roboter.

Adresse:

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks