Megrez-3B-Omni ist ein von WuWenXinQiong entwickeltes Open-Source-Modell für umfassendes modales Verständnis auf Endgeräten. Es basiert auf dem großen Sprachmodell Megrez-3B-Instruct und verfügt über die Fähigkeit, Bild-, Text- und Audiodaten zu verstehen und zu analysieren. Das Modell erzielt optimale Genauigkeit in den Bereichen Bild-, Sprach- und Spracherkennung, unterstützt chinesische und englische Spracheingaben sowie mehrstufige Dialoge, ermöglicht die sprachgesteuerte Abfrage von Bildern und liefert textbasierte Antworten auf Sprachbefehle. Es liefert in zahlreichen Benchmark-Aufgaben führende Ergebnisse.