Megrez-3B-Omni es un modelo de comprensión multimodal de extremo a extremo desarrollado por Wuwen Xiongqiong, basado en la extensión del modelo de lenguaje grande Megrez-3B-Instruct. Posee la capacidad de comprender y analizar datos de tres modalidades: imágenes, texto y audio. Este modelo ha logrado la precisión óptima en la comprensión de imágenes, lenguaje y voz, admite la entrada de voz en chino e inglés y conversaciones de varias rondas, permite realizar preguntas de voz sobre imágenes de entrada y responder directamente con texto a instrucciones de voz, obteniendo resultados líderes en varias tareas de referencia.