Qwen2.5-Omni es el modelo multimodal insignia de nueva generación lanzado por el equipo de Alibaba Cloud Tongyi Qianwen. Este modelo está diseñado para la percepción multimodal integral, pudiendo procesar sin problemas múltiples formas de entrada como texto, imágenes, audio y video, y generar simultáneamente salida de texto y síntesis de voz natural mediante una respuesta en tiempo real. Su innovadora arquitectura Thinker-Talker y la tecnología de codificación de posición TMRoPE, hacen que se destaque en tareas multimodales, especialmente en la comprensión de audio, video e imágenes. Este modelo ha superado a modelos unimodales de tamaño similar en varias pruebas de referencia, mostrando un potente rendimiento y un amplio potencial de aplicación. Actualmente, Qwen2.5-Omni se encuentra disponible en código abierto en Hugging Face, ModelScope, DashScope y GitHub, ofreciendo a los desarrolladores una gran variedad de escenarios de uso y soporte de desarrollo.