Alibaba Cloud ha lanzado Qwen3-Omni, lo que marca el nacimiento del primer modelo de inteligencia artificial de modalidad completa nativa a nivel mundial y ahora está disponible como código abierto. Qwen3-Omni es capaz de procesar varios tipos de entrada, como texto, imágenes, audio y video, y puede proporcionar salidas en tiempo real. Ya sea mediante texto o voz natural, responde rápidamente.
El modelo Qwen3-Omni muestra un desempeño avanzado en múltiples campos. Gracias al preentrenamiento centrado en texto en etapas tempranas y la formación multimodal mixta, el modelo posee una sólida capacidad multimodal. Su desempeño en audio y video es especialmente destacado, y también mantiene un alto estándar en efectos de texto e imagen. Según 36 pruebas estándar de audio y video, Qwen3-Omni alcanzó el nivel más reciente en 22 de ellas, y especialmente en áreas como el reconocimiento automático de voz y la comprensión de audio, su desempeño es comparable al de Gemini2.5Pro de la industria.
Qwen3-Omni admite 119 idiomas de texto y 19 idiomas de entrada de voz, además de 10 idiomas de salida de voz, incluidos inglés, chino, francés y alemán, entre otros. Esta función le permite servir mejor a usuarios de todo el mundo. Su arquitectura innovadora se basa en un sistema MoE (Mezcla de Expertos), combinado con el preentrenamiento AuT, lo que le otorga una potente capacidad de representación general. Además, el diseño de múltiples códigos garantiza una interacción de audio y video de baja latencia, apoyando conversaciones naturales fluidas.
Además de Qwen3-Omni, Alibaba Cloud también ha lanzado Qwen3-TTS, un modelo de texto a voz que admite 17 opciones de tono de voz. Este modelo demuestra un excelente rendimiento en múltiples benchmarks de evaluación, superando a varios competidores, especialmente en estabilidad de voz y similitud de tono de voz.
Qwen-Image-Edit-2509 es otra herramienta recientemente lanzada, enfocada en el soporte para múltiples imágenes en edición de imágenes, mejorando significativamente la coherencia y el efecto de la edición. No solo puede procesar una sola imagen, sino que también admite la edición de múltiples imágenes, satisfaciendo así necesidades de edición más complejas.
GitHub:https://github.com/QwenLM/Qwen3-Omni
huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
Resumen clave:
🌟 Qwen3-Omni es el primer modelo de inteligencia artificial de modalidad completa nativa a nivel mundial, que admite el procesamiento unificado de texto, imágenes, audio y video.
🌐 El modelo admite 119 idiomas de texto y 19 idiomas de entrada de voz, capaz de satisfacer las necesidades multilingües de usuarios globales.
🖼️ Qwen-Image-Edit-2509, recientemente lanzado, admite edición de múltiples imágenes, mejorando significativamente la coherencia y el efecto de la edición.