NVIDIA acaba de lanzar Canary-Qwen-2.5B, un modelo híbrido innovador de reconocimiento automático de voz (ASR) y lenguaje (LLM), que alcanzó la cima del ranking de Hugging Face OpenASR con un récord del 5,63% de tasa de error de palabra (WER). Este modelo está bajo licencia CC-BY, tiene características comerciales y de código abierto, y elimina las barreras para el desarrollo de inteligencia artificial de voz a nivel empresarial.

Avances tecnológicos: Unificación de la comprensión de voz y el procesamiento del lenguaje

Este lanzamiento marca un importante hito tecnológico, ya que Canary-Qwen-2.5B integra la transcripción y la comprensión del lenguaje en una sola arquitectura de modelo, permitiendo realizar tareas secundarias como resúmenes y preguntas y respuestas directamente desde el audio. Esta arquitectura innovadora transforma radicalmente el proceso tradicional de ASR, integrando la transcripción y el procesamiento posterior en un único flujo de trabajo.

QQ20250718-095428.png

Indicadores clave de rendimiento

Este modelo estableció nuevos récords en múltiples dimensiones:

  • Precisión: 5,63% de WER, el más bajo en el ranking de Hugging Face OpenASR
  • Velocidad: RTFx de 418, lo que permite procesar audio 418 veces más rápido que en tiempo real
  • Eficiencia: Solo 2.500 millones de parámetros, es más compacto que modelos grandes con menor rendimiento
  • Tamaño del entrenamiento: Basado en un conjunto de datos de voz en inglés diversificado de 234.000 horas

Diseño innovador de arquitectura híbrida

La innovación central de Canary-Qwen-2.5B radica en su arquitectura híbrida, que incluye dos componentes clave:

El codificador FastConformer está especializado en transcripción de baja latencia y alta precisión, mientras que el decodificador LLM Qwen3-1.7B es un gran modelo de lenguaje preentrenado sin modificaciones, que recibe etiquetas de transcripción de audio a través de adaptadores.

Este diseño de adaptador garantiza modularidad, permitiendo separar el codificador Canary y ejecutar Qwen3-1.7B como un LLM independiente para tareas basadas en texto. Una única implementación puede manejar tareas de lenguaje secundario tanto para entradas orales como escritas, mejorando la flexibilidad multimodal.

QQ20250718-095653.png

Valor aplicativo empresarial

A diferencia de muchos modelos de investigación limitados por licencias no comerciales, Canary-Qwen-2.5B se publica bajo licencia CC-BY, abriendo una amplia gama de escenarios comerciales:

  • Servicios de transcripción empresarial
  • Extracción de conocimiento basada en audio
  • Síntesis de reuniones en tiempo real
  • Agentes de IA controlados por voz
  • Procesamiento de documentos con requisitos regulatorios (salud, derecho, finanzas)

La función de decodificación con percepción de LLM también mejora la puntuación, mayúsculas y precisión contextual, aspectos que suelen ser débiles en los resultados tradicionales de ASR.

Compatibilidad con hardware y flexibilidad de implementación

Canary-Qwen-2.5B está optimizado para múltiples tarjetas gráficas NVIDIA, admitiendo desde A100 y H100 en centros de datos, hasta RTX PRO6000 en estaciones de trabajo, pasando por GeForce RTX5090 de gama de consumo. Esta escalabilidad en múltiples categorías de hardware lo hace adecuado para inferencia en la nube y cargas de trabajo en el borde internas.

El código abierto impulsa el desarrollo de la industria

Al hacer público este modelo y sus planes de entrenamiento, el equipo de investigación de NVIDIA busca impulsar el progreso de la inteligencia artificial de voz impulsado por la comunidad. Los desarrolladores pueden combinar otros codificadores compatibles con NeMo y LLM, creando modelos híbridos específicos para nuevas áreas o idiomas.

Esta versión también abre el camino para un ASR centrado en LLM, donde el LLM no es solo un postprocesador, sino un agente central integrado en el proceso de conversión de voz a texto. Este enfoque refleja una tendencia más amplia hacia modelos de agente, sistemas capaces de comprender y tomar decisiones completas basándose en entradas multimodales del mundo real.