Con el rápido desarrollo de las tecnologías de inteligencia artificial, el habla está rápidamente convirtiéndose en el principal medio de comunicación entre nosotros y las máquinas. La empresa emergente francesa Mistral ha anunciado oficialmente su primer modelo de audio de código abierto - Voxtral -, con el objetivo de romper el monopolio de los sistemas cerrados de grandes empresas y ofrecer a los desarrolladores una alternativa más flexible y económica.

Mistral afirma que Voxtral es el primer modelo de código abierto capaz de proporcionar "inteligencia de voz verdaderamente utilizable" en aplicaciones reales. Esto significa que los desarrolladores ya no tienen que hacer una difícil elección entre sistemas de código abierto de bajo costo y soluciones eficientes pero cerradas. Con la ventaja de "menos de la mitad del precio", Voxtral ofrece a las empresas una opción más económica.

image.png

Según informó Mistral, Voxtral puede transcribir audios de hasta 30 minutos. Debido a que se basa en el modelo de lenguaje grande Mistral Small3.1, los usuarios pueden comprender contenidos de audio de hasta 40 minutos. Los usuarios no solo pueden plantear preguntas relacionadas con el contenido del audio, sino también generar resúmenes o incluso convertir instrucciones de voz en operaciones en tiempo real, como llamar a una API o ejecutar funciones específicas. Además, Voxtral cuenta con soporte multilingüe, pudiendo entender y transcribir varios idiomas, incluyendo inglés, español, francés, portugués, hindi, alemán, holandés e italiano.

Mistral ofrece dos variantes del "modelo de comprensión de voz". En primer lugar, Voxtral Small, con 24 mil millones de parámetros, adecuado para implementaciones en producción, y que compite con modelos como ElevenLabs Scribe, GPT-4o-mini y Gemini2.5Flash. En segundo lugar, Voxtral Mini, con 3 mil millones de parámetros, adecuado para implementaciones locales y en bordes. También hay un modelo extremadamente económico de 300 millones de parámetros llamado Voxtral Mini Transcribe, optimizado especialmente para escenarios de transcripción, cuyo rendimiento promete superar a Whisper de OpenAI, pero al precio menos de la mitad.

Los usuarios pueden descargar gratuitamente la API de Voxtral en Hugging Face o probarla en el chatbot de Mistral Le Chat. Según la empresa, los costos de integración de la API comienzan desde 0,001 dólares por minuto. Esta publicación ocurre en un momento oportuno, ya que hace un mes Mistral lanzó su modelo de razonamiento Magistral, y estos modelos mejoran la confiabilidad al resolver problemas paso a paso.

Como una de las principales empresas de inteligencia artificial de Europa, Mistral siempre ha impulsado activamente el desarrollo de modelos de inteligencia artificial de código abierto. Destaca mencionar que recientemente se informó que Mistral está negociando con inversores para reunir hasta 1.000 millones de dólares, incluyendo el fondo MGX de Abu Dabi.