Recientemente, Hume AI lanzó oficialmente su tercer modelo de interacción vocal EVI3. Este nuevo modelo de IA vocal, con su capacidad excepcional para entender emociones y ofrecer experiencias de interacción personalizadas, ha captado la atención del sector. EVI3 no solo puede identificar con precisión las emociones en la voz del usuario, sino que también puede generar un estilo de voz y personalidad específicos según las preferencias del usuario, marcando un avance significativo en el campo de la interacción emocional y comunicación natural. A continuación, AIbase le ofrece las últimas noticias sobre EVI3 y un análisis profundo.

image.png

Dirección para la experiencia: https://demo.hume.ai/

EVI3: La fusión perfecta entre inteligencia emocional y interacción vocal

EVI3 es el tercer modelo de lenguaje vocal desarrollado por Hume AI basado en conjuntos de datos multimodales. Integrado con transcripción de voz, razonamiento y síntesis de voz, EVI3 supera a sus versiones anteriores en comprensión emocional, naturalidad de expresión vocal y personalización. Según la presentación oficial, este modelo puede generar nuevos sonidos y perfiles de personalidad basados en simples indicaciones de texto del usuario en menos de un segundo, soportando más de 30 estilos vocales complejos, otorgándole a la IA una "personalidad" o "emoción" únicas.

Por ejemplo, los usuarios pueden describir roles como "actor cómico clásico" o "hechicero sabio", y EVI3 no solo puede imitar fielmente los estilos especificados, sino que también ajustará dinámicamente el tono y el modo de expresión según el contexto de la conversación. Esta experiencia de interacción tan personalizada hace que EVI3 tenga un gran potencial en escenarios como el servicio al cliente, asistentes virtuales y creación de contenido.

Baja latencia y respuesta inteligente: rendimiento técnico líder en la industria

La latencia de inferencia de EVI3 es de solo 300 milisegundos, superando significativamente a GPT-4o de OpenAI y acercándose a tecnologías emergentes como Sesame, además de superar ampliamente a Gemini de Google. En una prueba ciega con 1,720 participantes, EVI3 superó a GPT-4o en siete dimensiones: expresión emocional, naturalidad, calidad de la voz, velocidad de respuesta, manejo de interrupciones, etc., mostrando una ventaja sin precedentes en rendimiento.

Más impresionante aún, EVI3 puede realizar búsquedas, razonamientos e inteligentes respuestas durante la conversación. Por ejemplo, mientras interactúa con el usuario, EVI3 puede "escuchar" la voz del usuario mientras consulta información externa y la incorpora de manera fluida en la conversación, mejorando enormemente la fluidez y utilidad de la interacción. Esta capacidad de procesamiento de voz de extremo a extremo ha convertido a EVI3 en el estándar en el campo de la IA vocal.

Reconocimiento emocional: hacer que la IA entienda mejor a los humanos

Otra gran característica de EVI3 es su capacidad de reconocimiento emocional. Al analizar la entonación, ritmo y timbre de la voz del usuario, EVI3 puede captar con precisión el estado emocional del usuario y ajustar su propio tono de respuesta en consecuencia, creando una experiencia de interacción más natural y empática. En comparación con los asistentes vocales tradicionales, EVI3 es mucho más detallado en la expresión emocional, capaz de simular pausas, cambios de tono y hasta hábitos orales naturales como "umm" en conversaciones humanas.

Hume AI señaló que EVI3 optimizó el tono, la velocidad de habla y el estilo emocional mediante técnicas de aprendizaje por refuerzo, utilizando un conjunto de datos de más de 100,000 muestras de voz. Este único método de entrenamiento multimodal permite que EVI3 extraiga características sutiles de la voz humana de grandes cantidades de datos, generando expresiones vocales más realistas e impactantes.

Aplicaciones en múltiples escenarios: posibilidades ilimitadas desde el servicio al cliente hasta la creación de contenido

EVI3 ya está disponible para experimentar a través de la aplicación iOS de Hume AI y la plataforma de demostración en línea, y se lanzará la interfaz API en las próximas semanas para que los desarrolladores la integren en diversas aplicaciones. Ya sea para servicios al cliente, entrenadores de salud, narración inmersiva o compañeros virtuales, EVI3 puede proporcionar experiencias de interacción altamente personalizadas y emocionales.

Por ejemplo, en escenarios de servicio al cliente, EVI3 puede ajustar el tono según el estado emocional del usuario y ofrecer respuestas más consideradas; en el ámbito de la creación de contenido, los creadores pueden utilizar EVI3 para generar audiolibros personalizados o doblajes de personajes de juegos, enriqueciendo enormemente las posibilidades creativas. Hume AI planea optimizar aún más las capacidades multilingües de EVI3 y apoyar con mayor destreza idiomas como francés, alemán, italiano y español en el futuro, expandiendo así el mercado global.

La visión de Hume AI: impulsar el futuro de la IA con emociones

Hume AI fue fundada en 2021 por Alan Cowen, ex investigador de DeepMind, con el objetivo de crear tecnología de IA centrada en las emociones y el bienestar humano. El lanzamiento de EVI3 es un paso importante hacia la realización de esta visión. Según la empresa, para finales de 2025, el objetivo de Hume AI es crear una experiencia de IA vocal completamente personalizada, convirtiendo la interacción vocal en el principal medio de comunicación entre humanos e IA.

En comparación con gigantes como OpenAI y Anthropic, que se centran en mejorar la inteligencia general del modelo, Hume AI pone más énfasis en la autenticidad y la empatía de la IA vocal. EVI3, mediante herramientas de personalización de lenguaje natural, permite a los usuarios crear voces de IA personalizadas sin necesidad de operaciones técnicas complicadas, lo que podría promover la popularización y aplicación de la IA vocal.

El lanzamiento de EVI3 sin duda ha inyectado nueva vitalidad al campo de la IA vocal. Sus avances en reconocimiento emocional, baja latencia de respuesta y personalización han no solo desafiado los límites de rendimiento de los modelos de IA vocal existentes, sino que también han trazado un rumbo para futuras formas de interacción IA. AIbase cree que el surgimiento de EVI3 marca un paso crucial hacia la transformación de asistentes vocales mecánicos en verdaderos compañeros inteligentes "que te entienden".