Recientemente, ElevenLabs lanzó oficialmente su nueva plataforma de interacción de voz generación 2.0, Conversational AI2.0, que ha causado gran revuelo en la industria gracias a una experiencia de interacción vocal más natural, inteligente y eficiente. Esta versión actualizada logra avances significativos en fluidez de conversación, soporte multilingüe y capacidad para aplicaciones empresariales, capturando con precisión el ritmo del diálogo del usuario y alternando sin problemas entre varios idiomas mientras extrae información de la base de conocimientos de la empresa. Esto abre nuevas posibilidades en campos como el servicio al cliente, marketing y creación de contenido.

image.png

Nueva experiencia de diálogo fluido: despidiéndonos de los interrupciones incómodas

Conversational AI2.0 incorpora un modelo avanzado de diálogo por turnos, analizando en tiempo real las indicaciones verbales del usuario (como "uh" o "mm"), para determinar cuándo hablar y cuándo esperar, evitando así las interrupciones incómodas o pausas inapropiadas comunes en sistemas de voz tradicionales. Por ejemplo, en escenarios de servicio al cliente, cuando el usuario se detiene a pensar o buscar información, el sistema de IA espera de manera natural y responde en el momento adecuado, mejorando considerablemente la fluidez y autenticidad de la conversación. Este enfoque de interacción cercano al ritmo humano proporciona a los usuarios una experiencia natural sin precedentes.

image.png

Cambio de idioma fluido: comunicación global sin barreras

Para satisfacer las necesidades globales, Conversational AI2.0 incluye una función automática de detección de idioma, permitiendo un cambio fluido entre diálogos en varios idiomas sin necesidad de configuración manual. Sin importar si el usuario habla chino, español u otro idioma, la IA identifica automáticamente y responde en el idioma correspondiente, ofreciendo síntesis de voz de alta calidad en más de 32 idiomas. Esta funcionalidad proporciona a las empresas una experiencia consistente en el servicio al cliente, mostrando un enorme potencial en el soporte de clientes transnacionales y la expansión del mercado.

Video oficial, traducción: Xiao Hu

Respuesta inteligente impulsada por conocimiento: más profesional y precisa

A través de la integración de tecnología RAG (Generación Incrementada por Búsqueda), Conversational AI2.0 puede extraer información en tiempo real de la base de conocimientos exclusiva de la empresa, asegurando la precisión y profesionalidad de las respuestas. Por ejemplo, en escenarios médicos, el asistente de IA puede acceder instantáneamente a las guías de tratamiento más recientes, respetando al mismo tiempo los requisitos de cumplimiento de privacidad HIPAA; en el servicio al cliente, la IA puede acceder rápidamente a los documentos del producto y proporcionar respuestas precisas. Esta capacidad de búsqueda de conocimiento con baja latencia y alta privacidad no solo hace que la IA "hable", sino que también "entienda el sector".

Llamadas masivas e interacción multimodal: eficiencia y flexibilidad juntas

Conversational AI2.0 introduce la función de llamadas masivas, permitiendo que las empresas inicien notificaciones, encuestas o llamadas de marketing personalizadas a cientos o incluso miles de clientes simultáneamente, mejorando significativamente la eficiencia operativa. Esta función es particularmente útil para la transmisión de alertas, la realización de encuestas de mercado o la comunicación a gran escala con los clientes. Además, la plataforma admite interacciones multimodales, lo que permite a los usuarios interactuar con la IA mediante voz o texto, y estas dos formas pueden cambiar fácilmente entre sí. Por ejemplo, el usuario puede iniciar una conversación por voz y, cuando sea necesario ingresar datos complejos (como un número de pedido), cambiar a la entrada de texto, reduciendo errores y mejorando la experiencia.

Aplicaciones empresariales: garantía de seguridad y escalabilidad

Conversational AI2.0 está diseñado específicamente para satisfacer las necesidades empresariales, siendo compatible con HIPAA y con soporte para residencia de datos en la Unión Europea, asegurando la privacidad y el cumplimiento de datos, especialmente adecuado para industrias sensibles como la salud y los servicios financieros. Además, la plataforma ofrece APIs WebSocket y múltiples SDK (incluidos JavaScript, React, Python e iOS), permitiendo a los desarrolladores integrar rápidamente, construyendo aplicaciones desde el servicio al cliente hasta el aprendizaje personalizado. Las empresas pueden implementar asistentes de IA con una simple configuración, eliminando la necesidad de construir sistemas de diálogo complejos desde cero y acortando significativamente el ciclo de desarrollo.

La competencia con EVI3: un nuevo campo en el ámbito de la IA vocal

Es importante destacar que el lanzamiento de Conversational AI2.0 coincide con el anuncio del modelo EVI3 de Hume AI. Ambos están poniendo énfasis en la conversación natural y el soporte multilingüe. En comparación, ElevenLabs presta mayor atención a la versatilidad y escalabilidad de las aplicaciones empresariales, destacándose especialmente en la función de llamadas masivas e interacción multimodal. Por otro lado, EVI3 va más allá en reconocimiento emocional y generación de voz personalizada. AIbase cree que esta competencia en IA vocal acelerará el desarrollo de la industria hacia una inteligencia más avanzada y humanizada.

Conversational AI2.0 de ElevenLabs redefine los límites de la aplicación de IA vocal con sus capacidades de diálogo fluido, soporte multilingüe y funciones empresariales. Desde el servicio al cliente hasta el marketing y la creación de contenido inmersivo, esta plataforma proporciona soluciones eficientes y flexibles para las empresas. AIbase predice que con la apertura adicional de la API y la optimización de la capacidad multilingüe, Conversational AI2.0引爆ará una nueva ola de entusiasmo por la interacción vocal en todo el mundo.

Sitio web oficial: https://elevenlabs.io/blog/conversational-ai-2-0