Hoy, Volcano Engine, la plataforma de servicios en la nube de ByteDance, anunció que su modelo de lenguaje grande Doubao ahora admite una nueva función de llamadas de voz en tiempo real.

Según se informa, la solución de interacción en tiempo real de IA conversacional proporcionada por Volcano Engine combina la plataforma de servicios de modelos de lenguaje grandes Volcano Ark y los modelos de reconocimiento y síntesis de voz de Doubao, simplificando el proceso de conversión de voz a texto y de texto a voz. Esta solución permite una recopilación, procesamiento y transmisión de datos de voz eficientes, ofreciendo una capacidad excepcional de diálogo inteligente y procesamiento del lenguaje natural.

Modelo de lenguaje grande Doubao de ByteDance Douyin

Volcano Engine RTC, basado en la tecnología de procesamiento de audio 3A, resuelve eficazmente el fenómeno de "doble habla", garantizando la precisión y la capacidad de respuesta del reconocimiento de voz. Al mismo tiempo, utilizando la red de transmisión WebRTC, ofrece un servicio de transmisión de audio y video en tiempo real de ultra baja latencia, estable y confiable a nivel mundial.

Volcano Engine también proporciona soluciones de acceso flexibles y diversas, incluyendo soluciones de integración propia y soluciones de red de transmisión basadas en el protocolo estándar WebRTC, para satisfacer las necesidades específicas de diferentes empresas.

Además, el servicio de interacción en tiempo real multi-modal de modelos de lenguaje grandes de Volcano Engine ya ha proporcionado capacidades de voz en tiempo real de IA a algunas de las principales aplicaciones de chat de personajes virtuales de IA en China, ofreciendo una experiencia interactiva completamente nueva. Volcano Engine continuará proporcionando capacidades de audio y video e IA de alta calidad para ayudar a las empresas a innovar en el campo del audio y video en tiempo real con IA.