El equipo TEN Agent anunció recientemente que su modelo central **TEN Voice Activity Detection (VAD)** y **TEN Turn Detection** están ahora disponibles de forma abierta, proporcionando un sólido soporte técnico para construir agentes de inteligencia artificial de voz en tiempo real y multimodal.
Este movimiento marca un avance significativo en la democratización y colaboración abierta de la tecnología de interacción de voz dentro del marco TEN. A continuación, se presenta la información más reciente recopilada por AIbase, con un análisis profundo sobre las funciones, ventajas y potencial impacto en la industria de estos dos modelos centrales.
TEN VAD: Detección de actividad de voz de baja latencia y alto rendimiento
TEN VAD es un detector de actividad de voz en tiempo real diseñado específicamente para aplicaciones empresariales, conocido por su baja latencia, ligereza y alto rendimiento. Según la información oficial y los comentarios en redes sociales, TEN VAD puede detectar la actividad de voz con precisión a nivel de frame, superando significativamente a modelos como WebRTC VAD y Silero VAD comúnmente utilizados en la industria. A continuación, se presentan sus principales características:
- **Baja complejidad computacional**: La biblioteca de TEN VAD tiene un tamaño pequeño y una complejidad computacional baja, es compatible con C en múltiples plataformas, cubriendo sistemas operativos como Linux x64, Windows, macOS, Android e iOS, además ofrece bindings para Python en Linux x64 y soporte WASM para el lado web.[] (https://huggingface.co/TEN-framework/ten-vad)
- **Alta precisión y baja latencia**: Comparado con Silero VAD, TEN VAD tiene menor latencia en la detección de transiciones de voz a no voz, pudiendo identificar rápidamente pausas cortas, lo que lo hace ideal para escenarios de interacción en tiempo real. Las pruebas muestran que su factor de tiempo real (RTF) es excelente en múltiples plataformas de CPU.[](https://huggingface.co/TEN-framework/ten-vad)
- **Nuevos avances en apertura**: En junio de 2025, el equipo TEN abrió el modelo ONNX y el código de preprocesamiento, permitiendo implementarlo en cualquier plataforma y arquitectura de hardware compatible con ONNX, mejorando así su flexibilidad. Además, el soporte de WASM + JS amplía las posibilidades de aplicación en el lado web.
En las redes sociales, los desarrolladores han mostrado una alta valoración por el lanzamiento abierto de TEN VAD, considerándolo superior a los modelos tradicionales de VAD, ofreciendo una herramienta poderosa para el desarrollo de asistentes de voz en tiempo real.
TEN Turn Detection: Gestión inteligente de turnos en conversaciones
**TEN Turn Detection** es un modelo inteligente de detección de turnos diseñado específicamente para comunicaciones de doble vía de voz, con el objetivo de resolver uno de los problemas más desafiantes en la interacción humano-máquina: determinar con precisión cuándo el usuario finaliza su intervención y realizar un procesamiento contextual de interrupciones. A continuación, se presentan sus características clave:
- **Capacidad de análisis semántico**: Basado en el modelo Transformer Qwen2.5-7B, TEN Turn Detection distingue con precisión entre estados "finalizados", "espera" y "no finalizados" mediante el análisis del contexto semántico y patrones lingüísticos de la conversación. Por ejemplo, puede identificar "¡Hola, quiero hacer una pregunta...!" como una intervención incompleta, evitando así interrupciones innecesarias por parte de la IA.[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **Soporte multilingüe**: Actualmente admite inglés y chino, pudiendo identificar con precisión señales de turno en conversaciones multilingües, adecuándose a escenarios globales.[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **Rendimiento excelente**: En conjuntos de datos de prueba públicos, TEN Turn Detection supera a otros modelos de detección de turnos abiertos en todos los indicadores, especialmente destacando en conversaciones dinámicas en tiempo real.[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **Experiencia de interacción natural**: Al combinarse con TEN VAD, TEN Turn Detection permite a los agentes de IA esperar oportunidades adecuadas para intervenir, o manejar interrupciones del usuario en el contexto adecuado, creando así una experiencia de conversación más natural.[] (https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/)
Ecosistema TEN Agent: Fundamento de la inteligencia artificial multimodal en tiempo real
TEN Agent es el proyecto de muestra del marco TEN, integrando componentes centrales como TEN VAD y TEN Turn Detection, apoyando interacciones multimodales en tiempo real, como audio, video y texto. A continuación, se explican sus funciones dentro del ecosistema:
- **Integración sin complicaciones**: TEN VAD y TEN Turn Detection actúan como complementos del marco TEN, permitiendo a los desarrolladores incorporarlos fácilmente al proceso de desarrollo de agentes de voz mediante configuraciones sencillas, compatibles con servicios como Deepgram y ElevenLabs.
- **Aplicaciones en múltiples escenarios**: TEN Agent admite casos de uso desde atención al cliente inteligente, traducción en tiempo real hasta compañeros virtuales. Por ejemplo, al combinarlo con la API multimodal de Google Gemini, TEN Agent puede lograr detección en tiempo real de visión y compartición de pantalla, ampliando así su aplicación en sectores como educación y salud.
- **Colaboración abierta**: Todos los componentes del marco TEN (excepto parte del código de TEN VAD) están completamente abiertos, fomentando la contribución de código, corrección de errores o propuestas de nuevas funcionalidades por parte de desarrolladores de la comunidad. El equipo TEN ofrece canales de colaboración a través de GitHub Issues y Projects, atrayendo una amplia participación de desarrolladores.
Proyecto: https://github.com/TEN-framework/ten-framework