L'équipe TEN Agent a récemment annoncé le lancement open source de ses modèles centraux **TEN Voice Activity Detection (VAD)** et **TEN Turn Detection**, offrant une puissante technologie de soutien pour construire des agents d'intelligence artificielle vocale en temps réel et multimodale.
Cette initiative marque un progrès important dans la démocratisation de la technologie d'interaction vocale et la collaboration open source au sein du framework TEN. Voici les dernières informations rassemblées par AIbase, qui expliquent en détail les fonctionnalités, les avantages et l'impact potentiel de ces deux modèles centraux sur l'industrie.

TEN VAD : Détection de l'activité vocale à faible latence et haute performance
TEN VAD est un détecteur d'activité vocale en temps réel conçu spécifiquement pour les applications entreprises, connu pour sa faible latence, son légèreté et sa haute performance. Selon les informations officielles et les retours sur les réseaux sociaux, TEN VAD peut détecter avec précision l'activité vocale au niveau de la trame, ce qui le rend nettement supérieur aux VAD couramment utilisés comme WebRTC VAD et Silero VAD. Voici ses points forts principaux :
- **Faible complexité calculatoire** : La bibliothèque de TEN VAD est petite et présente une complexité calculatoire faible. Elle est compatible C multiplateforme, couvrant divers systèmes d'exploitation tels que Linux x64, Windows, macOS, Android et iOS. Elle propose également des liaisons Python pour Linux x64 et un support WASM pour le Web. [](https://huggingface.co/TEN-framework/ten-vad)
- **Haute précision et faible latence** : Comparé à Silero VAD, TEN VAD présente une latence plus faible lors de la détection de la transition entre la parole et le non-parole, permettant de repérer rapidement les courts silences, ce qui convient bien aux scénarios d'interaction en temps réel. Les tests montrent qu'il présente d'excellents résultats en termes de facteur de temps réel (RTF) sur plusieurs plateformes CPU. [](https://huggingface.co/TEN-framework/ten-vad)
- **Nouvelles avancées en matière d'open source** : En juin 2025, l'équipe TEN a ouvert le code source des modèles ONNX et des codes de prétraitement, permettant leur déploiement sur n'importe quelle plateforme et architecture matérielle prenant en charge ONNX, renforçant ainsi sa flexibilité. De plus, le support WASM + JS élargit les possibilités d'utilisation sur le Web.
Sur les réseaux sociaux, les développeurs ont exprimé une forte reconnaissance pour le lancement open source de TEN VAD, estimant que ses performances dépassent les modèles traditionnels de VAD et fournissent un outil puissant pour le développement d'assistants vocaux en temps réel.
TEN Turn Detection : Gestion intelligente des tours de parole
**TEN Turn Detection** est un modèle de détection de tour de parole intelligent conçu spécifiquement pour les communications vocales en demi-duplex. Il vise à résoudre l'un des problèmes les plus difficiles dans les dialogues homme-machine : déterminer précisément quand l'utilisateur termine sa parole et gérer les interruptions avec prise en compte du contexte. Voici ses caractéristiques clés :
- **Capacité d'analyse sémantique** : basé sur le modèle Transformer Qwen2.5-7B, TEN Turn Detection distingue avec précision les états "fini", "en attente" et "non fini" des interventions de l'utilisateur en analysant le contexte sémantique et les modèles linguistiques du dialogue. Par exemple, il peut identifier "Salut, je veux poser une question..." comme une intervention non terminée, évitant ainsi des interruptions inutiles de l'IA. [](https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **Prise en charge de plusieurs langues** : Actuellement, il prend en charge l'anglais et le chinois, pouvant reconnaître efficacement les signaux de tour de parole dans les dialogues multilingues, adaptés aux scénarios globaux. [](https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **Performance exceptionnelle** : Sur des jeux de données publics, TEN Turn Detection dépasse tous les autres modèles open source de détection de tour de parole, particulièrement dans les dialogues dynamiques en temps réel. [](https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **Expérience d'interaction naturelle** : En combinant TEN VAD, TEN Turn Detection permet aux agents d'IA de s'attendre à des moments appropriés pour parler, ou de traiter les interruptions des utilisateurs dans le bon contexte, créant ainsi une expérience de dialogue plus naturelle. [](https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/)
Écosystème TEN Agent : Fondation des IA multimodales en temps réel
TEN Agent est un projet de démonstration du framework TEN, intégrant des composants centraux tels que TEN VAD et TEN Turn Detection, et prenant en charge les interactions multimodales en temps réel telles que la voix, la vidéo et le texte. Voici son rôle au sein de l'écosystème :
- **Intégration fluide** : TEN VAD et TEN Turn Detection, en tant que modules du framework TEN, peuvent être facilement intégrés dans le processus de développement d'agents vocaux grâce à une configuration simple, et sont compatibles avec des services tels que Deepgram et ElevenLabs.
- **Applications multi-scénarios** : TEN Agent prend en charge divers cas d'utilisation tels que les services clients intelligents, la traduction en temps réel et les partenaires virtuels. Par exemple, en combinant l'API multimodale Google Gemini, TEN Agent peut réaliser une détection en temps réel de la vision et du partage d'écran, élargissant ainsi son application dans les domaines de l'éducation et de la santé.
- **Collaboration open source** : Tous les composants du framework TEN (à l'exception de certaines parties du code de TEN VAD) sont entièrement open source, encourageant les développeurs de la communauté à contribuer du code, à corriger des bogues ou à proposer de nouvelles fonctionnalités. L'équipe TEN fournit des canaux de collaboration via GitHub Issues et Projects, attirant ainsi une large communauté de développeurs.
Projet : https://github.com/TEN-framework/ten-framework





