L'agent TEN ouvre ses modèles de détection d'activité vocale (VAD) et de changement de tour pour aider l'IA vocale à avoir une latence extrêmement faible

AIbase基地

Publié leActualités IA · 9 minutes de lecture · Jul 1, 2025

L'équipe TEN Agent a récemment annoncé le lancement open source de ses modèles centraux **TEN Voice Activity Detection (VAD)** et **TEN Turn Detection**, offrant une puissante technologie de soutien pour construire des agents d'intelligence artificielle vocale en temps réel et multimodale.

Cette initiative marque un progrès important dans la démocratisation de la technologie d'interaction vocale et la collaboration open source au sein du framework TEN. Voici les dernières informations rassemblées par AIbase, qui expliquent en détail les fonctionnalités, les avantages et l'impact potentiel de ces deux modèles centraux sur l'industrie.

TEN VAD : Détection de l'activité vocale à faible latence et haute performance

TEN VAD est un détecteur d'activité vocale en temps réel conçu spécifiquement pour les applications entreprises, connu pour sa faible latence, son légèreté et sa haute performance. Selon les informations officielles et les retours sur les réseaux sociaux, TEN VAD peut détecter avec précision l'activité vocale au niveau de la trame, ce qui le rend nettement supérieur aux VAD couramment utilisés comme WebRTC VAD et Silero VAD. Voici ses points forts principaux :

- **Faible complexité calculatoire** : La bibliothèque de TEN VAD est petite et présente une complexité calculatoire faible. Elle est compatible C multiplateforme, couvrant divers systèmes d'exploitation tels que Linux x64, Windows, macOS, Android et iOS. Elle propose également des liaisons Python pour Linux x64 et un support WASM pour le Web. []（https://huggingface.co/TEN-framework/ten-vad）

- **Haute précision et faible latence** : Comparé à Silero VAD, TEN VAD présente une latence plus faible lors de la détection de la transition entre la parole et le non-parole, permettant de repérer rapidement les courts silences, ce qui convient bien aux scénarios d'interaction en temps réel. Les tests montrent qu'il présente d'excellents résultats en termes de facteur de temps réel (RTF) sur plusieurs plateformes CPU. []（https://huggingface.co/TEN-framework/ten-vad）

- **Nouvelles avancées en matière d'open source** : En juin 2025, l'équipe TEN a ouvert le code source des modèles ONNX et des codes de prétraitement, permettant leur déploiement sur n'importe quelle plateforme et architecture matérielle prenant en charge ONNX, renforçant ainsi sa flexibilité. De plus, le support WASM + JS élargit les possibilités d'utilisation sur le Web.

Sur les réseaux sociaux, les développeurs ont exprimé une forte reconnaissance pour le lancement open source de TEN VAD, estimant que ses performances dépassent les modèles traditionnels de VAD et fournissent un outil puissant pour le développement d'assistants vocaux en temps réel.

TEN Turn Detection : Gestion intelligente des tours de parole

**TEN Turn Detection** est un modèle de détection de tour de parole intelligent conçu spécifiquement pour les communications vocales en demi-duplex. Il vise à résoudre l'un des problèmes les plus difficiles dans les dialogues homme-machine : déterminer précisément quand l'utilisateur termine sa parole et gérer les interruptions avec prise en compte du contexte. Voici ses caractéristiques clés :

- **Capacité d'analyse sémantique** : basé sur le modèle Transformer Qwen2.5-7B, TEN Turn Detection distingue avec précision les états "fini", "en attente" et "non fini" des interventions de l'utilisateur en analysant le contexte sémantique et les modèles linguistiques du dialogue. Par exemple, il peut identifier "Salut, je veux poser une question..." comme une intervention non terminée, évitant ainsi des interruptions inutiles de l'IA. []（https://huggingface.co/TEN-framework/TEN_Turn_Detection）

- **Prise en charge de plusieurs langues** : Actuellement, il prend en charge l'anglais et le chinois, pouvant reconnaître efficacement les signaux de tour de parole dans les dialogues multilingues, adaptés aux scénarios globaux. []（https://huggingface.co/TEN-framework/TEN_Turn_Detection）

- **Performance exceptionnelle** : Sur des jeux de données publics, TEN Turn Detection dépasse tous les autres modèles open source de détection de tour de parole, particulièrement dans les dialogues dynamiques en temps réel. []（https://huggingface.co/TEN-framework/TEN_Turn_Detection）

- **Expérience d'interaction naturelle** : En combinant TEN VAD, TEN Turn Detection permet aux agents d'IA de s'attendre à des moments appropriés pour parler, ou de traiter les interruptions des utilisateurs dans le bon contexte, créant ainsi une expérience de dialogue plus naturelle. []（https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/）

Écosystème TEN Agent : Fondation des IA multimodales en temps réel

TEN Agent est un projet de démonstration du framework TEN, intégrant des composants centraux tels que TEN VAD et TEN Turn Detection, et prenant en charge les interactions multimodales en temps réel telles que la voix, la vidéo et le texte. Voici son rôle au sein de l'écosystème :

- **Intégration fluide** : TEN VAD et TEN Turn Detection, en tant que modules du framework TEN, peuvent être facilement intégrés dans le processus de développement d'agents vocaux grâce à une configuration simple, et sont compatibles avec des services tels que Deepgram et ElevenLabs.

- **Applications multi-scénarios** : TEN Agent prend en charge divers cas d'utilisation tels que les services clients intelligents, la traduction en temps réel et les partenaires virtuels. Par exemple, en combinant l'API multimodale Google Gemini, TEN Agent peut réaliser une détection en temps réel de la vision et du partage d'écran, élargissant ainsi son application dans les domaines de l'éducation et de la santé.

- **Collaboration open source** : Tous les composants du framework TEN (à l'exception de certaines parties du code de TEN VAD) sont entièrement open source, encourageant les développeurs de la communauté à contribuer du code, à corriger des bogues ou à proposer de nouvelles fonctionnalités. L'équipe TEN fournit des canaux de collaboration via GitHub Issues et Projects, attirant ainsi une large communauté de développeurs.

Projet : https://github.com/TEN-framework/ten-framework

OpenAI, Oracle s'investit davantage dans les infrastructures d'IA : le parc Lighthouse de 15 milliards de dollars démarre la construction

OpenAI, Oracle et Vantage construiront le campus de centres de données 'Lighthouse' au Wisconsin, cœur du projet 'Stargate'. Investissement de 15 milliards $ pour 4 centres fournissant 1 GW de puissance, créant 4000 emplois pendant la construction et 1000 postes permanents. Achèvement prévu en 2028.....

IBM s'associe à Groq : accélère l'IA pour les entreprises cinq fois plus vite grâce à la technologie LPU et met à niveau complètement la plateforme watsonx

IBM a conclu un partenariat stratégique avec la jeune entreprise de puces Groq, intégrant sa technologie d'inférence IA hautement performante dans la plateforme watsonx, afin d'offrir aux clients entreprises des solutions IA plus rapides et plus économiques. Les utilisateurs peuvent accéder directement aux services GroqCloud via Watsonx Orchestrate. Grâce à son architecture de processeur de traitement du langage développée en interne, Groq affirme que ses performances sont supérieures à celles des systèmes GPU traditionnels sur certaines tâches d'inférence IA.

À partir de 99 000 yuans ! Unitree lance une nouvelle vidéo du robot G1, sa résistance est impressionnante

Unitree lance une vidéo présentant de nouvelles compétences du robot humanoïde Unitree G1. Le G1 subit plusieurs chocs extérieurs lors de performances de danse et de kung fu, tels que des coups de pieds, des coups latéraux et des poussées avec une chaise, tout en maintenant un équilibre excellent et en effectuant des roulades continues. L'entreprise affirme avoir ajouté un mode « anti-gravité », qui améliore significativement la stabilité dans n'importe quelle action et renforce la résistance aux perturbations.

Meta introduit un assistant d'IA pour Facebook Dating, dans le but de réinventer l'expérience sociale

Meta a annoncé l'introduction d'un assistant d'IA pour Facebook Dating, qui aide les utilisateurs à trouver des correspondances précises et à optimiser leurs profils. Cet assistant recommande intelligemment des personnes en fonction des besoins, comme "des femmes du secteur technologique à Brooklyn", et améliore l'attractivité des profils, accélérant ainsi la concurrence dans les applications de rencontres basées sur l'IA.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

AI Conversation Insight

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

L'agent TEN ouvre ses modèles de détection d'activité vocale (VAD) et de changement de tour pour aider l'IA vocale à avoir une latence extrêmement faible

AIbase基地

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

OpenAI, Oracle s'investit davantage dans les infrastructures d'IA : le parc Lighthouse de 15 milliards de dollars démarre la construction

Mise à jour majeure de Claude sur le bureau : prise en charge des captures d'écran, la touche Caps Lock devient un puissant bouton vocal IA

IBM s'associe à Groq : accélère l'IA pour les entreprises cinq fois plus vite grâce à la technologie LPU et met à niveau complètement la plateforme watsonx

À partir de 99 000 yuans ! Unitree lance une nouvelle vidéo du robot G1, sa résistance est impressionnante

Meta introduit un assistant d'IA pour Facebook Dating, dans le but de réinventer l'expérience sociale

OpenAI s'engage dans le monde du cinéma avec son premier film d'animation réalisé par l'IA, « Critterz »

Toutiao récompense abondamment les talents en modèles à grande échelle : le département Seed lance un plan d'octroi d'options valorisées à plusieurs millions

L'outil d'automatisation de Xiaohongshu, xiaohongshu-mcp, est en ligne ! L'IA vous aide à créer du contenu et libère vos mains !

La folie des financements en IA aux États-Unis continue de brûler ! 49 entreprises ont déjà levé des millions de dollars en 2025, OpenAI lève 40 milliards de dollars en une seule levée de fonds, battant un nouveau record

Mise à jour majeure de Google Traduction ! Interprétation en temps réel + entraînement par IA, apprendre une langue étrangère devient aussi simple que de discuter !

Recommandations d'actualités IA connexes

OpenAI, Oracle s'investit davantage dans les infrastructures d'IA : le parc Lighthouse de 15 milliards de dollars démarre la construction

Mise à jour majeure de Claude sur le bureau : prise en charge des captures d'écran, la touche Caps Lock devient un puissant bouton vocal IA

IBM s'associe à Groq : accélère l'IA pour les entreprises cinq fois plus vite grâce à la technologie LPU et met à niveau complètement la plateforme watsonx

À partir de 99 000 yuans ! Unitree lance une nouvelle vidéo du robot G1, sa résistance est impressionnante

Meta introduit un assistant d'IA pour Facebook Dating, dans le but de réinventer l'expérience sociale

OpenAI s'engage dans le monde du cinéma avec son premier film d'animation réalisé par l'IA, « Critterz »

Toutiao récompense abondamment les talents en modèles à grande échelle : le département Seed lance un plan d'octroi d'options valorisées à plusieurs millions

L'outil d'automatisation de Xiaohongshu, xiaohongshu-mcp, est en ligne ! L'IA vous aide à créer du contenu et libère vos mains !

La folie des financements en IA aux États-Unis continue de brûler ! 49 entreprises ont déjà levé des millions de dollars en 2025, OpenAI lève 40 milliards de dollars en une seule levée de fonds, battant un nouveau record

Mise à jour majeure de Google Traduction ! Interprétation en temps réel + entraînement par IA, apprendre une langue étrangère devient aussi simple que de discuter !