A equipe TEN Agent anunciou recentemente que seus modelos principais **TEN Voice Activity Detection (VAD)** e **TEN Turn Detection** estão oficialmente disponíveis como código aberto, fornecendo suporte técnico poderoso para construir agentes de inteligência artificial de voz em tempo real e multimídia.
Essa iniciativa marca um grande avanço na democratização da tecnologia de interação de voz e na colaboração de código aberto pelo framework TEN. Abaixo estão as últimas informações organizadas pela AIbase, com uma análise detalhada das funcionalidades, vantagens e potencial impacto desses dois modelos principais na indústria.

TEN VAD: Detecção de Atividade de Voz de Baixa Latência e Alto Desempenho
O TEN VAD é um detector de atividade de voz em tempo real projetado especificamente para aplicações empresariais, conhecido por sua baixa latência, leveza e alto desempenho. De acordo com as informações oficiais e os comentários nas redes sociais, o TEN VAD consegue detectar a atividade de voz com precisão até o nível de quadro, significativamente superior ao WebRTC VAD e ao Silero VAD, amplamente utilizados na indústria. Abaixo estão os principais pontos fortes:
- **Baixa complexidade computacional**: A biblioteca do TEN VAD tem um tamanho pequeno e complexidade computacional baixa, sendo compatível com C em várias plataformas, cobrindo sistemas operacionais como Linux x64, Windows, macOS, Android e iOS. Além disso, oferece vinculação Python para Linux x64 e suporte WASM para a web.[] (https://huggingface.co/TEN-framework/ten-vad)
- **Alta precisão e baixa latência**: Em comparação com o Silero VAD, o TEN VAD apresenta menor latência na detecção de transições de voz para não-voz, identificando rapidamente pausas curtas, adequando-se bem a cenários de interação em tempo real. Testes mostram que seu fator de tempo real (RTF) se comporta bem em diversas plataformas de CPU.[](https://huggingface.co/TEN-framework/ten-vad)
- **Novos progressos no código aberto**: Em junho de 2025, a equipe TEN abriu o modelo ONNX e o código de pré-processamento, permitindo implantação em qualquer plataforma e arquitetura de hardware compatíveis com ONNX, aumentando ainda mais a flexibilidade. Além disso, o suporte WASM + JS expande as possibilidades de aplicação na web.
Nas redes sociais, os desenvolvedores elogiaram o lançamento do TEN VAD, considerando que seu desempenho supera os modelos tradicionais de VAD, oferecendo uma ferramenta poderosa para o desenvolvimento de assistentes de voz em tempo real.
TEN Turn Detection: Gerenciamento Inteligente de Rodadas de Conversa
O **TEN Turn Detection** é um modelo inteligente de detecção de rodadas projetado especificamente para comunicação de dupla via de áudio, visando resolver um dos problemas mais desafiadores na interação humano-máquina: determinar com precisão quando o usuário termina de falar e realizar o tratamento contextual de interrupções. Abaixo estão suas características principais:
- **Capacidade de análise semântica**: Baseado no modelo Transformer Qwen2.5-7B, o TEN Turn Detection diferencia com precisão os estados "finalizado", "aguardando" e "não finalizado" das falas do usuário, analisando o contexto semântico e padrões linguísticos da conversa. Por exemplo, ele pode reconhecer "Ei, quero fazer uma pergunta..." como uma fala incompleta, evitando interrupções desnecessárias da IA.[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **Suporte a múltiplos idiomas**: Atualmente, suporta inglês e chinês, podendo identificar com precisão sinais de rodadas em conversas multilíngues, adequando-se a cenários globais.[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **Desempenho excepcional**: No conjunto de dados de testes públicos, o TEN Turn Detection supera outros modelos de detecção de rodadas de código aberto em todas as métricas, especialmente em conversas dinâmicas em tempo real.[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **Experiência de interação natural**: Combinado com o TEN VAD, o TEN Turn Detection permite que os agentes de IA esperem o momento adequado para falar, ou processem interrupções do usuário no contexto apropriado, criando assim uma experiência de diálogo mais natural.[] (https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/)
Ecosistema TEN Agent: Base para IA Multimídia em Tempo Real
O TEN Agent é o projeto de demonstração do framework TEN, integrando componentes principais como o TEN VAD e o TEN Turn Detection, suportando interações multimídia em tempo real, como áudio, vídeo e texto. Abaixo estão suas funções dentro do ecossistema:
- **Integração sem problemas**: O TEN VAD e o TEN Turn Detection são plug-ins do framework TEN, e os desenvolvedores podem integrá-los facilmente ao processo de desenvolvimento de agentes de voz com configurações simples, suportando integração com serviços como Deepgram e ElevenLabs.
- **Aplicações em diversos cenários**: O TEN Agent suporta desde atendimento ao cliente inteligente, tradução em tempo real até companheiros virtuais. Por exemplo, combinado com a API multimídia Google Gemini, o TEN Agent pode realizar detecção em tempo real de visualização e compartilhamento de tela, ampliando suas aplicações nos setores de educação e saúde.
- **Colaboração de código aberto**: Todos os componentes do framework TEN (exceto parte do código do TEN VAD) estão totalmente disponíveis como código aberto, incentivando os desenvolvedores da comunidade a contribuírem com código, corrigirem bugs ou sugerirem novas funcionalidades. A equipe TEN fornece canais de colaboração por meio de Issues e Projects no GitHub, atraindo amplo envolvimento de desenvolvedores.
Projeto: https://github.com/TEN-framework/ten-framework






