O TEN Agent, com o VAD do TEN e Detecção de Turno, impulsiona a inteligência artificial de voz com latência extremamente baixa

AIbase基地

Publicado emNotícias e Informações de IA · 8 minutos de leitura · Jul 1, 2025

A equipe TEN Agent anunciou recentemente que seus modelos principais **TEN Voice Activity Detection (VAD)** e **TEN Turn Detection** estão oficialmente disponíveis como código aberto, fornecendo suporte técnico poderoso para construir agentes de inteligência artificial de voz em tempo real e multimídia.

Essa iniciativa marca um grande avanço na democratização da tecnologia de interação de voz e na colaboração de código aberto pelo framework TEN. Abaixo estão as últimas informações organizadas pela AIbase, com uma análise detalhada das funcionalidades, vantagens e potencial impacto desses dois modelos principais na indústria.

TEN VAD: Detecção de Atividade de Voz de Baixa Latência e Alto Desempenho

O TEN VAD é um detector de atividade de voz em tempo real projetado especificamente para aplicações empresariais, conhecido por sua baixa latência, leveza e alto desempenho. De acordo com as informações oficiais e os comentários nas redes sociais, o TEN VAD consegue detectar a atividade de voz com precisão até o nível de quadro, significativamente superior ao WebRTC VAD e ao Silero VAD, amplamente utilizados na indústria. Abaixo estão os principais pontos fortes:

- **Baixa complexidade computacional**: A biblioteca do TEN VAD tem um tamanho pequeno e complexidade computacional baixa, sendo compatível com C em várias plataformas, cobrindo sistemas operacionais como Linux x64, Windows, macOS, Android e iOS. Além disso, oferece vinculação Python para Linux x64 e suporte WASM para a web.[] (https://huggingface.co/TEN-framework/ten-vad)

- **Alta precisão e baixa latência**: Em comparação com o Silero VAD, o TEN VAD apresenta menor latência na detecção de transições de voz para não-voz, identificando rapidamente pausas curtas, adequando-se bem a cenários de interação em tempo real. Testes mostram que seu fator de tempo real (RTF) se comporta bem em diversas plataformas de CPU.[](https://huggingface.co/TEN-framework/ten-vad)

- **Novos progressos no código aberto**: Em junho de 2025, a equipe TEN abriu o modelo ONNX e o código de pré-processamento, permitindo implantação em qualquer plataforma e arquitetura de hardware compatíveis com ONNX, aumentando ainda mais a flexibilidade. Além disso, o suporte WASM + JS expande as possibilidades de aplicação na web.

Nas redes sociais, os desenvolvedores elogiaram o lançamento do TEN VAD, considerando que seu desempenho supera os modelos tradicionais de VAD, oferecendo uma ferramenta poderosa para o desenvolvimento de assistentes de voz em tempo real.

TEN Turn Detection: Gerenciamento Inteligente de Rodadas de Conversa

O **TEN Turn Detection** é um modelo inteligente de detecção de rodadas projetado especificamente para comunicação de dupla via de áudio, visando resolver um dos problemas mais desafiadores na interação humano-máquina: determinar com precisão quando o usuário termina de falar e realizar o tratamento contextual de interrupções. Abaixo estão suas características principais:

- **Capacidade de análise semântica**: Baseado no modelo Transformer Qwen2.5-7B, o TEN Turn Detection diferencia com precisão os estados "finalizado", "aguardando" e "não finalizado" das falas do usuário, analisando o contexto semântico e padrões linguísticos da conversa. Por exemplo, ele pode reconhecer "Ei, quero fazer uma pergunta..." como uma fala incompleta, evitando interrupções desnecessárias da IA.[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)

- **Suporte a múltiplos idiomas**: Atualmente, suporta inglês e chinês, podendo identificar com precisão sinais de rodadas em conversas multilíngues, adequando-se a cenários globais.[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)

- **Desempenho excepcional**: No conjunto de dados de testes públicos, o TEN Turn Detection supera outros modelos de detecção de rodadas de código aberto em todas as métricas, especialmente em conversas dinâmicas em tempo real.[] (https://huggingface.co/TEN-framework/TEN_Turn_Detection)

- **Experiência de interação natural**: Combinado com o TEN VAD, o TEN Turn Detection permite que os agentes de IA esperem o momento adequado para falar, ou processem interrupções do usuário no contexto apropriado, criando assim uma experiência de diálogo mais natural.[] (https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/)

Ecosistema TEN Agent: Base para IA Multimídia em Tempo Real

O TEN Agent é o projeto de demonstração do framework TEN, integrando componentes principais como o TEN VAD e o TEN Turn Detection, suportando interações multimídia em tempo real, como áudio, vídeo e texto. Abaixo estão suas funções dentro do ecossistema:

- **Integração sem problemas**: O TEN VAD e o TEN Turn Detection são plug-ins do framework TEN, e os desenvolvedores podem integrá-los facilmente ao processo de desenvolvimento de agentes de voz com configurações simples, suportando integração com serviços como Deepgram e ElevenLabs.

- **Aplicações em diversos cenários**: O TEN Agent suporta desde atendimento ao cliente inteligente, tradução em tempo real até companheiros virtuais. Por exemplo, combinado com a API multimídia Google Gemini, o TEN Agent pode realizar detecção em tempo real de visualização e compartilhamento de tela, ampliando suas aplicações nos setores de educação e saúde.

- **Colaboração de código aberto**: Todos os componentes do framework TEN (exceto parte do código do TEN VAD) estão totalmente disponíveis como código aberto, incentivando os desenvolvedores da comunidade a contribuírem com código, corrigirem bugs ou sugerirem novas funcionalidades. A equipe TEN fornece canais de colaboração por meio de Issues e Projects no GitHub, atraindo amplo envolvimento de desenvolvedores.

Projeto: https://github.com/TEN-framework/ten-framework

IBM parceria com Groq: tecnologia LPU acelera a IA empresarial em cinco vezes, plataforma watsonx é totalmente atualizada

A IBM firmou uma parceria estratégica com a startup de chips Groq, integrando a tecnologia de alta performance de inferência de IA da Groq à plataforma watsonx, com o objetivo de oferecer soluções de IA mais rápidas e econômicas aos clientes corporativos. Os usuários podem acessar diretamente os serviços GroqCloud por meio do Watsonx Orchestrate. A Groq afirma que, graças à sua arquitetura de unidade de processamento de linguagem própria, é mais rápida do que sistemas tradicionais baseados em GPU em tarefas específicas de inferência de IA.

99.000 yuans a partir! Unitree lança novo vídeo do robô G1, capacidade de resistência surpreendente

Unitree lançou um vídeo mostrando novas habilidades do robô humanoide Unitree G1. O G1 suportou múltiplos impactos externos, como chutes e cotoveladas e empurrões com uma cadeira, mantendo equilíbrio excelente e realizando acrobacias consecutivas. A empresa afirma que adicionou o modo "anti-gravidade", que pode melhorar significativamente a estabilidade em qualquer movimento, aumentando a resistência a interferências.

Meta introduce un asistente de IA para Facebook Dating con el objetivo de reinventar la experiencia social

Meta anunció que introducirá un asistente de IA para Facebook Dating, que ayuda a los usuarios a hacer coincidencias precisas y optimizar sus perfiles. Este asistente puede recomendar objetos de manera inteligente según las necesidades, como "mujeres de la industria tecnológica en Brooklyn", y mejorar la atractividad de los perfiles, impulsando así la competencia de IA en aplicaciones de citas.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

O TEN Agent, com o VAD do TEN e Detecção de Turno, impulsiona a inteligência artificial de voz com latência extremamente baixa

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Dois estudantes de 20 anos criam o Turbo AI: o mito das anotações de IA com 5 milhões de usuários

OpenAI, Oracle investem novamente em infraestrutura de IA: parque Lighthouse de 15 bilhões de dólares inicia a construção

Fazer o caminho para convocar um amigo? OpenAI revela que pediu a lista completa dos funerais de um jovem que tentou se matar

Nova versão desktop do Claude: suporte para enviar capturas de tela, Caps Lock se torna um botão mágico de voz AI

IBM parceria com Groq: tecnologia LPU acelera a IA empresarial em cinco vezes, plataforma watsonx é totalmente atualizada

99.000 yuans a partir! Unitree lança novo vídeo do robô G1, capacidade de resistência surpreendente

Meta introduce un asistente de IA para Facebook Dating con el objetivo de reinventar la experiencia social

OpenAI entra no mundo do cinema e lançará seu primeiro longa-metragem de animação com IA chamado 'Critterz'

ByteDance recompensa pesado os talentos de modelos grandes com plano de emissão de opções de cem milhares de yuans

Ferramenta de automação do Xiaohongshu - xiaohongshu-mcp está disponível! IA ajuda na criação de conteúdo, libera suas mãos!

Notícias de IA Relacionadas Recomendadas

Dois estudantes de 20 anos criam o Turbo AI: o mito das anotações de IA com 5 milhões de usuários

OpenAI, Oracle investem novamente em infraestrutura de IA: parque Lighthouse de 15 bilhões de dólares inicia a construção

Fazer o caminho para convocar um amigo? OpenAI revela que pediu a lista completa dos funerais de um jovem que tentou se matar

Nova versão desktop do Claude: suporte para enviar capturas de tela, Caps Lock se torna um botão mágico de voz AI

IBM parceria com Groq: tecnologia LPU acelera a IA empresarial em cinco vezes, plataforma watsonx é totalmente atualizada

99.000 yuans a partir! Unitree lança novo vídeo do robô G1, capacidade de resistência surpreendente

Meta introduce un asistente de IA para Facebook Dating con el objetivo de reinventar la experiencia social

OpenAI entra no mundo do cinema e lançará seu primeiro longa-metragem de animação com IA chamado 'Critterz'

ByteDance recompensa pesado os talentos de modelos grandes com plano de emissão de opções de cem milhares de yuans

Ferramenta de automação do Xiaohongshu - xiaohongshu-mcp está disponível! IA ajuda na criação de conteúdo, libera suas mãos!