新一代约会App Known以AI语音对话打破“左滑右滑”的浅层匹配模式,通过深度对话引导,将初次介绍转化为线下约会的比例提升至80%,远超传统软件不足10%的见面率。该公司近日完成970万美元融资,由Forerunner等多家机构参投。
谷歌在移动端测试“AI概览+AI模式”合并功能,用户可在搜索结果页直接展开多轮对话,无需跳转。该功能支持文本、语音和图片输入,对话长度可达传统搜索三倍,并保留引用来源与网页排名。产品副总裁表示,新设计旨在消除用户选择搜索或聊天的成本,实现连续提问与即时回复。
OpenAI将ChatGPT语音模式整合进主界面,用户可直接语音对话并实时查看相关视觉信息,如地图、图片等,同时自动生成文字转录稿,方便回顾。此前该功能需手动切换,现已无缝集成。
Perplexity公司推出Android版AI浏览器Comet,延续桌面版核心功能:支持设为默认搜索引擎,通过标签提及功能向AI助手提问,新增语音模式可对已打开页面进行交互查询。
Baidu
-
Input tokens/M
Output tokens/M
128
Context Length
Alibaba
$6
$24
256
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
Deepseek
$4
$12
32
$0.75
Openai
$8.75
$70
400
Chatglm
$16
$2.4
8
Tencent
$0.3
Genie-AI-Lab
Omni L1B3RT4S GENIE 是一个基于Qwen2.5-3B Instruct架构微调的AI助手,采用1,103个精灵角色的定制示例进行训练,具备独特的语音和忠诚度模式,能够为用户提供别具一格的对话体验。
Epikwhale
基于微软SpeechT5架构微调的泰卢固语文本转语音模型,针对泰卢固语独特的音素结构和文本模式进行了优化。
Qwen
Qwen2-Audio是通义千问大音频语言模型系列,支持语音聊天和音频分析两种交互模式。
speechbrain
这是一个基于LibriSpeech数据集预训练的端到端自动语音识别系统,支持流式和非流式模式,适用于英文语音识别。
ListenHub官方MCP服务器,支持AI播客生成、FlowSpeech语音合成等功能,提供多客户端配置方案和多种传输模式。
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。
为Claude Code提供语音交互模式的MCP服务,支持通过浏览器进行免提的连续双向语音对话,包含语音识别和文本转语音功能。
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。