xAI发布Grok语音代理API,每分钟仅0.05美元,性价比极高。该模型在音频推理基准测试中表现最佳,首音延迟不到1秒,响应速度比竞品快近5倍。支持包括中文在内的数十种语言自动检测与切换,并集成实时网页搜索与推理能力,提升回复质量。
Meta收购AI可穿戴设备公司Limitless,其智能吊坠支持语音交互、实时录音转录和语音搜索,旨在提升用户专注力和记忆力。Limitless团队将加入Meta开发下一代AI硬件,此前Meta已进行战略调整。
谷歌在移动端测试“AI概览+AI模式”合并功能,用户可在搜索结果页直接展开多轮对话,无需跳转。该功能支持文本、语音和图片输入,对话长度可达传统搜索三倍,并保留引用来源与网页排名。产品副总裁表示,新设计旨在消除用户选择搜索或聊天的成本,实现连续提问与即时回复。
谷歌宣布语音助手服务调整:Google Assistant将于2026年3月31日停用,即日起进入功能迁移阶段。Gemini已接管Android、Wear OS等核心平台,用户可手动切换。关键节点包括:2024年12月Gemini默认处理语音搜索等高频指令;2025年6月Nest设备全面推送Gemini,支持自然语言连续对话。过渡期持续至2026年第一季度。
纳米AI搜索 (原360AI搜索),拍照问,语音搜,一切答案皆可生成视频
ChatGPT的超能力版本,具有文件夹、搜索、GPT商店、图像库、语音GPT、导出、自定义提示、提示链、隐藏模型等功能。
语音AI搜索扩展
强大的语音转文字API
Google
$0.7
Input tokens/M
$2.8
Output tokens/M
1k
Context Length
Alibaba
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
-
Bytedance
$0.8
$2
128
Tencent
$1
$4
32
$54
$163
Baidu
256
$2.4
$12
8
$3
$9
$1.6
$10
$0.5
Huawei
$9.6
$1.5
waveletdeboshir
俄语自动语音识别模型,支持外部ngram语言模型和束搜索解码,可提取词级时间戳
一个基于Model Context Protocol (MCP)的Gmail邮件管理服务器,支持通过AI代理搜索、阅读、删除和发送邮件,需配合语音交互客户端使用。
该项目包含两个MCP服务器:文件搜索和语音转文字,提供VS Code集成和HTTP API支持。