Genspark推出AI Workspace2.0,核心转向语音驱动,旨在重塑知识工作者办公模式。其灵魂产品Speakly作为独立工具,支持macOS和Windows,用户通过自然语音即可实现复杂自动化流程。
巨人网络旗下游戏《超自然行动组》推出国内首个深度融合AI大模型的“AI大模型挑战”玩法。该玩法将传统NPC升级为由AI大模型实时驱动的智能对手,能语音交流、模仿真人玩家行为,并潜伏队伍中伺机行动。这标志着AI原生玩法在大DAU级游戏中实现规模化落地。
苹果与谷歌达成合作,每年支付约10亿美元获得Gemini大模型使用权,计划2026年春季随iOS26.4推出升级版Siri。此举旨在弥补苹果自研大模型不足,重夺智能语音主导权。新Siri将基于1.2万亿参数的Gemini2.5Pro,性能远超当前版本。
谷歌推出StreetReaderAI原型系统,帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型,实现多模态AI驱动的实时对话式街景体验,突破传统语音播报局限,提升无障碍城市探索自由度。
AI驱动的隐形提词器,适用于Mac和Windows,语音控制,提升演示效果
AI驱动的语音笔记应用,可即时记录、转录和整理想法
将您的语音立即转换为文本。完全私密,开源,由AI技术驱动。
VideoTutor是一款AI驱动的工具,根据用户提出的问题生成动画、语音引导的学习视频。
Alibaba
$8
Input tokens/M
$240
Output tokens/M
52
Context Length
-
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
$3.5
$12
Tencent
32
$2.4
8
$3
$9
$1.6
$10
Openai
$14
$56
200
$1.5
Xai
$21
$105
$10.5
16
Baidu
Google
$1
jdh-algo
JoyHallo是一个专注于普通话的音频驱动人脸动画生成模型,能够根据普通话语音生成逼真的面部动画。
Intel
Whisper是一种预训练模型,用于自动语音识别(ASR)和语音翻译。本仓库提供ONNX格式的Whisper大型模型INT4权重量化版本,由英特尔®神经压缩器和英特尔®Transformers扩展驱动。