字节跳动旗下火山引擎发布豆包大模型家族首款全模态理解模型Doubao-Seed-2.0-lite,实现视频、图像、音频与文本的原生统一理解,突破单一模态限制。该模型在视觉与逻辑推理能力上表现突出,尤其在物理、医疗等高阶学科复杂推理测试中性能大幅超越现有水平,标志着多模态交互领域的关键进展。
Speechify发布原生Windows客户端,从文本转语音工具升级为全栈语音助手。应用集成三类本地AI模型,支持跨应用实时听写与文档转录,对标Superwhisper等竞品。为保障响应速度与隐私,在Copilot+ PC等高性能设备上支持完全本地化运行,用户无需上传音频至云端,即可利用本地NPU或GPU驱动的Whisper模型。
通义实验室发布多模态大模型Qwen3.5-Omni,实现理解力、交互感和任务执行力的跨越式进化,推动AI从“屏幕助手”迈向“理解物理世界的智能体”。该模型采用原生“全模态”架构,能无缝处理文本、图像、音频和视频输入,在音视频分析、推理、对话及翻译测试中表现卓越。
谷歌推出原生多模态嵌入模型Gemini Embedding2,支持文本、图像、视频、音频和文档,统一映射到向量空间,实现跨媒体深度理解。与生成式模型不同,它专注于“理解”,将数据转化为向量,帮助系统识别语义关系。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
Bytedance
$1.2
$3.6
4
NexaAI
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
Menlo
Ichigo-llama3s系列模型是由Homebrew Research开发的多模态语言模型,原生支持音频和文本输入理解。该模型基于Llama-3架构,通过WhisperVQ作为音频文件标记器进行训练,提升了音频理解能力。
homebrewltd
基于Llama-3架构的多模态语言模型,原生支持音频与文本输入理解,专注于提升大语言模型对音频的理解能力。
Ichigo-llama3s系列模型原生支持音频和文本输入理解,基于Llama-3架构,使用WhisperVQ作为音频文件的tokenizer。
Llama3-S系列模型是由Homebrew Research开发的多模态语言模型,原生支持音频与文本输入理解,基于Llama-3架构扩展了语音理解能力。
sarvamai
Shuka v1 是一款原生支持印度语言音频理解的语言模型,结合自主研发的音频编码器和Llama3-8B-Instruct解码器,支持多语言零样本问答任务。