百度发布文心大模型5.0正式版,拥有2.4万亿参数,实现从多模态融合到“原生全模态”的跨越。其采用原生全模态统一建模技术,在统一架构中对文本、图像、视频和音频进行联合训练,区别于行业常见的“后期合成”方案。
谷歌于12月1日推出Gemini 3大模型,接入搜索AI模式,覆盖近120个国家地区,向AI Pro与Ultra订阅用户开放。同时上线Nano Banana Pro图像模型,支持2K/4K分辨率、精准文本渲染及专业级摄影控制,定价1080p为0.139美元、4K为0.24美元。Gemini 3采用原生多模态架构,统一处理文本、图像、音频和视频。
百度在2025世界大会上发布文心5.0大模型,参数量达2.4万亿。该模型采用原生全模态技术,能统一处理文本、图像、音频和视频,具备出色的多模态理解、指令遵循、创意写作和智能规划能力,在推理与记忆方面表现突出。
Adobe发布专业级AI图像生成模型Firefly Image5,实现从“够用”到专业级的质变。新功能包括原生400万像素输出、分层提示编辑、自定义艺术风格模型及AI语音配乐生成,打通图像、视频、音频的AI创作闭环,重新定义创意工作流。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Bytedance
$1.2
$3.6
4
NexaAI
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
Menlo
Ichigo-llama3s系列模型是由Homebrew Research开发的多模态语言模型,原生支持音频和文本输入理解。该模型基于Llama-3架构,通过WhisperVQ作为音频文件标记器进行训练,提升了音频理解能力。
homebrewltd
基于Llama-3架构的多模态语言模型,原生支持音频与文本输入理解,专注于提升大语言模型对音频的理解能力。
Ichigo-llama3s系列模型原生支持音频和文本输入理解,基于Llama-3架构,使用WhisperVQ作为音频文件的tokenizer。
Llama3-S系列模型是由Homebrew Research开发的多模态语言模型,原生支持音频与文本输入理解,基于Llama-3架构扩展了语音理解能力。
sarvamai
Shuka v1 是一款原生支持印度语言音频理解的语言模型,结合自主研发的音频编码器和Llama3-8B-Instruct解码器,支持多语言零样本问答任务。