谷歌在全球推出“Search Live”功能,用户可通过手机摄像头和语音与AI实时交互,实现多模态搜索。该功能由Gemini 3.1 Flash Live模型驱动,提升了对话的自然度和响应速度。
工信部就121项行业标准计划公开征求意见,重点规范人工智能模型上下文协议的应用安全,旨在通过标准化解决大模型在多模态交互、长文本处理及跨平台调用中的协议兼容与数据安全问题,标志着我国AI底层协议标准化与安全监管体系建设迈出关键一步。
奔驰与清华、智谱AI合作,将多模态大模型应用于新一代迈巴赫S级后排娱乐系统,成为全球首个在后排引入该技术的汽车品牌,重新定义豪华出行交互体验。
小米2025年财报显示,总收入4573亿元,同比增长25%,调整后净利润392亿元,大增43.8%。公司预测2026年为AI应用爆发年,正加速将大模型、多模态技术与“人车家全生态”深度融合,已完成基础模型布局,自研大模型已在语音、语言等领域应用。
LTX-2 是代多模态 AI 视频生成模型。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
Grok 4是xAI推出的革命性AI模型,具备先进的推理能力、多模态功能和专业编码特性。
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
nvidia
NVIDIA Qwen2.5-VL-7B-Instruct-FP4是阿里巴巴Qwen2.5-VL-7B-Instruct模型的量化版本,采用优化的Transformer架构,支持多模态输入(文本和图像),适用于多种AI应用场景。该模型通过TensorRT Model Optimizer进行FP4量化,在NVIDIA GPU上提供高效的推理性能。
zai-org
GLM-4.1V-9B-Base是智谱AI开发的开源视觉语言基础模型,拥有90亿参数,专注于多模态推理能力,支持中英双语,处理高达4K分辨率的图像和64K上下文长度。
Mungert
MedGemma-4B-IT是基于Gemma 3的医学领域多模态模型,支持医学文本和图像理解,适用于医疗AI应用开发。
Cosmos-Reason1是NVIDIA开发的物理人工智能模型,具备理解物理常识的能力,能通过长链思维推理生成具身决策。该模型支持多模态输入(文本+视频/图像),输出为文本,适用于机器人、自动驾驶等物理AI领域。
MedGemma是基于Gemma 3开发的医学多模态模型,专注于医学文本和图像理解,支持构建医疗保健AI应用。
MedGemma是谷歌开发的专为医疗场景优化的AI模型系列,包含4B多模态和27B纯文本两个版本。基于Gemma 3架构,在医疗文本和图像理解任务中表现出色,能够有效支持医疗AI应用开发。
MedGemma是Google开发的医疗专用多模态AI模型,基于Gemma 3架构,专注于医学文本和图像理解。
RedHatAI
Llama 4系列原生多模态AI模型,支持文本和图像理解,采用混合专家架构,适用于商业和研究场景。
Llama-4-Scout是Meta推出的Llama 4系列模型之一,采用混合专家(MoE)架构,是原生多模态AI模型,支持文本和图像输入,在多语言文本理解和视觉任务方面表现出色。该模型具有17B参数,16个专家,专为商业和研究用途设计。
ginipick
Gemma3-R1984-4B是基于谷歌Gemma-3-4B模型构建的强大智能体AI平台,支持多模态文件处理和深度研究能力。
fahadh4ilyas
Llama 4系列是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像交互,在多种语言和视觉任务中表现卓越。
Llama 4系列是Meta推出的原生多模态AI模型,支持文本和图像交互,采用混合专家架构,在文本和图像理解方面表现卓越。
hirundo-io
Llama 4 Scout是Meta推出的原生多模态AI模型,支持多语言文本和图像理解,采用混合专家架构,在文本和图像理解方面具有行业领先性能。
bnb-community
Llama 4系列是Meta开发的多模态AI模型,支持文本与图像交互,采用混合专家架构(MoE),在文本和图像理解领域具有领先性能。
Llama 4 Scout是Meta推出的170亿参数多模态AI模型,采用混合专家架构,支持12种语言和图像理解。
chutesai
Llama 4 Maverick是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像输入,输出多语言文本和代码。
Undi95
Llama 4 Maverick 是 Meta 发布的多模态 AI 模型,支持文本与图像理解,采用混合专家架构(MoE),在多语言文本和代码生成任务中表现优异。
Llama 4 Scout是Meta推出的17B参数/16专家混合的多模态AI模型,支持12种语言和图像理解,具有行业领先性能。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
Context Engineering MCP平台是一个AI上下文管理与优化平台,通过系统化的方法设计、管理和优化AI模型的输入信息,实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能,显著提升AI响应质量、降低API成本,并支持多模态内容处理。
MCP门户是Model Context Protocol的官方社区平台,提供文档、实践指南、服务器实现、工具集成等资源,支持AI模型通过MCP协议访问外部工具,涵盖从数据库连接到多模态应用等丰富场景。