百度发布多模态模型ERNIE-4.5-VL-28B-A3B-Thinking,新增“图像思考”功能,显著提升图像理解与处理能力。模型采用3B激活参数,计算高效灵活,支持多任务处理,推动AI技术发展。
美团开源多模态大模型LongCat-Flash-Omni实现技术突破,在多项基准测试中超越闭源竞品,达到业界领先水平。该模型支持文本、语音、图像、视频的实时融合处理,具备近乎零延迟的交互能力,将本地化多模态AI应用推向新高度。
蚂蚁数科在香港金融科技节推出“多语种多模态大模型训练框架”,旨在解决大模型在多语言环境的应用瓶颈。传统英文大模型在小语种中易出现语言错乱和推理混乱,限制全球化发展。该框架通过优化多语种处理能力,提升模型在多样化语言环境下的表现,推动AI技术更广泛高效地服务于全球各行业。
昆仑万维旗下AI视频创作平台SkyReels焕新上线,推出V3模型及五大核心功能升级,支持Web端和移动端。平台主打“一站式”与“多模态聚合”亮点,整合全球顶尖AI多模态模型,实现无缝创作体验。
LTX-2 是代多模态 AI 视频生成模型。
统一的多模态AI,支持基于指令的图像编辑与生成,超越商业模型。
Grok 4是xAI推出的革命性AI模型,具备先进的推理能力、多模态功能和专业编码特性。
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
google
$2.16
Input tokens/M
$18
Output tokens/M
1M
Context Length
reka-ai
-
128k
anthropic
$108
$540
200k
$0.72
$2.88
openai
$1.8
$14.4
400k
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
zai-org
GLM-4.1V-9B-Base是智谱AI开发的开源视觉语言基础模型,拥有90亿参数,专注于多模态推理能力,支持中英双语,处理高达4K分辨率的图像和64K上下文长度。
Mungert
MedGemma-4B-IT是基于Gemma 3的医学领域多模态模型,支持医学文本和图像理解,适用于医疗AI应用开发。
Cosmos-Reason1是NVIDIA开发的物理人工智能模型,具备理解物理常识的能力,能通过长链思维推理生成具身决策。该模型支持多模态输入(文本+视频/图像),输出为文本,适用于机器人、自动驾驶等物理AI领域。
MedGemma是基于Gemma 3开发的医学多模态模型,专注于医学文本和图像理解,支持构建医疗保健AI应用。
MedGemma是谷歌开发的专为医疗场景优化的AI模型系列,包含4B多模态和27B纯文本两个版本。基于Gemma 3架构,在医疗文本和图像理解任务中表现出色,能够有效支持医疗AI应用开发。
MedGemma是Google开发的医疗专用多模态AI模型,基于Gemma 3架构,专注于医学文本和图像理解。
RedHatAI
Llama 4系列原生多模态AI模型,支持文本和图像理解,采用混合专家架构,适用于商业和研究场景。
ginipick
Gemma3-R1984-4B是基于谷歌Gemma-3-4B模型构建的强大智能体AI平台,支持多模态文件处理和深度研究能力。
fahadh4ilyas
Llama 4系列是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像交互,在多种语言和视觉任务中表现卓越。
Llama 4系列是Meta推出的原生多模态AI模型,支持文本和图像交互,采用混合专家架构,在文本和图像理解方面表现卓越。
hirundo-io
Llama 4 Scout是Meta推出的原生多模态AI模型,支持多语言文本和图像理解,采用混合专家架构,在文本和图像理解方面具有行业领先性能。
bnb-community
Llama 4系列是Meta开发的多模态AI模型,支持文本与图像交互,采用混合专家架构(MoE),在文本和图像理解领域具有领先性能。
Llama 4 Scout是Meta推出的170亿参数多模态AI模型,采用混合专家架构,支持12种语言和图像理解。
chutesai
Llama 4 Maverick是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像输入,输出多语言文本和代码。
Undi95
Llama 4 Maverick 是 Meta 发布的多模态 AI 模型,支持文本与图像理解,采用混合专家架构(MoE),在多语言文本和代码生成任务中表现优异。
Llama 4 Scout是Meta推出的17B参数/16专家混合的多模态AI模型,支持12种语言和图像理解,具有行业领先性能。
meta-llama
Llama 4 Maverick是Meta开发的多模态AI模型,采用混合专家架构,支持文本和图像理解,具有170亿激活参数和4000亿总参数。
Llama 4系列是Meta开发的多模态AI模型,支持文本和图像理解,采用混合专家架构。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
Context Engineering MCP平台是一个AI上下文管理与优化平台,通过系统化的方法设计、管理和优化AI模型的输入信息,实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能,显著提升AI响应质量、降低API成本,并支持多模态内容处理。
MCP门户是Model Context Protocol的官方社区平台,提供文档、实践指南、服务器实现、工具集成等资源,支持AI模型通过MCP协议访问外部工具,涵盖从数据库连接到多模态应用等丰富场景。