Meta首席AI科学家杨立昆将离职创业,专注开发“世界模型”AI。他正寻求投资,推动其“目标驱动AI”架构商业化,此举被视为对Meta押注大语言模型的公开否定。杨立昆认为仅扩大参数无法实现人类级推理,主张通过视频、传感器等多模态路径发展AI。
美团LongCat团队推出UNO-Bench基准测试,系统评估多模态模型能力。该基准覆盖44种任务类型和5种模态组合,包含1250个全模态样本(跨模态可解性98%)及2480个增强单模态样本,全面测试模型在单模态与全模态场景下的性能表现。
蚂蚁数科在港金融科技节推出多语种多模态大模型训练框架,突破多语言应用瓶颈。该技术针对埃及阿拉伯语等小语种,通过语言感知优化框架,实现“以目标语言思考”机制,提升资源稀缺语言的训练效果。
蚂蚁数科在香港金融科技节推出“多语种多模态大模型训练框架”,旨在解决大模型在多语言环境的应用瓶颈。传统英文大模型在小语种中易出现语言错乱和推理混乱,限制全球化发展。该框架通过优化多语种处理能力,提升模型在多样化语言环境下的表现,推动AI技术更广泛高效地服务于全球各行业。
一款轻量级的多模态语言模型安卓应用。
高效的开源专家混合视觉语言模型,具备多模态推理能力。
Migician 是一个专注于多图像定位的多模态大语言模型,能够实现自由形式的多图像精确定位。
一款支持多种语言模型的高性能AI聊天工具,提供本地隐私保护和多模态交互功能。
tencent
$3
输入tokens/百万
$9
输出tokens/百万
8k
上下文长度
alibaba
$0.8
$16
131.1k
baidu
$15
32k
meta
$2.52
$2.88
128k
$0.43
bytedance
$0.2
$5
256k
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8是基于百度ERNIE-4.5架构的多模态大语言模型,通过AWQ量化技术实现8位精度,在保持高性能的同时大幅降低内存需求。该模型在视觉推理、STEM问题解决、图像分析等方面表现出色,具备强大的多模态理解和推理能力。
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
ExaltedSlayer
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
Pacific-Prime
INL架构是一种基于积分神经元动力学的生产级神经架构,用迭代动力学取代传统前馈网络层,适用于大语言模型、视觉变换器、多模态模型等多种类型。
cpatonn
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
NexaAI
Qwen3-VL-8B-Thinking是阿里云Qwen团队开发的80亿参数多模态大语言模型,专为深度多模态推理设计,支持视觉理解、长上下文处理和结构化思维链生成,在复杂推理任务中表现出色。
Qwen3-VL-4B-Instruct是阿里云Qwen团队推出的40亿参数指令调优多模态大语言模型,专为高通NPU优化,融合强大的视觉语言理解能力与对话微调功能,适用于聊天推理、文档分析和视觉对话等实际应用场景。
Open-Bee
Bee-8B是一个先进的全开源多模态大语言模型,专注于数据质量,旨在缩小与专有模型的性能差距。通过使用高质量的Honey-Data-15M语料库和先进的数据处理管道HoneyPipe,在复杂推理等方面展现了卓越性能。
PaDT-MLLM
PaDT Pro 3B是基于Qwen2.5VL-3B的多模态大语言模型,采用可解码块令牌的统一范式,能够直接生成文本和视觉输出,在多个视觉感知和理解任务中取得先进性能。
inclusionAI
Ming-UniVision是一个多模态大语言模型,首次将连续视觉表征集成到下一令牌预测框架中,在单一自回归范式下统一了视觉和语言,无需离散量化或特定模态的头部。该模型支持联合图像理解与生成,在视觉语言训练中收敛速度更快,还支持多轮上下文视觉任务。
lapa-llm
Lapa LLM 12B PT是基于Google Gemma 3-12B开发的开源大语言模型,专门针对乌克兰语处理优化。由乌克兰多所高校研究团队开发,在乌克兰语处理方面表现卓越,具备高效的指令微调和多模态能力。
PerceptronAI
Isaac-0.1是感知公司推出的首个开源视觉语言模型,拥有20亿参数,专为现实世界应用设计。该模型在多模态理解和空间推理方面表现出色,性能达到甚至超越比它大50倍以上的模型,树立了新的效率标准。
OpenGVLab
InternVL3.5是开源多模态模型家族的新成员,显著提升了InternVL系列的通用性、推理能力和推理效率,支持GUI交互等新功能,达到开源多模态大语言模型的先进水平。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
Kwai-Keye
快手Keye-VL是由快手Keye团队打造的前沿多模态大语言模型,在视频理解、视觉感知和推理任务中表现卓越。1.5版本通过创新的快慢视频编码策略、LongCoT冷启动数据管道和强化学习训练策略,在视频理解、图像感知和推理能力上达到新高度,支持长达128k标记的扩展上下文长度。
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
Frane92O
本模型是Qwen2.5-Omni-7B的GGUF量化版本,使用llama.cpp工具从原始模型转换而来。Qwen2.5-Omni-7B是一个70亿参数的多模态大语言模型,支持文本、图像、音频等多种模态的输入和输出。
google
Gemma 3是Google推出的轻量级、最先进的多模态开放模型家族,基于与Gemini模型相同的研究和技术构建。该模型能够处理文本和图像输入并生成文本输出,具有128K的大上下文窗口,支持超过140种语言,提供从270M到27B的多种尺寸选择。
ToolChat是一个通过MCP服务器与大型语言模型(LLM)交互的工具,支持配置多工具服务器并调用特定功能,还能处理多模态输入如图片和文档。