上海人工智能实验室发布并开源万亿参数科学多模态大模型“书生 Intern-S1-Pro”,基于“通专融合”架构 SAGE 打造,刷新开源社区参数规模纪录,在多项科学能力上实现突破,综合学科评测稳居 AI4S 领域国际前列。
上海AI实验室发布全球最大开源科学多模态模型“书生 Intern-S1-Pro”,参数达1万亿。该模型基于“通专融合”架构SAGE,在科学能力上达到国际领先水平,尤其在复杂学科评测中展现出卓越的逻辑推理能力。
谷歌DeepMind开放Project Genie AI模型,用户可通过文本或图片生成可交互虚拟世界,实现游戏式探索。该工具融合Genie3、Nano Banana Pro图像生成和Gemini多模态模型,突破传统内容生成边界。
商汤科技开源多模态自主推理模型SenseNova-MARS,提供8B和32B版本。该模型是首个Agentic VLM,融合动态视觉推理与图文搜索,能理解图像并自主推理,推动多模态大模型发展。
先进的多模态理解模型,融合视觉与语言能力。
多模态大型语言模型,融合视觉与语言理解。
多模态语言模型,融合文本和语音
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
$8
$240
52
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
AbstractPhil
MM-VAE Lyra是一个专门用于文本嵌入转换的多模态变分自编码器,采用几何融合技术。它结合了CLIP-L和T5-base模型,能够有效处理文本嵌入的编码和解码任务,为多模态数据处理提供创新解决方案。
Qwen
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
NexaAI
Qwen3-VL-4B-Instruct是阿里云Qwen团队推出的40亿参数指令调优多模态大语言模型,专为高通NPU优化,融合强大的视觉语言理解能力与对话微调功能,适用于聊天推理、文档分析和视觉对话等实际应用场景。
chs20
FuseLIP是一种创新的多模态嵌入模型,它通过一个单一的Transformer模型,使用扩展的词汇表同时处理文本和图像离散令牌,实现了模态间的早期深度融合。该方法解决了传统对比式语言-图像预训练模型无法原生编码多模态输入的问题,在视觉问答和文本引导的图像检索等任务上表现出色。
jobs-git
SkyReels V2是全球首个采用扩散强制框架的无限长度电影生成模型,融合多模态大语言模型、多阶段预训练、强化学习与扩散强制技术实现全面优化。
shadowlilac
Llama 4 Scout是Meta推出的170亿参数混合专家架构(MoE)多模态模型,支持12种语言和图像理解,采用topk=4专家动态融合机制。
aimagelab
ReT是一种支持多模态查询与文档检索的创新方法,通过融合视觉与文本骨干网络多层级表征实现细粒度检索。
Robeeeeeeeeeee
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。支持文本、图像和音频输入,生成文本输出,并具备128K标记的上下文长度。
microsoft
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入,生成文本输出,并具备128K token的上下文长度。
TucanoBR
ViTucano是首个原生葡萄牙语预训练的视觉助手,融合视觉理解与语言能力,适用于多模态任务如图像描述、视觉问答等。
NVEagle
Eagle是一个以视觉为中心的高分辨率多模态大语言模型家族,通过融合多种视觉编码器和不同输入分辨率,增强了多模态大语言模型的感知能力。
facebook
Meta变色龙是FAIR研发的混合模态早期融合基础模型,支持图像和文本的多模态处理。
zongzhuofan
MoVA-8B是一个开源的多模态大语言模型,采用从粗到细的机制,自适应地路由和融合特定任务的视觉专家模块,可用于多模态模型和聊天机器人的研究。
vikhyatk
16亿参数的多模态模型,融合SigLIP与Phi-1.5技术架构,支持图像理解和问答任务
PsiPi
基于Mistral-7B的视觉语言模型,融合SigLIP-400M视觉编码器和函数调用能力,支持多模态交互
declare-lab
Mustango是一个专为可控音乐生成而设计的全新多模态大语言模型,融合了潜在扩散模型(LDM)、Flan-T5和音乐特征来实现高质量的文本到音乐生成。
photonmz
BabyDoctor是一个多模态大语言模型,融合了CLiP和LLaMA 2的能力,能够理解和生成文本,同时理解图像。该模型经过微调,专门用于解读X光、超声波、核磁共振和CT扫描等放射学图像。