谷歌于5月19日发布最新多模态AI模型Gemini Omni,这是Gemini家族的重大突破。该模型能同时处理文本、音频、图像和视频等多种信息形式,实现更流畅自然的跨模态交互体验,旨在提升用户与AI的交互效率。
Google宣布升级Gemini API文件搜索功能,基于Gemini Embedding2模型,突破文本检索限制,整合图像与复杂文档,提升多模态RAG能力,助力企业级AI信息检索准确性迈出关键一步。
智谱发布多模态编程模型GLM-5V-Turbo,具备视觉理解能力,可将设计稿、网页界面等视觉信息转化为代码,实现AI Agent从字符到视觉的感知延伸。
IBM发布Granite 4.0 3B Vision视觉语言模型,拥有30亿参数,专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题,在复杂表格、扫描件及多模态布局文档中表现突出,通过结合视觉理解与语言生成,精准识别并提取关键信息。
SenseNova U1是多模态AI工具,可创建AI图像、信息图等视觉内容。
多模态信息检索与重排序模型,支持文本、图像、视频等输入。
消除幻觉,多模态RAG不忘信息,智能编排前沿模型,任务表现卓越
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
$8
$240
52
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
numind
NuExtract 2.0是由NuMind开发的专门用于结构化信息提取的多模态模型,支持文本和图像输入,具备多语言处理能力,能够根据JSON模板从输入内容中提取结构化信息。
NuExtract 2.0是NuMind公司专门为结构化信息提取任务训练的一系列多模态模型。该4B版本基于Qwen2.5-VL-3B-Instruct构建,支持文本和图像输入,具备多语言处理能力,能够从非结构化数据中提取结构化信息。
manycore-research
SpatialGen是一个利用多视图、多模态扩散模型,从语义布局中生成多视图、多模态信息的项目。它能实现图像到场景以及文本到场景的转换,为相关领域的研究和应用提供了有力支持。
NexaAI
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
Qwen2.5-Omni-3B GGUF是一个多功能的多模态模型,能够处理文本、图像、音频和视频等多种数据,提供高效准确的信息处理和响应。
lingshu-medical-mllm
灵枢是一款在医疗领域表现卓越的多模态大语言模型,能有效处理医学图像和文本信息,在医疗问答和报告生成任务中展现出了顶尖性能。
ibm-granite
基于granite-vision-3.3-2b构建的高效嵌入模型,专为多模态文档检索设计,可处理包含表格、图表、信息图和复杂布局的文档。
NuExtract 2.0是专为结构化信息提取任务训练的多模态多语言模型系列,基于QwenVL系列预训练模型开发。
NuExtract 2.0是专为结构化信息提取任务训练的多模态模型系列,支持文本和图像输入,具备多语言处理能力。
Qwen
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。
StevenHH2000
Finedefics 是一个开源的多模态大语言模型(MLLM),通过融入对象的信息化属性描述,增强了细粒度视觉识别(FGVR)能力。
OpenMuQ
MuQ是基于梅尔残差向量量化的自监督音乐表征学习模型,MuQ-MuLan是音乐-文本联合嵌入模型。MuQ在多个音乐信息检索任务中达到当前最优水平,支持音乐音频特征提取和音乐文本跨模态检索。
zai-org
Glm-Edge-V-5B-GGUF 是一款支持图像文本转换为文本的多模态模型,支持中英双语处理,能够高效准确地将视觉信息转换为文本描述。
AI4Chem
ChemVLM-8B是一个80亿参数的多模态大语言模型,专为化学领域设计,能够处理文本和视觉化学信息。
ishaangupta293
Kosmos-2是一个多模态大语言模型,能够将视觉信息与语言理解相结合,实现图像到文本的转换和视觉定位任务。
impira
这是一个针对文档问答任务微调的多模态LayoutLM模型,能够理解文档中的文本和布局信息来回答问题。
microsoft
MarkupLM是一种针对富视觉文档理解与信息抽取任务的多模态预训练模型,结合文本与标记语言信息。
Context Engineering MCP平台是一个AI上下文管理与优化平台,通过系统化的方法设计、管理和优化AI模型的输入信息,实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能,显著提升AI响应质量、降低API成本,并支持多模态内容处理。