DeepSeek在发布V4版五天后,灰度测试多模态识图功能,新增“识图模式”入口,支持图片理解。实测显示,其在基础视觉理解、复杂人物和环境识别上表现优异,标志着从文本向视觉交互的跨越。
DeepSeek正在灰度测试“识图模式”,该模式具备多模态识别能力,能进行深度图像分析与描述,而不仅是OCR文字识别。用户上传图片后可获得快速响应,有网友形容速度如闪电般迅速。
谷歌与苹果达成云服务合作,将基于Gemini模型开发下一代Apple Foundation机型,计划于2026年推出全新Siri。该合作旨在结合Gemini的多模态处理能力与苹果私有云架构,提升Siri在复杂指令和跨应用识别方面的表现。
蚂蚁集团在CVPR 2026 NTIRE挑战赛中,于“复杂真实场景鲁棒性样本测试”和“人脸增强异常检测”两赛道夺冠。该成果有助于提升支付、内容审核、金融认证等场景的风险识别能力。面对深度伪造与AIGC滥用加剧、检测模型在真实场景及多模态大模型迭代中准确率不足的挑战,这一突破为应对提供了重要技术支撑。
R1-Omni 是一个结合强化学习的全模态情绪识别模型,专注于提升多模态情绪识别的可解释性。
多模态大型语言模型,优化视觉识别和图像推理。
多模态智能框架,识别页面任务并执行动作。
一款基于多模态模型的语音翻译产品,支持近100种语言的自动语音识别、语音翻译、文本翻译、语音合成等功能。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
$8
$240
52
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
fixie-ai
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够理解和处理语音输入,支持多语言语音识别、翻译和音频分析等功能。
prithivMLmods
基于Qwen/Qwen2-VL-2B-Instruct微调的多模态模型,专为OCR、图像转文本、LaTeX数学求解及手写识别优化
mjwong
针对新加坡英语优化的多模态语音识别模型,基于微软Phi-4多模态指令模型微调,显著提升对新加坡英语独特语音特征的识别能力。
fahadh4ilyas
Llama 3.2-Vision是Meta开发的多模态大语言模型,具备图像推理和文本生成能力,支持视觉识别、图像描述和问答等任务。
nguyenvulebinh
AV-HuBERT是一种视听语音识别模型,基于MuAViC多语言视听语料库训练,结合音频和视觉模态实现鲁棒性能。
StevenHH2000
Finedefics 是一个开源的多模态大语言模型(MLLM),通过融入对象的信息化属性描述,增强了细粒度视觉识别(FGVR)能力。
bababababooey
Llama 3.2-Vision是由Meta开发的多模态大语言模型,支持图像和文本输入,针对视觉识别、图像推理和描述任务进行了优化。
erax-ai
EraX-VL-7B-V2.0-Preview是一款强大的多模态模型,专为OCR和视觉问答设计,擅长处理越南语等多种语言,在医疗表格、发票等文档识别上表现突出。
sparklexfantasy
这是一个专注于图像文本到文本处理的多模态伪造表征学习模型,用于检测扩散生成的视频内容,通过多模态特征学习识别深度伪造内容。
NexaAIDev
Qwen2-Audio是先进的小规模多模态模型,支持音频与文本输入,无需依赖语音识别模块即可实现语音交互。
U4R
基于InternVL2-1B的多模态表格识别模型,支持将表格图像转换为LaTeX/HTML/Markdown格式
hiko1999
专为野火场景深度识别设计的图文生成模型,能提供丰富的场景细节,支持多语言和多模态分析。
alpindale
Llama 3.2-Vision是Meta开发的多模态大型语言模型,支持图像和文本输入,能够进行视觉识别、图像推理和描述等任务。
meta-llama
Llama 3.2-Vision是Meta开发的多模态大语言模型,支持图像和文本输入,文本输出,在视觉识别、图像推理、图像描述和图像问答任务上表现优异。
Llama 3.2-Vision是Meta开发的多模态大语言模型系列,支持图像+文本输入和文本输出,专为视觉识别、图像推理、图像描述和图像问答任务优化。
Llama 3.2-Vision是由Meta开发的多模态大语言模型系列,包含11B和90B两种规模,支持图像+文本输入和文本输出,针对视觉识别、图像推理、图像描述和图像问答任务进行了优化。
基于MuAViC数据集的多语言视听语音识别模型,结合音频和视觉模态实现鲁棒性能
RhapsodyAI
GUIChat是一个基于视觉问答(VQA)的多模态模型,能够理解图像内容并回答相关问题,特别针对GUI界面元素识别和交互进行了优化。