火山引擎发布豆包语音识别模型2.0,显著提升推理能力,支持多语言和视觉信息识别。模型基于20亿参数音频编码器,优化复杂场景,提升专有名词、人名、地名及多音字的识别准确性。
商汤科技与南洋理工大学S-Lab联合发布开源多模态模型NEO,通过架构创新实现视觉语言深层统一。该模型仅需3.9亿图像文本数据(为同类模型1/10),即可达到顶尖视觉感知性能,无需海量数据或额外视觉编码器,在效率与通用性上取得突破。
腾讯发布1B参数开源模型HunyuanOCR,基于混元多模态架构,在OCR应用中达到SOTA水平。模型采用端到端设计,一次推理即可获得最优结果,包含原生分辨率视频编码器、自适应视觉适配和轻量化混元语言三大核心组件。
腾讯混元开源10亿参数OCR模型HunyuanOCR,采用端到端设计,集成视频编码器、视觉适配器和轻量化语言模型,在多项榜单获SOTA成绩,以体积小、部署便捷为核心优势,提供高效OCR解决方案。
SigLIP2 是谷歌推出的一种多语言视觉语言编码器,用于零样本图像分类。
视觉语言模型增强工具,结合生成式视觉编码器和深度广度融合技术。
多模态12B参数模型,结合视觉编码器处理图像和文本。
编码器自由的视觉-语言模型,高效且数据驱动。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$2
$20
-
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
$0.8
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
ModernVBERT
ColModernVBERT是ModernVBERT的后期交互版本,专门针对视觉文档检索任务进行了微调,是该任务上性能最佳的模型。它是一个参数为2.5亿的紧凑型视觉-语言编码器,在视觉文档基准测试中达到了近乎参数大10倍模型的性能,同时在CPU上具有可观的推理速度。
timm
这是一个基于DINOv3架构的Vision Transformer图像特征编码器,通过从7B参数的DINOv3 ViT模型在LVD-1689M数据集上进行知识蒸馏得到。该模型专门用于图像特征提取任务,具有强大的视觉表示能力。
apple
FastVLM是一种高效的视觉语言模型视觉编码方案,通过创新的FastViTHD混合视觉编码器显著减少高分辨率图像的编码时间,提升模型性能和响应速度,在多个视觉语言理解基准测试中表现优异。
FastVLM是一种高效的视觉语言模型,通过创新的混合视觉编码器FastViTHD显著减少高分辨率图像的编码时间,提升模型性能。该模型在多个视觉问答和文档理解基准测试中表现出色,同时大幅降低首词生成时间。
FastVLM是一种专为视觉语言模型设计的高效视觉编码方案,通过创新的混合视觉编码器FastViTHD显著减少高分辨率图像的编码时间,提升模型响应速度和性能表现。该模型在多个视觉问答和文档理解基准测试中表现出色。
XiaomiMiMo
MiMo-VL是一款紧凑且强大的视觉语言模型,结合了原生分辨率ViT编码器、MLP投影器和MiMo-7B语言模型,在多模态推理等任务中表现出色。该模型在多个基准测试中表现优异,具备思维控制功能,用户体验显著提升。
MiMo-VL是一款紧凑且强大的视觉语言模型,结合了原生分辨率ViT编码器、MLP投影仪和专为复杂推理任务优化的MiMo-7B语言模型。通过多阶段预训练和后训练,在多个视觉语言任务中取得了优异的成绩。
birder-project
这是一个基于Bolya等人的PE-Core模型的ViT-L14图像编码器,已转换为Birder格式用于图像特征提取。该模型保留了原始权重和架构,但移除了CLIP投影层以输出原始图像嵌入,是一个通用的视觉骨干网络,适用于图像分类和检测任务。
deepseek-community
DeepSeek-VL 是一个开源的视觉语言模型,能够同时处理文本和图像,生成上下文相关的响应。该模型采用混合编码架构,结合LLaMA文本编码器和SigLip/SAM视觉编码器,支持高分辨率图像处理,在真实世界应用中表现出色。
DeepSeek-VL是由DeepSeek AI团队开发的开源视觉语言模型,能够同时处理文本和图像信息,生成上下文相关的回复。该模型采用混合视觉编码器,支持高分辨率图像处理,在真实世界的视觉语言理解应用中表现出色。
prithivMLmods
这是一个基于SigLIP2架构微调的视觉语言编码器模型,专门用于牙齿异常和病症的多类别图像分类。模型能够检测牙结石、龋齿、牙龈炎、口腔溃疡、牙齿变色和牙缺失等六种常见牙齿问题。
ngxson
基于Mistral Small模型的视觉编码器,支持图像文本生成任务,适配llama.cpp框架
基于SigLIP2微调的视觉-语言编码器模型,用于检测图像是否为伪造或真实
UCSC-VLAA
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
OpenVision 是一个全开放、高性价比的先进视觉编码器家族,专为多模态学习设计。
OpenVision是一个完全开放、经济高效的高级视觉编码器家族,用于多模态学习。
OpenVision是一个完全开源、高性价比的先进视觉编码器家族,专为多模态学习设计,性能匹配甚至超越OpenAI CLIP。