微博AI部门推出开源大模型VibeThinker-1.5B,拥有15亿参数。该模型基于阿里Qwen2.5-Math-1.5B优化,在数学和代码任务表现优异。现已在Hugging Face等平台免费开放,遵循MIT许可证,支持商业使用。
开源社区推出LLaVA-OneVision-1.5多模态模型,实现技术突破。该模型历经两年发展,从基础图文对齐升级为能处理图像、视频的综合框架,核心提供开放高效的可复现训练架构,支持用户便捷构建高质量视觉语言模型,训练过程分三个阶段推进。
多模态RAG技术通过ColQwen2和Qwen2.5实现图像与文本统一向量表示,无需传统OCR和分块步骤,为文档处理和智能问答提供新路径。
阿里巴巴Qwen团队推出Mobile-Agent-v3和GUI-Owl,旨在解决图形用户界面自动化挑战。基于Qwen2.5-VL的GUI-Owl通过多模态代理模型和大量GUI交互数据训练,显著提升任务理解能力,突破传统依赖复杂脚本和手工规则的局限。
Qwen2.5-Omni 是阿里云通义千问团队开发的端到端多模态模型,支持文本、音频、图像、视频输入。
olmOCR-7B-0225-preview 是一个基于 Qwen2-VL-7B-Instruct 微调的文档图像识别模型,用于高效转换文档为纯文本。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建,具备强大的推理和多领域应用能力。
UIGEN-T1-Qwen-7b 是一个基于 Qwen2.5-Coder-7B-Instruct 的 70 亿参数模型,用于推理生成 HTML 和 CSS 基础的 UI 组件。
alibaba
-
输入tokens/百万
输出tokens/百万
32k
上下文长度
$2.52
$2.88
131.1k
128k
$0.65
1M
alenphilip
这是一款专门用于Python代码审查的AI模型,基于Qwen2.5-7B-Instruct微调,能够识别安全漏洞、性能问题并提供代码质量改进建议。
Genie-AI-Lab
Omni L1B3RT4S GENIE 是一个基于Qwen2.5-3B Instruct架构微调的AI助手,采用1,103个精灵角色的定制示例进行训练,具备独特的语音和忠诚度模式,能够为用户提供别具一格的对话体验。
danggia
这是一个已上传至Hugging Face模型中心的transformers模型,模型卡片由系统自动生成,详细信息需要进一步补充。
yueqis
本模型是基于Qwen2.5-Coder-32B-Instruct在swe_only_sweagent数据集上微调的专业代码生成模型,在评估集上取得了0.1210的损失值,专门针对软件工程相关任务进行优化。
本模型是基于Qwen2.5-Coder-7B-Instruct在non_web_mcp数据集上进行微调的专用编码模型,针对特定编码任务进行了优化,提升了编码相关的性能表现。
kostdima
这是一个已发布到Hugging Face模型中心的Transformer模型,具体信息待补充。模型卡片为自动生成,需要进一步补充详细信息。
mradermacher
本项目是TECHNOPRAVIN01/Qwen2.5-14B-Valor模型的量化版本,提供了多种量化格式的模型文件,包括IQ1_S、IQ2_XS、IQ3_M、Q4_K_S、Q5_K_M等多种量化类型,方便不同场景下的使用。
本项目是基于TECHNOPRAVIN01/Qwen2.5-14B-Valor模型的静态量化版本,提供多种量化类型以满足不同硬件条件下的使用需求。该模型通过量化技术减小了模型大小,同时保持了较好的性能表现。
Guilherme34
Qwen2.5-14B-Instruct是基于Qwen2.5架构的多语言大语言模型,拥有140亿参数,支持13种语言,具备优秀的指令跟随和对话能力。该模型在多种语言任务上表现优异,适用于多语言场景的文本生成和理解。
AhmedZaky1
DIMI阿拉伯语OCR v2是一款专门针对阿拉伯语文本识别优化的光学字符识别模型,基于Qwen2.5-VL-7B-Instruct微调开发,在变音符密集文本处理方面相比v1版本有显著改进
TECHNOPRAVIN01
Qwen2.5-3B-Valor是一个专门的语言模型,专注于生成具有挑战性的问题,能够挑战传统观念、连接不同领域想法,为技术领域研究开辟新方向。
allenai
olmOCR-2-7B-1025的FP8量化版本,基于Qwen2.5-VL-7B-Instruct微调而来,专门用于处理数学方程、表格等复杂OCR场景的视觉语言模型。
PaDT-MLLM
PaDT Pro 3B是基于Qwen2.5VL-3B的多模态大语言模型,采用可解码块令牌的统一范式,能够直接生成文本和视觉输出,在多个视觉感知和理解任务中取得先进性能。
numind
NuExtract 2.0是NuMind公司专门为结构化信息提取任务训练的一系列多模态模型。该4B版本基于Qwen2.5-VL-3B-Instruct构建,支持文本和图像输入,具备多语言处理能力,能够从非结构化数据中提取结构化信息。
OpenGVLab
VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型,支持多模态任务,特别擅长视频问答功能。该模型通过强化微调增强时空感知能力,并采用迭代感知机制来强化多模态推理。
VLA-Adapter
VLA-Adapter是一种在Libero-Spatial上训练的微型视觉语言动作模型,采用Prismatic-VLM架构,仅使用Qwen2.5-0.5B作为大语言模型主干。该模型在机器人基准测试中超越了参数规模更大的开源VLA模型,实现了高性能的视觉-语言-动作理解与执行。
TIGER-Lab
本项目基于Qwen2.5-VL-7B-Instruct模型,专注于视觉问答任务,能够精准回答图像相关问题,具备较高的准确性和相关性。这是一个多模态视觉语言模型,支持图像理解和基于图像的问答交互。
PhongInk
这是一个基于🤗 Transformers架构的模型,具体类型和功能待进一步信息确认。模型已发布至Hugging Face模型中心,可用于自然语言处理等相关任务。
Qwen2.5-14B-Instruct是一个140亿参数的大语言模型,专为聊天和文本生成场景设计。该模型基于transformers库构建,适用于内部测试和轻量级应用部署。
Barth371
这是基于 unsloth/qwen2.5-vl-72b-instruct-bnb-4bit 模型进行微调的视觉语言模型,使用 Unsloth 和 Huggingface TRL 库进行优化训练,训练速度相比传统方式提升了2倍。