AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI资讯

查看更多

从文本生成到指令编辑 OmniGen2重塑开源多模态模型应用场景

近日,VectorSpaceLab在Hugging Face平台正式开源全能多模态模型OmniGen2,以创新性双组件架构和强大的视觉处理能力,为研究者和开发者提供了高效的可控生成式AI基础工具。这款模型由30亿参数的视觉语言模型(VLM)Qwen-VL-2.5与40亿参数的扩散模型组合而成,通过冻结的VLM解析视觉信号和用户指令,结合扩散模型实现高质量图像生成,在视觉理解、文本生成图像、指令引导图像编辑和上下文生成四大核心场景中展现出领先性能。 作为开源项目,OmniGen2的视觉理解能力继承自Qwen-VL-2.5的强大基础,

13.6k 前天
从文本生成到指令编辑 OmniGen2重塑开源多模态模型应用场景

模型

查看更多

Qwen Vl 2.5 3B Finetuned Cheque

AJNG

Q

一款视觉语言模型,专门用于从支票图像中提取结构化的金融信息,生成包含支票号码、收款人、金额和签发日期等关键信息的JSON格式输出。

多模态TransformersTransformers英语
AJNG
170
1
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图