AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

從文本生成到指令編輯 OmniGen2重塑開源多模態模型應用場景

近日,VectorSpaceLab在Hugging Face平臺正式開源全能多模態模型OmniGen2,以創新性雙組件架構和強大的視覺處理能力,爲研究者和開發者提供了高效的可控生成式AI基礎工具。這款模型由30億參數的視覺語言模型(VLM)Qwen-VL-2.5與40億參數的擴散模型組合而成,通過凍結的VLM解析視覺信號和用戶指令,結合擴散模型實現高質量圖像生成,在視覺理解、文本生成圖像、指令引導圖像編輯和上下文生成四大核心場景中展現出領先性能。 作爲開源項目,OmniGen2的視覺理解能力繼承自Qwen-VL-2.5的強大基礎,

13.6k 前天
從文本生成到指令編輯 OmniGen2重塑開源多模態模型應用場景

模型

查看更多

Qwen Vl 2.5 3B Finetuned Cheque

AJNG

Q

一款視覺語言模型,專門用於從支票圖像中提取結構化的金融信息,生成包含支票號碼、收款人、金額和簽發日期等關鍵信息的JSON格式輸出。

多模態TransformersTransformers英語
AJNG
170
1
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖