近日,微軟推出的最新視覺基礎模型Florence-2取得重大突破,藉助Transformers.js技術,該模型現已能夠在支持WebGPU的瀏覽器中100%本地運行。這一突破爲AI視覺應用帶來了革命性的變化,使得強大的視覺識別功能可以直接在用戶的瀏覽器中實現,無需依賴遠程服務器。
先進的視覺基礎模型,支持多種視覺和視覺-語言任務
先進的視覺基礎模型,支持多種視覺和視覺-語言任務。
ducviet00
這是一個已發佈到Hugging Face模型中心的Transformer模型,模型卡片為自動生成,具體模型信息需要進一步補充
nazounoryuu
基於Microsoft Florence-2基礎模型微調的圖像轉文本模型,支持瑞典語和英語,專注於歷史手寫文本識別和光學字符識別。
Vimax97
基於Florence-2-base-ft微調的GPT4-O風格字幕生成器,用於生成圖像描述
PJMixers-Images
基於microsoft/Florence-2-base微調的圖像描述生成模型,專注於提升描述質量和格式規範
基於microsoft/Florence-2-base微調的圖像描述生成模型,專注於提升描述質量和格式
devxyasir
基於微軟Florence-2 Large模型微調的專業車牌檢測識別系統,能夠通過邊界框定位車輛圖像中的車牌區域,並運用OCR技術準確提取車牌文本信息,適用於交通監控、停車管理等場景。
Qingyun
LMMRotate是一個針對旋轉目標檢測任務微調的大型多模態語言模型,特別適用於航拍圖像分析。
sahilnishad
基於Florence-2-base微調的文檔視覺問答模型,專門用於處理文檔圖像中的問答任務。
yifeihu
基於DocLayNet數據集微調的Florence-2模型,專用於文檔佈局分析任務,通過類別名稱簡化提升性能
prithivMLmods
基於microsoft/Florence-2-base-ft微調的視覺問答(VQA)專用版本,能夠解讀圖像內容並回答相關問題
mrhendrey
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的架構統一處理各類視覺與視覺-語言任務
impactframes
基於微軟Florence-2模型使用Docmatix數據集(5%數據量)微調1天的版本,適用於圖像文本理解任務
ljnlonoljpiljm
該模型是一個基於transformers庫的模型,具體功能和用途需要進一步信息確認。
jena-shreyas
Florence-2 DocVQA 是基於 Microsoft Florence-2-large 模型微調的文檔視覺問答模型,專門用於處理文檔圖像中的問答任務。
基於Florence-2標註系統的服裝類LoRA模型,專注於生成高質量服裝設計圖像,支持多種風格和材質表現
multimodalart
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理多樣化視覺任務,通過統一表徵實現圖像描述、目標檢測等多種功能。
gokaygokay
基於Microsoft Florence-2-large的視覺語言模型,擅長圖像理解和文本生成任務
基於microsoft/Florence-2-base的圖像文本到文本模型,適用於藝術相關的圖像描述等任務。
thwri
該模型是microsoft/Florence-2-large的微調版本,在Ejafa/ye-pop數據集的4萬張圖像子集上進行訓練,標註文本由THUDM/cogvlm2-llama3-chat-19B生成,適用於圖像轉文本任務。
nirusanan
基於Florence-2-base-ft微調的肺癌檢測模型,通過肺部圖像識別肺癌類型
基於Florence-2的MCP圖像處理服務