マイクロソフトが最近発表した最新のビジョン基盤モデルFlorence-2は、画期的な進歩を遂げました。Transformers.js技術を活用することで、WebGPU対応ブラウザ上で100%ローカル実行できるようになりました。この革新的な技術は、AIビジョンアプリケーションに革命的な変化をもたらし、強力な画像認識機能を、リモートサーバーに依存することなく、ユーザーのブラウザ上で直接実現します。
高度洗練されたビジョン基礎モデルであり、多様なビジョンタスクとビジョン?言語タスクに対応します。
高度高度な視覚基礎モデルであり、多様な視覚タスクと視覚言語タスクに対応します。
様々なビジョンおよびビジョン言語タスクに対応する、高度なビジョン基礎モデルです。
多様なビジョンおよびビジョン?言語タスクに対応する、高度なビジョン基礎モデルです。
ducviet00
これはHugging Faceモデルセンターに公開されたTransformerモデルで、モデルカードは自動生成され、具体的なモデル情報はさらに補充する必要があります。
nazounoryuu
Microsoft Florence-2ベースモデルをファインチューニングした画像からテキストへの変換モデルで、スウェーデン語と英語をサポートし、歴史的手書きテキスト認識と光学文字認識に特化しています。
Vimax97
Florence-2-base-ftを微調整したGPT4-Oスタイルの字幕ジェネレーターで、画像説明を生成するために使用されます
PJMixers-Images
microsoft/Florence-2-baseをファインチューニングした画像記述生成モデルで、記述品質とフォーマット規範の向上に焦点
microsoft/Florence-2-baseをファインチューニングした画像キャプション生成モデルで、記述品質とフォーマットの向上に焦点
Qingyun
LMMRotateは回転物体検出タスク向けにファインチューニングされた大規模マルチモーダル言語モデルで、特に航空写真解析に適しています。
sahilnishad
Florence-2-baseをファインチューニングした文書視覚QAモデルで、文書画像内のQAタスクを専門に処理します。
yifeihu
DocLayNetデータセットでファインチューニングされたFlorence-2モデル、ドキュメントレイアウト分析タスク専用、カテゴリ名の簡略化により性能向上
prithivMLmods
microsoft/Florence-2-base-ftを基に微調整した視覚的質問応答(VQA)専用バージョンで、画像内容を解釈し関連する質問に回答可能
mrhendrey
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアーキテクチャにより様々な視覚と言語タスクを統一的に処理
impactframes
マイクロソフトのFlorence-2モデルをDocmatixデータセット(データ量の5%)で1日間ファインチューニングしたバージョンで、画像テキスト理解タスクに適しています
ljnlonoljpiljm
このモデルはtransformersライブラリに基づくモデルで、具体的な機能と用途はさらなる情報確認が必要です。
jena-shreyas
Florence-2 DocVQAはMicrosoft Florence-2-largeモデルをファインチューニングしたドキュメント視覚質問応答モデルで、ドキュメント画像内の質問応答タスクに特化しています。
Florence-2アノテーションシステムを基にした服装特化型LoRAモデル。高品質な服装デザイン画像生成に特化し、多様なスタイルと素材表現をサポート
multimodalart
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチを用いて多様な視覚タスクを処理し、画像キャプションや物体検出など様々な機能を統一表現で実現します。
gokaygokay
Microsoft Florence-2-largeを基にした視覚言語モデルで、画像理解とテキスト生成タスクに優れています
microsoft/Florence-2-baseに基づく画像テキストからテキストへのモデルで、アート関連の画像記述などのタスクに適しています。
thwri
このモデルはmicrosoft/Florence-2-largeのファインチューニング版で、Ejafa/ye-popデータセットの4万枚の画像サブセットで訓練され、アノテーションテキストはTHUDM/cogvlm2-llama3-chat-19Bによって生成され、画像からテキストへのタスクに適しています。
nirusanan
Florence-2-base-ftをファインチューニングした肺がん検出モデルで、肺画像から肺がんの種類を識別
このモデルはmicrosoft/Florence-2-largeのファインチューニング版で、Ejafa/ye-popデータセットの4万枚の画像サブセットでトレーニングされ、アノテーションはTHUDM/cogvlm2-llama3-chat-19Bによって生成されました。画像からテキストへのタスクに特化しています。
Florence-2に基づくMCP画像処理サービス