マイクロソフトが最近発表した最新のビジョン基盤モデルFlorence-2は、画期的な進歩を遂げました。Transformers.js技術を活用することで、WebGPU対応ブラウザ上で100%ローカル実行できるようになりました。この革新的な技術は、AIビジョンアプリケーションに革命的な変化をもたらし、強力な画像認識機能を、リモートサーバーに依存することなく、ユーザーのブラウザ上で直接実現します。
リアルタイムブラウザ対応音声認識アプリケーション
高度洗練された機械学習モデルをブラウザ上で直接実行します。
onnx-community
Supertonic-TTS-ONNXは、ONNX形式に基づくテキストから音声への変換モデルで、英語のテキストを自然で流れる音声に変換することができます。このモデルはSupertone/supertonic基礎モデルに基づいて開発され、Transformers.jsライブラリ用に最適化されており、ブラウザ環境で効率的に動作します。
SAM3は概念ベースの任意分割モデルで、入力された点やボックスなどのプロンプト情報に基づいて、正確な画像分割マスクを生成することができます。このバージョンはONNX形式のSAM3トラッカーモデルで、Transformers.jsライブラリを通じてブラウザ環境で効率的に動作します。
tomasmcm
TeapotLLMのONNXバージョンで、Transformers.jsを介してブラウザで実行可能な多言語テキスト生成モデルです。
ONNX形式の軽量ゼロショット物体検出モデルで、Transformers.jsと互換性があり、ブラウザサイド展開に適しています。
eligapris
これはマイクロソフトSpeechT5テキスト読み上げ(TTS)モデルのONNX形式変換バージョンで、Transformers.js向けに最適化されています
これはOpenAI Whisper Large V3 TurboモデルのONNX形式のバージョンで、Transformers.jsライブラリに特化して適合されており、ウェブサイトで音声認識機能を効率的に実行できます。このモデルは多言語の音声文字起こしと翻訳をサポートしています。
これはOpenAI Whisper-tinyモデルのONNX形式に変換されたバージョンで、transformers.jsライブラリに特化して適合され、Webブラウザで効率的な音声認識機能を実現するためのものです。
transformers.js ベースの深度推定モデルで、単一画像から深度情報を予測します。
Depth-Anything-V2-Base は ONNX 形式に基づく深度推定モデルで、Transformers.js に適応し、Web 端末で画像深度推定を行うことができます。
Depth Anything V2 Small の ONNX バージョンで、Transformers.js 向けに設計されており、単眼深度推定タスクに使用されます。
xavierbarbier
Transformers.jsベースのフランス語ゼロショット分類モデル。特定のトレーニングなしでフランス語テキストの多クラス分類をサポート
これはtransformers.jsをベースにしたフランス語ゼロショット分類モデルで、微調整なしで多クラステキスト分類タスクに適用可能です。
Xenova
GANベースの4倍超解像画像拡大モデル、Transformers.js互換
YOLOv9に基づく物体検出モデル、Transformers.jsに対応し、ブラウザ上で動作可能
YOLOv9 (GELAN-C) アーキテクチャに基づく物体検出モデル、Transformers.js向けに最適化されたONNXバージョン
Transformers.jsベースの深度推定モデルONNX版、ウェブアプリケーション向け
Transformers.jsベースの深度推定モデルで、ONNX重みバージョンに適合し、画像から深度情報を予測します。
ONNX形式の小型深度推定モデル、Transformers.jsフレームワークに適応し、ウェブ端末での深度マップ予測に適しています
vgorce
これはDistilBERTベースの多言語固有表現認識(NER)モデルで、10言語をサポートし、量子化処理によりTransformers.jsと互換性があります。
DeBERTa-v3-largeアーキテクチャに基づく自然言語推論モデル、Transformers.js用ONNX重み版