近日,微軟推出的最新視覺基礎模型Florence-2取得重大突破,藉助Transformers.js技術,該模型現已能夠在支持WebGPU的瀏覽器中100%本地運行。這一突破爲AI視覺應用帶來了革命性的變化,使得強大的視覺識別功能可以直接在用戶的瀏覽器中實現,無需依賴遠程服務器。
即時瀏覽器端語音識別應用
在瀏覽器中直接運行先進的機器學習模型。
onnx-community
Supertonic-TTS-ONNX是一個基於ONNX格式的文本到語音轉換模型,能夠將英文文本轉換為自然流暢的語音。該模型基於Supertone/supertonic基礎模型開發,專為Transformers.js庫優化,支持在瀏覽器環境中高效運行。
SAM3是基於概念的任意分割模型,能夠根據輸入的點、框等提示信息生成精確的圖像分割掩碼。該版本是ONNX格式的SAM3跟蹤器模型,通過Transformers.js庫可在瀏覽器環境中高效運行。
tomasmcm
TeapotLLM的ONNX版本,支持通過Transformers.js在瀏覽器中運行的多語言文本生成模型。
基於ONNX格式的輕量級零樣本目標檢測模型,兼容Transformers.js,適用於瀏覽器端部署。
eligapris
這是微軟SpeechT5文本轉語音(TTS)模型的ONNX格式轉換版本,專為Transformers.js優化
這是OpenAI Whisper Large V3 Turbo模型的ONNX格式版本,專門適配Transformers.js庫,可在網頁端高效運行語音識別功能。該模型支持多語言語音轉錄和翻譯。
這是OpenAI Whisper-tiny模型的ONNX格式轉換版本,專門適配transformers.js庫,用於在Web瀏覽器中實現高效的語音識別功能。
基於 transformers.js 的深度估計模型,用於從單張圖像預測深度信息。
Depth-Anything-V2-Base 是一個基於 ONNX 格式的深度估計模型,適配 Transformers.js,用於在 Web 端進行圖像深度估計。
Depth Anything V2 Small 的 ONNX 版本,專為 Transformers.js 設計,用於單目深度估計任務。
xavierbarbier
基於Transformers.js的法語零樣本分類模型,支持對法語文本進行多類別分類而無需特定訓練
這是一個基於transformers.js的法語零樣本分類模型,適用於無需微調即可進行多類別文本分類任務。
Xenova
基於GAN的4倍超分辨率圖像放大模型,兼容Transformers.js
基於 YOLOv9 的目標檢測模型,適配 Transformers.js,支持在瀏覽器中運行
基於 YOLOv9 (GELAN-C) 架構的目標檢測模型,專為 Transformers.js 優化的 ONNX 版本
基於Transformers.js的深度估計模型ONNX版本,適用於網頁端應用
基於Transformers.js的深度估計模型,適配ONNX權重版本,用於從圖像中預測深度信息。
基於ONNX格式的小型深度估計模型,適配Transformers.js框架,適用於網頁端深度圖預測
vgorce
這是一個基於DistilBERT的多語言命名實體識別(NER)模型,支持10種語言,經過量化處理兼容Transformers.js。
基於DeBERTa-v3-large架構的自然語言推理模型,適配Transformers.js的ONNX權重版