近日,微软推出的最新视觉基础模型Florence-2取得重大突破,借助Transformers.js技术,该模型现已能够在支持WebGPU的浏览器中100%本地运行。这一突破为AI视觉应用带来了革命性的变化,使得强大的视觉识别功能可以直接在用户的浏览器中实现,无需依赖远程服务器。
实时浏览器端语音识别应用
在浏览器中直接运行先进的机器学习模型。
ryandono
本模型是 mixedbread-ai/mxbai-edge-colbert-v0-17m 的量化(Int8 / Q8)版本,专为与 transformers.js 配合使用而导出。它包含了48维ColBERT架构所需的自定义投影层,旨在提供高效的向量检索能力。
onnx-community
Supertonic-TTS-ONNX是一个基于ONNX格式的文本到语音转换模型,能够将英文文本转换为自然流畅的语音。该模型基于Supertone/supertonic基础模型开发,专为Transformers.js库优化,支持在浏览器环境中高效运行。
SAM3是基于概念的任意分割模型,能够根据输入的点、框等提示信息生成精确的图像分割掩码。该版本是ONNX格式的SAM3跟踪器模型,通过Transformers.js库可在浏览器环境中高效运行。
tomasmcm
TeapotLLM的ONNX版本,支持通过Transformers.js在浏览器中运行的多语言文本生成模型。
基于ONNX格式的轻量级零样本目标检测模型,兼容Transformers.js,适用于浏览器端部署。
eligapris
这是微软SpeechT5文本转语音(TTS)模型的ONNX格式转换版本,专为Transformers.js优化
这是OpenAI Whisper Large V3 Turbo模型的ONNX格式版本,专门适配Transformers.js库,可在网页端高效运行语音识别功能。该模型支持多语言语音转录和翻译。
这是OpenAI Whisper-tiny模型的ONNX格式转换版本,专门适配transformers.js库,用于在Web浏览器中实现高效的语音识别功能。
基于 transformers.js 的深度估计模型,用于从单张图像预测深度信息。
Depth-Anything-V2-Base 是一个基于 ONNX 格式的深度估计模型,适配 Transformers.js,用于在 Web 端进行图像深度估计。
Depth Anything V2 Small 的 ONNX 版本,专为 Transformers.js 设计,用于单目深度估计任务。
本项目将 OpenAI 的 Whisper-small 语音识别模型转换为 ONNX 格式,使其能够与 Transformers.js 库兼容,从而实现在 Web 浏览器或 Node.js 环境中直接运行,无需依赖 Python 后端。
xavierbarbier
基于Transformers.js的法语零样本分类模型,支持对法语文本进行多类别分类而无需特定训练
这是一个基于transformers.js的法语零样本分类模型,适用于无需微调即可进行多类别文本分类任务。
Xenova
基于GAN的4倍超分辨率图像放大模型,兼容Transformers.js
基于 YOLOv9 的目标检测模型,适配 Transformers.js,支持在浏览器中运行
基于 YOLOv9 (GELAN-C) 架构的目标检测模型,专为 Transformers.js 优化的 ONNX 版本
基于Transformers.js的深度估计模型ONNX版本,适用于网页端应用
基于Transformers.js的深度估计模型,适配ONNX权重版本,用于从图像中预测深度信息。
基于ONNX格式的小型深度估计模型,适配Transformers.js框架,适用于网页端深度图预测