近日,微软推出的最新视觉基础模型Florence-2取得重大突破,借助Transformers.js技术,该模型现已能够在支持WebGPU的浏览器中100%本地运行。这一突破为AI视觉应用带来了革命性的变化,使得强大的视觉识别功能可以直接在用户的浏览器中实现,无需依赖远程服务器。
先进的视觉基础模型,支持多种视觉和视觉-语言任务
先进的视觉基础模型,支持多种视觉和视觉-语言任务。
ducviet00
这是一个已发布到Hugging Face模型中心的Transformer模型,模型卡片为自动生成,具体模型信息需要进一步补充
nazounoryuu
基于Microsoft Florence-2基础模型微调的图像转文本模型,支持瑞典语和英语,专注于历史手写文本识别和光学字符识别。
Vimax97
基于Florence-2-base-ft微调的GPT4-O风格字幕生成器,用于生成图像描述
PJMixers-Images
基于microsoft/Florence-2-base微调的图像描述生成模型,专注于提升描述质量和格式规范
基于microsoft/Florence-2-base微调的图像描述生成模型,专注于提升描述质量和格式
devxyasir
基于微软Florence-2 Large模型微调的专业车牌检测识别系统,能够通过边界框定位车辆图像中的车牌区域,并运用OCR技术准确提取车牌文本信息,适用于交通监控、停车管理等场景。
Qingyun
LMMRotate是一个针对旋转目标检测任务微调的大型多模态语言模型,特别适用于航拍图像分析。
sahilnishad
基于Florence-2-base微调的文档视觉问答模型,专门用于处理文档图像中的问答任务。
yifeihu
基于DocLayNet数据集微调的Florence-2模型,专用于文档布局分析任务,通过类别名称简化提升性能
prithivMLmods
基于microsoft/Florence-2-base-ft微调的视觉问答(VQA)专用版本,能够解读图像内容并回答相关问题
mrhendrey
Florence-2是微软开发的先进视觉基础模型,采用基于提示的架构统一处理各类视觉与视觉-语言任务
impactframes
基于微软Florence-2模型使用Docmatix数据集(5%数据量)微调1天的版本,适用于图像文本理解任务
ljnlonoljpiljm
该模型是一个基于transformers库的模型,具体功能和用途需要进一步信息确认。
jena-shreyas
Florence-2 DocVQA 是基于 Microsoft Florence-2-large 模型微调的文档视觉问答模型,专门用于处理文档图像中的问答任务。
基于Florence-2标注系统的服装类LoRA模型,专注于生成高质量服装设计图像,支持多种风格和材质表现
multimodalart
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理多样化视觉任务,通过统一表征实现图像描述、目标检测等多种功能。
gokaygokay
基于Microsoft Florence-2-large的视觉语言模型,擅长图像理解和文本生成任务
基于microsoft/Florence-2-base的图像文本到文本模型,适用于艺术相关的图像描述等任务。
thwri
该模型是microsoft/Florence-2-large的微调版本,在Ejafa/ye-pop数据集的4万张图像子集上进行训练,标注文本由THUDM/cogvlm2-llama3-chat-19B生成,适用于图像转文本任务。
nirusanan
基于Florence-2-base-ft微调的肺癌检测模型,通过肺部图像识别肺癌类型
基于Florence-2的MCP图像处理服务