Mistral AI发布新一代文档识别技术Mistral OCR3,在表格、扫描文档、复杂表格及手写识别方面表现突出,整体性能较上一代提升74%。该技术旨在高效准确提取各类文档中的文本和嵌入式图像,支持多格式处理,显著提升文档处理效率与精度。
微软开源图像转3D工具TRELLIS.2,仅需一张图片即可快速生成带材质的3D模型,输出.glb格式文件,兼容Blender、Unity等平台。该工具采用4B模型,支持512³至1536³分辨率图像处理,在NVIDIA H100显卡上,生成512³模型仅需约3秒。
OpenAI发布GPT Image1.5,显著提升ChatGPT的视觉创作能力。该模型能生成高保真图像,精准理解并遵循用户指令,支持从零创作或基于上传照片编辑,同时保留原图核心要素,细节处理尤为出色。
英伟达在NeurIPS大会上发布自动驾驶AI模型Alpamayo-R1(AR1),这是全球首个行业级开放推理视觉语言行动模型。它能同时处理文本和图像,将传感器信息转化为自然语言描述,结合推理链AI和路径规划技术,以应对复杂驾驶场景,加速无人驾驶汽车发展。
无水印的 AI 视频生成器,全球访问。
一款将图像转化为 LoRA 模型的先进工具。
Luminar Neo是一款先进的图像处理程序,借助AI轻松完善创意摄影作品。
创意AI图像与视频生成平台,免费创作AI图像和视频,赋能企业
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
dx8152
这是一个基于Qwen-Image-Edit-2509的LoRA微调模型,专门用于解决图像二次光照处理问题。它能够移除原始图像的光照效果,并根据参考图像的光照和色调,为目标图像重新生成逼真的照明和阴影,实现图像风格的迁移与融合。
T5B
Z-Image-Turbo 是经过 FP8 E5M2 和 E4M3FN 格式量化的图像处理模型,基于原始 Tongyi-MAI/Z-Image-Turbo 模型优化,在保持性能的同时显著减少模型大小和推理资源需求。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
Justin331
SAM 3 是 Meta 推出的第三代可提示分割基础模型,统一支持图像和视频分割任务。相比前代 SAM 2,它引入了开放词汇概念分割能力,能够处理大量文本提示,在 SA-CO 基准测试中达到人类表现的 75-80%。
tlennon-ie
QwenEdit2509是一款专门设计的低秩自适应(LoRA)模型,专注于图像色彩处理。它能够将图像去饱和并降低对比度,创造出类似相机日志配置文件的扁平、未分级外观,同时保留高光和阴影中的细节。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
prithivMLmods
Chandra是一款高精度的OCR模型,能够将图像和PDF转换为结构化输出,如Markdown、HTML和JSON,同时保留详细的布局信息。支持40多种语言,擅长处理复杂的文档元素。
vafipas663
基于Qwen-Image-Edit-2509的图像超分辨率LoRA模型,专门用于提升低质量图像的分辨率和视觉效果。该模型在摄影风格的图像上表现出色,能够处理多种图像退化问题。
noctrex
这是一个基于Mistral架构的图像文本转文本量化模型,参数规模为24B,专门针对指令跟随任务进行了优化训练,支持多模态输入处理。
这是慧慧Qwen3-VL-8B思维消融模型的量化版本,基于Qwen3-VL-8B架构,专门针对图像文本转换任务进行了优化和量化处理,可通过llama.cpp工具高效运行。
慧慧Qwen3-VL-8B指令消融模型的量化版本,专门用于图像文本到文本的转换任务。该模型基于Qwen3-VL-8B架构,经过指令消融优化和量化处理,可在保持性能的同时降低计算资源需求。
这是一个基于Huihui-Qwen3-VL-4B-Instruct-abliterated模型的量化版本,专门用于图像文本到文本的转换任务,通过量化处理优化了模型性能,为多模态应用提供支持。
Chandra-OCR量化模型是对原Chandra模型进行量化处理后的版本,专门用于图像转文本任务,可配合最新的llama.cpp使用。
ExaltedSlayer
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
LightOnOCR-1B-1025的量化版本,专门用于图像转文本任务,在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言,适用于OCR、PDF处理和表格识别等场景。
Mungert
Nanonets-OCR2-1.5B-exp GGUF 是一款强大的图像到markdown的OCR模型,能够将文档转换为结构化的markdown格式,并进行智能内容识别和语义标记,支持多语言文档处理。
strangervisionhf
这是一个修复后的图像文本转文本模型,解决了原模型在最新Transformers版本中推理失败的问题。该模型专门用于图像识别和文本生成任务,支持多模态输入处理。
richardyoung
olmOCR-2-7B-1025是由AllenAI开发的高质量OCR视觉语言模型,专门用于处理文档、图像中的文字识别任务。本仓库提供其GGUF量化版本,采用Q8_0量化方式,在减小模型大小的同时保持了出色的准确性。
本项目是对Qwen3-VL-235B-A22B-Thinking模型进行MXFP4_MOE量化处理,旨在提供更高效的图像文本到文本转换能力。该版本来自unloth,已将上下文大小从256k扩展到1M,通过特定的量化技术优化模型在不同场景下的性能表现。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景去除和自动缩放功能。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
Sharp MCP是一个基于Model Context Protocol的图像处理服务器,提供图像会话管理、尺寸获取、颜色提取、背景移除、区域裁剪和图像压缩等功能。
基于Florence-2的MCP图像处理服务
基于RapidOCR的MCP服务器,提供便捷的OCR接口服务
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
MCP Vision Relay 是一个 MCP 服务器,通过封装本地安装的 Gemini 和 Qwen 命令行工具,为 Claude、Codex 等仅支持文本的 MCP 客户端提供图像分析能力,使其能够处理本地路径、URL 或 base64 编码的图片。
Vulcan File Ops是一个基于Model Context Protocol(MCP)的高性能文件操作服务器,可将桌面AI助手(如Claude Desktop、ChatGPT Desktop等)转变为强大的开发伙伴。它提供安全的文件读写、批量操作、文档处理、图像分析和Shell命令执行功能,具有企业级安全控制、动态目录注册和智能工具过滤特性,让用户完全控制本地文件系统访问。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
Recraft AI MCP服务器是一个集成MCP客户端与Recraft AI图像处理功能的服务器,支持生成和编辑光栅/矢量图像、创建自定义风格、图像矢量化、背景处理及图像放大等功能。
LetzAI MCP是一个基于Node.js的图像生成工具,通过Claude桌面应用集成LetzAI API实现AI图像生成与处理。
Freepik FastMCP工具包是一个MCP服务器,用于将AI助手与Freepik API无缝集成,提供图标搜索下载、资源管理、图像分类和生成等功能。
一个基于FastMCP的QR码生成服务器,支持文本转QR码并输出base64编码,提供多种传输模式和自定义样式功能。
Vidu MCP Server是一个基于Model Context Protocol的服务器,用于与Vidu视频生成API交互,提供图像转视频、生成状态检查和图像上传功能。
DALL-E MCP服务器是一个通过OpenAI的DALL-E API生成、编辑和创建图像变体的服务,支持与Cline集成,提供图像生成和处理功能。
一个提供图像获取和处理功能的MCP服务器,支持从URL、本地路径和numpy数组加载图像,并返回base64编码和MIME类型。
一个基于GPT-4o-mini模型的图像分析MCP服务器,可处理URL或本地路径的图像内容分析