一群特殊的“AI老法师”ManuDrive正悄然改变传统制造业,在生物发酵、建筑设计、污水处理等领域替代蓝领工人。这是上海交通大学AIMS Lab的科研成果转化,由李金金教授创立的科技公司,将AI从文字、图像处理拓展至工业时序控制,推动制造业智能化转型。
OpenAI即将推出全新图像模型,重点提升对复杂图像结构和专业图表的理解与构建能力,优化高难度视觉任务处理。
Anthropic发布Claude Opus 4.7模型,在高级软件工程任务处理和执行指令方面显著优于前代。新模型具备自我验证能力,提升结果准确性;视觉处理支持识别边长高达2,576像素的图像,增强了专业任务的创造力和质量。
小红书开源Relax强化学习训练引擎,专为多模态与智能体场景设计,支持文字、图像、音频、视频统一处理,精准契合AI行业发展趋势。
新一代高性能AI图像与视频生成平台,支持超强文本渲染与4K高分辨率输出。
强大AI图像与视频生成平台,先进技术助您快速创造惊艳视觉作品
一款基于 Flux Kontext 技术的 AI 图像生成与编辑工具。
一站式AI图像与视频生成平台,20+模型,免提示词,按使用付费。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
dx8152
这是一个基于Qwen-Image-Edit-2509的LoRA微调模型,专门用于解决图像二次光照处理问题。它能够移除原始图像的光照效果,并根据参考图像的光照和色调,为目标图像重新生成逼真的照明和阴影,实现图像风格的迁移与融合。
T5B
Z-Image-Turbo 是经过 FP8 E5M2 和 E4M3FN 格式量化的图像处理模型,基于原始 Tongyi-MAI/Z-Image-Turbo 模型优化,在保持性能的同时显著减少模型大小和推理资源需求。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
Justin331
SAM 3 是 Meta 推出的第三代可提示分割基础模型,统一支持图像和视频分割任务。相比前代 SAM 2,它引入了开放词汇概念分割能力,能够处理大量文本提示,在 SA-CO 基准测试中达到人类表现的 75-80%。
tlennon-ie
QwenEdit2509是一款专门设计的低秩自适应(LoRA)模型,专注于图像色彩处理。它能够将图像去饱和并降低对比度,创造出类似相机日志配置文件的扁平、未分级外观,同时保留高光和阴影中的细节。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
prithivMLmods
Chandra是一款高精度的OCR模型,能够将图像和PDF转换为结构化输出,如Markdown、HTML和JSON,同时保留详细的布局信息。支持40多种语言,擅长处理复杂的文档元素。
vafipas663
基于Qwen-Image-Edit-2509的图像超分辨率LoRA模型,专门用于提升低质量图像的分辨率和视觉效果。该模型在摄影风格的图像上表现出色,能够处理多种图像退化问题。
noctrex
这是一个基于Mistral架构的图像文本转文本量化模型,参数规模为24B,专门针对指令跟随任务进行了优化训练,支持多模态输入处理。
这是慧慧Qwen3-VL-8B思维消融模型的量化版本,基于Qwen3-VL-8B架构,专门针对图像文本转换任务进行了优化和量化处理,可通过llama.cpp工具高效运行。
慧慧Qwen3-VL-8B指令消融模型的量化版本,专门用于图像文本到文本的转换任务。该模型基于Qwen3-VL-8B架构,经过指令消融优化和量化处理,可在保持性能的同时降低计算资源需求。
这是一个基于Huihui-Qwen3-VL-4B-Instruct-abliterated模型的量化版本,专门用于图像文本到文本的转换任务,通过量化处理优化了模型性能,为多模态应用提供支持。
Chandra-OCR量化模型是对原Chandra模型进行量化处理后的版本,专门用于图像转文本任务,可配合最新的llama.cpp使用。
ExaltedSlayer
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
LightOnOCR-1B-1025的量化版本,专门用于图像转文本任务,在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言,适用于OCR、PDF处理和表格识别等场景。
Mungert
Nanonets-OCR2-1.5B-exp GGUF 是一款强大的图像到markdown的OCR模型,能够将文档转换为结构化的markdown格式,并进行智能内容识别和语义标记,支持多语言文档处理。
strangervisionhf
这是一个修复后的图像文本转文本模型,解决了原模型在最新Transformers版本中推理失败的问题。该模型专门用于图像识别和文本生成任务,支持多模态输入处理。
richardyoung
olmOCR-2-7B-1025是由AllenAI开发的高质量OCR视觉语言模型,专门用于处理文档、图像中的文字识别任务。本仓库提供其GGUF量化版本,采用Q8_0量化方式,在减小模型大小的同时保持了出色的准确性。
本项目是对Qwen3-VL-235B-A22B-Thinking模型进行MXFP4_MOE量化处理,旨在提供更高效的图像文本到文本转换能力。该版本来自unloth,已将上下文大小从256k扩展到1M,通过特定的量化技术优化模型在不同场景下的性能表现。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景去除和自动缩放功能。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
Sharp MCP是一个基于Model Context Protocol的图像处理服务器,提供图像会话管理、尺寸获取、颜色提取、背景移除、区域裁剪和图像压缩等功能。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
基于Florence-2的MCP图像处理服务
基于RapidOCR的MCP服务器,提供便捷的OCR接口服务
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
Vulcan File Ops是一个基于Model Context Protocol(MCP)的高性能文件操作服务器,可将桌面AI助手(如Claude Desktop、ChatGPT Desktop等)转变为强大的开发伙伴。它提供安全的文件读写、批量操作、文档处理、图像分析和Shell命令执行功能,具有企业级安全控制、动态目录注册和智能工具过滤特性,让用户完全控制本地文件系统访问。
MCP Vision Relay 是一个 MCP 服务器,通过封装本地安装的 Gemini 和 Qwen 命令行工具,为 Claude、Codex 等仅支持文本的 MCP 客户端提供图像分析能力,使其能够处理本地路径、URL 或 base64 编码的图片。
Recraft AI MCP服务器是一个集成MCP客户端与Recraft AI图像处理功能的服务器,支持生成和编辑光栅/矢量图像、创建自定义风格、图像矢量化、背景处理及图像放大等功能。
Freepik FastMCP工具包是一个MCP服务器,用于将AI助手与Freepik API无缝集成,提供图标搜索下载、资源管理、图像分类和生成等功能。
LetzAI MCP是一个基于Node.js的图像生成工具,通过Claude桌面应用集成LetzAI API实现AI图像生成与处理。
一个基于FastMCP的QR码生成服务器,支持文本转QR码并输出base64编码,提供多种传输模式和自定义样式功能。
一个基于OpenSCAD的MCP服务器,通过AI生成多视角图像并重建为参数化3D模型,支持远程CUDA加速处理。
DALL-E MCP服务器是一个通过OpenAI的DALL-E API生成、编辑和创建图像变体的服务,支持与Cline集成,提供图像生成和处理功能。
一个基于GPT-4o-mini模型的图像分析MCP服务器,可处理URL或本地路径的图像内容分析
一个用于获取剪贴板内容的MCP服务器,目前仅支持MacOS系统上的图像内容。