微软开源图像转3D工具TRELLIS.2,仅需一张图片即可快速生成带材质的3D模型,输出.glb格式文件,兼容Blender、Unity等平台。该工具采用4B模型,支持512³至1536³分辨率图像处理,在NVIDIA H100显卡上,生成512³模型仅需约3秒。
快手旗下可灵AI发布“主体库”,为O1多模态视频模型增加长期记忆功能。用户上传单张角色图,系统可生成3D视角补全和多光线变体,支持跨场景一键调用角色,主体一致性超96%。流程包括上传图片自动处理、AI补全多角度视图,实现从单图到3D记忆的转换。
谷歌AI电影工具Flow新增图像编辑功能,集成Gemini2.5Flash模型,支持自然语言指令实现去背景、主体分离和场景替换,可生成8秒动态镜头。面向免费及以上用户开放,单张处理0.039美元,企业版同步上线Vertex AI。用户上传图片后输入提示词,即可获得PNG透明图或合成效果图。
谷歌推出NotebookLM图像识别功能,支持上传板书、教材或表格图片,自动完成文字识别与语义分析,用户可直接用自然语言检索图片内容。该功能全平台免费,即将增加本地处理选项保护隐私。系统采用多模态技术,能区分手写与印刷体、解析表格结构,并与现有笔记智能关联。
专业AI视频生成平台,从文字和图片创建视频,可对输入视频广泛编辑。
用AI瞬间去除背景,下载高质量透明图像,适用于电商、设计等。
AI 视频编辑工具,智能修复视频和图片画质。
Sora 2是先进AI视频生成平台,可根据文本或图像生成带声音的高质量视频。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
$0.7
Anthropic
$7
$35
200
$21
$105
Alibaba
$2
256
$3.9
$15.2
64
Bytedance
$0.8
128
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
Upstage MCP Server是一个连接AI助手与Upstage AI文档处理API的服务器,支持从PDF、图片和Office文件中提取结构化内容,并集成Claude Desktop等MCP客户端。
MCP Vision Relay 是一个 MCP 服务器,通过封装本地安装的 Gemini 和 Qwen 命令行工具,为 Claude、Codex 等仅支持文本的 MCP 客户端提供图像分析能力,使其能够处理本地路径、URL 或 base64 编码的图片。
一个支持图片下载和处理的MCP服务器,提供批量下载、格式转换、尺寸调整和压缩等功能
一个基于MCP平台的本地代理服务器和客户端实现,集成天气查询、谷歌搜索、摄像头控制、图片生成和智能对话等多种AI工具功能,支持模块化扩展和高性能并发处理。
MCP Fetch是一个为Claude Desktop设计的服务工具,主要用于抓取网页内容并处理图片,使其适合粘贴到Claude中使用。它支持自动下载和运行,需要macOS系统,并提供图片大小和数量的限制处理。
ParseFlow是一个AI驱动的全能文档解析库,支持PDF、Word、Excel、PPT和图片OCR,提供语义搜索和批量处理功能,并包含MCP服务器供AI助手使用。
一个基于Python的LINE MCP服务器,通过标准化接口让语言模型能够读取和分析LINE对话消息。项目使用FastAPI框架,支持文本、贴图和图片消息处理,并提供了消息存储、API端点等核心功能。
Markdownify MCP UTF-8增强版是一个支持多语言内容转换的Markdown处理服务,优化了UTF-8编码支持,提供PDF/图片/音视频/Office文档等多种格式的Markdown转换能力,并针对Windows系统进行了特别优化。
一个基于Sharp库的图片处理MCP服务,提供调整尺寸、格式转换、裁剪、旋转和获取图片信息等功能
一个基于MCP协议的图像处理服务器,通过自然语言指令实现专业级图片编辑功能
一个基于MCP协议的图像处理服务器,通过自然语言指令实现专业级图片编辑功能,包括生成、修改、背景移除和托管服务。
腾讯云COS MCP Server是一个无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力的服务,提供文件上传下载、图片处理、视频处理等云端存储与处理功能。
一个支持批量将PNG/JPG图片转换为WebP格式的跨平台工具,提供多线程处理和多种转换选项,并集成MCP协议便于AI开发环境使用。
一个基于mammoth库的DOCX文档处理MCP服务器,提供文本提取、HTML转换、结构分析、图片提取和Markdown转换等功能,支持完整格式保留和文档分析。
一个基于MCP协议的服务,通过OCR提取图片文字并生成小红书风格的潮流帖子。
火山引擎对象存储TOS的非官方MCP工具,提供桶管理、对象操作、图片视频处理等功能,支持通过uv工具快速部署
一个示例MCP服务器,通过Lorem Picsum API返回随机图片,展示MCP协议如何处理图像内容块。
一个自动化博客发布服务,当用户输入特定命令时,自动将Obsidian中的Markdown文章复制到博客目录,处理图片链接并同步到GitHub