腾讯混元发布图像3.0图生图模型,已在元宝助手和官网上线。该模型采用混合专家架构,参数量达800亿,能根据用户指令智能编辑图片,实现“会思考”的图像处理。
微软开源图像转3D工具TRELLIS.2,仅需一张图片即可快速生成带材质的3D模型,输出.glb格式文件,兼容Blender、Unity等平台。该工具采用4B模型,支持512³至1536³分辨率图像处理,在NVIDIA H100显卡上,生成512³模型仅需约3秒。
快手旗下可灵AI发布“主体库”,为O1多模态视频模型增加长期记忆功能。用户上传单张角色图,系统可生成3D视角补全和多光线变体,支持跨场景一键调用角色,主体一致性超96%。流程包括上传图片自动处理、AI补全多角度视图,实现从单图到3D记忆的转换。
谷歌AI电影工具Flow新增图像编辑功能,集成Gemini2.5Flash模型,支持自然语言指令实现去背景、主体分离和场景替换,可生成8秒动态镜头。面向免费及以上用户开放,单张处理0.039美元,企业版同步上线Vertex AI。用户上传图片后输入提示词,即可获得PNG透明图或合成效果图。
专业AI视频生成平台,从文字和图片创建视频,可对输入视频广泛编辑。
用AI瞬间去除背景,下载高质量透明图像,适用于电商、设计等。
AI 视频编辑工具,智能修复视频和图片画质。
Sora 2是先进AI视频生成平台,可根据文本或图像生成带声音的高质量视频。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
$0.7
Anthropic
$7
$35
200
$21
$105
Alibaba
$2
256
$3.9
$15.2
64
Bytedance
$0.8
128
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
Upstage MCP Server是一个连接AI助手与Upstage AI文档处理API的服务器,支持从PDF、图片和Office文件中提取结构化内容,并集成Claude Desktop等MCP客户端。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
MCP Vision Relay 是一个 MCP 服务器,通过封装本地安装的 Gemini 和 Qwen 命令行工具,为 Claude、Codex 等仅支持文本的 MCP 客户端提供图像分析能力,使其能够处理本地路径、URL 或 base64 编码的图片。
一个支持图片下载和处理的MCP服务器,提供批量下载、格式转换、尺寸调整和压缩等功能
ParseFlow是一个AI驱动的全能文档解析库,支持PDF、Word、Excel、PPT和图片OCR,提供语义搜索和批量处理功能,并包含MCP服务器供AI助手使用。
MCP Fetch是一个为Claude Desktop设计的服务工具,主要用于抓取网页内容并处理图片,使其适合粘贴到Claude中使用。它支持自动下载和运行,需要macOS系统,并提供图片大小和数量的限制处理。
一个基于MCP平台的本地代理服务器和客户端实现,集成天气查询、谷歌搜索、摄像头控制、图片生成和智能对话等多种AI工具功能,支持模块化扩展和高性能并发处理。
一个基于Python的LINE MCP服务器,通过标准化接口让语言模型能够读取和分析LINE对话消息。项目使用FastAPI框架,支持文本、贴图和图片消息处理,并提供了消息存储、API端点等核心功能。
Markdownify MCP UTF-8增强版是一个支持多语言内容转换的Markdown处理服务,优化了UTF-8编码支持,提供PDF/图片/音视频/Office文档等多种格式的Markdown转换能力,并针对Windows系统进行了特别优化。
一个基于Sharp库的图片处理MCP服务,提供调整尺寸、格式转换、裁剪、旋转和获取图片信息等功能
一个基于MCP协议的图像处理服务器,通过自然语言指令实现专业级图片编辑功能
一个基于MCP协议的图像处理服务器,通过自然语言指令实现专业级图片编辑功能,包括生成、修改、背景移除和托管服务。
腾讯云COS MCP Server是一个无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力的服务,提供文件上传下载、图片处理、视频处理等云端存储与处理功能。
一个基于mammoth库的DOCX文档处理MCP服务器,提供文本提取、HTML转换、结构分析、图片提取和Markdown转换等功能,支持完整格式保留和文档分析。
一个支持批量将PNG/JPG图片转换为WebP格式的跨平台工具,提供多线程处理和多种转换选项,并集成MCP协议便于AI开发环境使用。
一个基于MCP协议的服务,通过OCR提取图片文字并生成小红书风格的潮流帖子。
火山引擎对象存储TOS的非官方MCP工具,提供桶管理、对象操作、图片视频处理等功能,支持通过uv工具快速部署
HTML转Markdown的MCP服务器,可将网页HTML转换为简洁的Markdown格式,保留表格、图片等核心内容,压缩率达90-95%,支持浏览器模式处理JavaScript网站和认证页面。
一个自动化博客发布服务,当用户输入特定命令时,自动将Obsidian中的Markdown文章复制到博客目录,处理图片链接并同步到GitHub