字节跳动推出AI视频生成模型Seedance2.0,支持文本、图像、音频及视频多输入,可生成1080p高保真视频,实现音视频同步,提升运动稳定性和物理真实感。在独立盲测中,其文本到视频生成表现优异。
MiniMax(稀宇科技)宣布将Coding Plan升级为“Token Plan”,推出全球首个支持全模态模型的订阅服务。用户通过统一密钥,可调用编程、视频、语音、音乐、图像生成等多种模型,实现单一订阅覆盖全场景办公与创作需求。
腾讯AI助手QClaw结束内测,正式开放公测,用户可自由下载使用。产品核心功能由数字形象“🦞”代表,能总结聊天、起草回复、安排会议、撰写文档等。配图展示像素风办公室中拟人化龙虾形象,突出其多功能特性。
谷歌AI设计平台Stitch正式上线,用户可通过自然语言指令生成界面,其核心为“氛围设计”。该平台提供无限画布,支持拖拽图像、文本和代码作为上下文,让非专业人士也能快速上手,改变了传统软件开发流程。
基于WAN 2.2/2.5模型的免费AI视频生成器,可将图片转化为高质量视频。
免费AI学习助手,可将文本、图像等转换为流程图、思维导图等
免费在线Wan视频生成器,可从文本和图像创建1080p视频,2026年3月计划推出。
一款领先的AI信息图表生成器,只需一键即可将创意转化为专业视觉图表。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
-
Google
$0.7
Anthropic
$21
$105
200
Alibaba
$1
$10
256
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
Moonshot
$4
$16
drbaph
Z-Image(造相)是一个拥有60亿参数的高效图像生成基础模型,专门解决图像生成领域的效率和质量问题。其蒸馏版本Z-Image-Turbo仅需8次函数评估就能达到或超越领先竞品,在企业级H800 GPU上可实现亚秒级推理延迟,并能在16G VRAM的消费级设备上运行。
MCG-NJU
SteadyDancer是一个基于图像到视频范式的强大动画框架,专门用于生成高保真且时间连贯的人体动画。该框架通过稳健的首帧保留机制,有效解决了传统方法中的身份漂移问题,在视觉质量和可控性上表现出色,同时显著减少了训练资源需求。
Justin331
SAM 3 是 Meta 推出的第三代可提示分割基础模型,统一支持图像和视频分割任务。相比前代 SAM 2,它引入了开放词汇概念分割能力,能够处理大量文本提示,在 SA-CO 基准测试中达到人类表现的 75-80%。
onnx-community
SAM3是基于概念的任意分割模型,能够根据输入的点、框等提示信息生成精确的图像分割掩码。该版本是ONNX格式的SAM3跟踪器模型,通过Transformers.js库可在浏览器环境中高效运行。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基于quanhaol/Wan2.2-TI2V-5B-Turbo基础模型转换而来的图像转视频模型,经过优化可在4GB GPU上运行,具有出色的通用性和高效推理能力。
facebook
SAM 3 是 Meta 推出的第三代可提示分割基础模型,能够利用文本或视觉提示(点、框、掩码)来检测、分割和跟踪图像与视频中的对象。与前代相比,SAM 3 引入了对开放词汇概念所有实例进行详尽分割的能力,支持大量开放词汇提示,在 SA-CO 基准上达到人类表现的 75-80%。
noctrex
这是慧慧Qwen3-VL-8B思维消融模型的量化版本,基于Qwen3-VL-8B架构,专门针对图像文本转换任务进行了优化和量化处理,可通过llama.cpp工具高效运行。
慧慧Qwen3-VL-8B指令消融模型的量化版本,专门用于图像文本到文本的转换任务。该模型基于Qwen3-VL-8B架构,经过指令消融优化和量化处理,可在保持性能的同时降低计算资源需求。
慧慧Qwen3-VL-4B思维消除模型的量化版本,基于Qwen3-VL-4B模型进行优化,专门设计用于消除思维链推理过程,可搭配最新的llama.cpp使用,提供高效的图像文本转文本处理能力。
Chandra-OCR量化模型是对原Chandra模型进行量化处理后的版本,专门用于图像转文本任务,可配合最新的llama.cpp使用。
Qwen
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
本项目是对Qwen3-VL-30B-A3B-Instruct模型进行MXFP4_MOE量化的成果。该模型可实现图像文本到文本的转换,为相关领域的应用提供了新的解决方案。截至2025年10月22日,此模型仍处于实验阶段。
nvidia
NVIDIA Nemotron Nano v2 12B VL是一款强大的多模态视觉语言模型,支持多图像推理和视频理解,具备文档智能、视觉问答和摘要功能,可用于商业用途。
jayn7
本项目提供了由LightX2V团队开发的万2.2蒸馏模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该版本经过优化,可与ComfyUI-GGUF等工具配合使用,提供高效的推理性能。
ostris
这是一个基于Qwen-Image-Edit-2509的LoRA模型,专门用于将设计图案精准地应用到人物衬衫上,为图像编辑提供新的可能性。
Cassius6668
这是基于Stable Diffusion XL基础模型1.0的LoRA适配权重,专门针对特定风格进行了微调,可用于生成具有特定艺术风格的图像。
briaai
FIBO是首个专为长结构化描述训练的开源文本到图像模型,为可控性、可预测性和特征解耦设定了新标准。该模型拥有80亿参数,仅使用有许可的数据进行训练,支持专业工作流程需求。
John6666
专注于文本到图像生成的动漫风格模型,能够生成具有可爱女孩形象的2D插画、人物肖像和角色设定,图像具有动态姿势、清晰结构和强烈光照等特点。
BarleyFarmer
pejawan22-lora是一个基于AI技术训练的LoRA模型,专门用于特定图像的生成,可与多种AI工具集成使用,通过触发词'peja'来生成图像。
cpatonn
Apriel-1.5-15b-Thinker是ServiceNow开发的150亿参数多模态推理模型,具备文本和图像推理能力,性能可媲美比它大10倍的模型,在人工分析指数上获得52分,在企业领域基准测试中表现优异。
Eino是一个专为Golang设计的LLM应用开发框架,旨在通过简洁、可扩展、可靠且高效的组件抽象和编排能力,简化AI应用开发流程。它提供丰富的组件库、强大的图形编排功能、完整的流处理支持以及高度可扩展的切面机制,覆盖从开发到部署的全周期工具链。
Security Detections MCP 是一个基于Model Context Protocol的服务器,允许LLM查询统一的安全检测规则数据库,涵盖Sigma、Splunk ESCU、Elastic和KQL格式。最新3.0版本升级为自主检测工程平台,可自动从威胁情报中提取TTPs、分析覆盖差距、生成SIEM原生格式检测规则、运行测试并验证。项目包含71+工具、11个预构建工作流提示和知识图谱系统,支持多SIEM平台。
Blueprint MCP是一个基于Arcade生态的图表生成工具,利用Nano Banana Pro等技术,通过分析代码库和系统架构自动生成架构图、流程图等可视化图表,帮助开发者理解复杂系统。
FileScopeMCP是一个基于TypeScript的代码分析工具,通过计算文件重要性评分、追踪依赖关系、生成可视化图表和添加文件摘要,帮助开发者快速理解代码库结构。支持多语言项目分析,提供Mermaid图表生成和持久化存储功能,可与Cursor的模型上下文协议集成。
FileScopeMCP是一个基于TypeScript的工具,用于分析代码库中的文件重要性、跟踪依赖关系并提供可视化图表,帮助开发者快速理解代码结构。
DBCode是一款VS Code数据库管理插件,支持20+种数据库连接,提供数据编辑、自然语言查询、ER图生成、可视化分析等功能,帮助开发者在IDE内高效完成数据库操作。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
AST MCP服务器是一个基于抽象语法树(AST)和抽象语义图(ASG)的代码分析服务,支持多种编程语言,提供代码结构解析、语义分析和复杂度评估等功能,可与Claude Desktop等MCP客户端集成使用。
MCP Server Notifier 是一个轻量级通知服务,与模型上下文协议(MCP)集成,可在AI代理完成任务时发送Webhook通知。支持多种Webhook提供商(如Discord、Slack、Teams等),提供图像支持、多项目管理、自定义消息等功能,易于与AI工具(如Cursor)集成。
tldraw-agent是一个基于AI的文本转图表生成工具,支持通过命令行、库、MCP服务等多种方式使用,可将文本描述(如架构图、流程图)自动生成为PNG或SVG格式的图表。
基于火山引擎SeeDream模型的MCP图片生成工具,支持高质量图片生成、自定义尺寸和智能参考图,可通过MCP协议在Cursor、Claude Desktop等客户端中使用。
Go代码图形分析工具,通过MCP协议为AI助手提供代码理解能力,支持代码结构可视化和智能查询
Vulcan File Ops是一个基于Model Context Protocol(MCP)的高性能文件操作服务器,可将桌面AI助手(如Claude Desktop、ChatGPT Desktop等)转变为强大的开发伙伴。它提供安全的文件读写、批量操作、文档处理、图像分析和Shell命令执行功能,具有企业级安全控制、动态目录注册和智能工具过滤特性,让用户完全控制本地文件系统访问。
Korx Share MCP Server是一个多功能MCP协议服务器,通过与korx.org API集成,为AI生成的视觉内容(如图表、仪表盘和HTML页面)创建安全可分享的URL,同时保持内容交互性并进行风险过滤。
该项目是一个基于Python实现的BI图表MCP服务,用于数据可视化,包含数据加载、处理和渲染模块。
PuchAI Hackathon项目提供多种工具集,包括Reddit内容分析、数据可视化图表生成、药品信息查询、用户偏好管理及任务管理功能,支持开发者快速验证市场假设和分析用户需求。
Smart-Thinking是一个先进的MCP服务器,提供多维、自适应且可自验证的AI推理框架,采用基于图形的架构实现复杂思维连接,支持跨平台运行并与多种MCP客户端兼容。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
Deep Research是一个基于代理的工具,提供网页搜索和高级研究功能,支持PDF分析、图像描述和YouTube转录提取,可作为MCP服务器运行。