埃隆·马斯克称xAI的AI百科全书Grokipedia为“现代亚历山大图书馆”,完全开源,计划将知识库刻录在稳定介质后送往月球、火星等深空,以防文明毁灭导致知识丢失。目前收录约88.5万篇Grok生成文章,标注实时核查时间,用户可划线互动和纠错。
谷歌AI电影工具Flow新增图像编辑功能,集成Gemini2.5Flash模型,支持自然语言指令实现去背景、主体分离和场景替换,可生成8秒动态镜头。面向免费及以上用户开放,单张处理0.039美元,企业版同步上线Vertex AI。用户上传图片后输入提示词,即可获得PNG透明图或合成效果图。
小米更新超级小爱至v7.8.50版,新增“随心修图”功能。用户可通过自然语言指令,利用AI模型自动修图,支持多模态交互识别屏幕和摄像头画面。操作方式包括在相册唤醒小爱或通过App上传照片并输入文字,系统自动完成色彩增强、背景虚化等处理。
谷歌Gemini Pro/Ultra订阅用户现可体验Veo3.1视频模型,新增“Ingredients to Video”功能:支持同时上传三张参考图,分别提取人物、场景与风格特征,融合生成8秒1080p视频。生成内容自带SynthID隐形水印,支持网页/移动端文本输入一键生成。系统确保跨帧角色一致性与光影连贯,演示案例显示三张自拍+赛博城市背景+油画风格图可合成“印象派未来街头漫步”视频。
Grok Imagine v0.9可快速生成图像和视频,有稳定运动、清晰视觉和音频同步。
Seedance 2.0可将图像和文本转化为具有专业品质的电影级AI视频。
Auralume AI是一体化AI视频平台,可通过文本、图像等创建视频。
Imagika可将照片瞬间转化为AI生成的惊艳图像,仅需一张参考图。
openai
$14.4
Input tokens/M
$57.6
Output tokens/M
200k
Context Length
$18
$72
128k
google
$1.08
$4.32
1M
$144
$288
32k
azure
$0.36
$0.72
noctrex
这是慧慧Qwen3-VL-8B思维消融模型的量化版本,基于Qwen3-VL-8B架构,专门针对图像文本转换任务进行了优化和量化处理,可通过llama.cpp工具高效运行。
慧慧Qwen3-VL-8B指令消融模型的量化版本,专门用于图像文本到文本的转换任务。该模型基于Qwen3-VL-8B架构,经过指令消融优化和量化处理,可在保持性能的同时降低计算资源需求。
慧慧Qwen3-VL-4B思维消除模型的量化版本,基于Qwen3-VL-4B模型进行优化,专门设计用于消除思维链推理过程,可搭配最新的llama.cpp使用,提供高效的图像文本转文本处理能力。
Chandra-OCR量化模型是对原Chandra模型进行量化处理后的版本,专门用于图像转文本任务,可配合最新的llama.cpp使用。
Qwen
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
本项目是对Qwen3-VL-30B-A3B-Instruct模型进行MXFP4_MOE量化的成果。该模型可实现图像文本到文本的转换,为相关领域的应用提供了新的解决方案。截至2025年10月22日,此模型仍处于实验阶段。
nvidia
NVIDIA Nemotron Nano v2 12B VL是一款强大的多模态视觉语言模型,支持多图像推理和视频理解,具备文档智能、视觉问答和摘要功能,可用于商业用途。
jayn7
本项目提供了由LightX2V团队开发的万2.2蒸馏模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该版本经过优化,可与ComfyUI-GGUF等工具配合使用,提供高效的推理性能。
ostris
这是一个基于Qwen-Image-Edit-2509的LoRA模型,专门用于将设计图案精准地应用到人物衬衫上,为图像编辑提供新的可能性。
Cassius6668
这是基于Stable Diffusion XL基础模型1.0的LoRA适配权重,专门针对特定风格进行了微调,可用于生成具有特定艺术风格的图像。
briaai
FIBO是首个专为长结构化描述训练的开源文本到图像模型,为可控性、可预测性和特征解耦设定了新标准。该模型拥有80亿参数,仅使用有许可的数据进行训练,支持专业工作流程需求。
John6666
专注于文本到图像生成的动漫风格模型,能够生成具有可爱女孩形象的2D插画、人物肖像和角色设定,图像具有动态姿势、清晰结构和强烈光照等特点。
BarleyFarmer
pejawan22-lora是一个基于AI技术训练的LoRA模型,专门用于特定图像的生成,可与多种AI工具集成使用,通过触发词'peja'来生成图像。
cpatonn
Apriel-1.5-15b-Thinker是ServiceNow开发的150亿参数多模态推理模型,具备文本和图像推理能力,性能可媲美比它大10倍的模型,在人工分析指数上获得52分,在企业领域基准测试中表现优异。
birder-project
这是一个基于RoPE(旋转位置编码)的Vision Transformer模型,参数规模为150M,采用14x14的patch大小。该模型在约2100万张图像的多样化数据集上进行了预训练,可作为通用视觉特征提取器使用。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
andrewwe
my_qwennud-lora是基于Qwen-Image-Edit-2509使用特定工具训练的LoRA模型,专门用于图像生成和编辑任务,采用AI Toolkit by Ostris训练而成,可与多种主流AI工具配合使用。
Salesforce
GTA1是基于GRPO强化学习训练的GUI接地模型,专门用于图形用户界面自动化操作。相较于依赖冗长思维链推理的方法,GRPO直接激励可操作和有根据的响应,在多个基准测试中表现出卓越的接地性能。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
lichorosario
piccoli_no_style-lora 是一个基于图像到视频技术的LoRA模型,使用AI Toolkit进行训练,主要用于图像生成任务,可与多种主流AI工具配合使用。
Eino是一个专为Golang设计的LLM应用开发框架,旨在通过简洁、可扩展、可靠且高效的组件抽象和编排能力,简化AI应用开发流程。它提供丰富的组件库、强大的图形编排功能、完整的流处理支持以及高度可扩展的切面机制,覆盖从开发到部署的全周期工具链。
FileScopeMCP是一个基于TypeScript的代码分析工具,通过计算文件重要性评分、追踪依赖关系、生成可视化图表和添加文件摘要,帮助开发者快速理解代码库结构。支持多语言项目分析,提供Mermaid图表生成和持久化存储功能,可与Cursor的模型上下文协议集成。
FileScopeMCP是一个基于TypeScript的工具,用于分析代码库中的文件重要性、跟踪依赖关系并提供可视化图表,帮助开发者快速理解代码结构。
DBCode是一款VS Code数据库管理插件,支持20+种数据库连接,提供数据编辑、自然语言查询、ER图生成、可视化分析等功能,帮助开发者在IDE内高效完成数据库操作。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
MCP Server Notifier 是一个轻量级通知服务,与模型上下文协议(MCP)集成,可在AI代理完成任务时发送Webhook通知。支持多种Webhook提供商(如Discord、Slack、Teams等),提供图像支持、多项目管理、自定义消息等功能,易于与AI工具(如Cursor)集成。
AST MCP服务器是一个基于抽象语法树(AST)和抽象语义图(ASG)的代码分析服务,支持多种编程语言,提供代码结构解析、语义分析和复杂度评估等功能,可与Claude Desktop等MCP客户端集成使用。
Korx Share MCP Server是一个多功能MCP协议服务器,通过与korx.org API集成,为AI生成的视觉内容(如图表、仪表盘和HTML页面)创建安全可分享的URL,同时保持内容交互性并进行风险过滤。
Go代码图形分析工具,通过MCP协议为AI助手提供代码理解能力,支持代码结构可视化和智能查询
该项目是一个基于Python实现的BI图表MCP服务,用于数据可视化,包含数据加载、处理和渲染模块。
PuchAI Hackathon项目提供多种工具集,包括Reddit内容分析、数据可视化图表生成、药品信息查询、用户偏好管理及任务管理功能,支持开发者快速验证市场假设和分析用户需求。
Deep Research是一个基于代理的工具,提供网页搜索和高级研究功能,支持PDF分析、图像描述和YouTube转录提取,可作为MCP服务器运行。
DiffuGen是一个先进的本地图像生成工具,集成了MCP协议,支持多种AI模型(包括Flux和Stable Diffusion系列),可直接在开发环境中生成高质量图像。它提供了灵活的配置选项、多GPU支持,并可通过MCP协议与多种IDE集成,同时提供OpenAPI接口供外部调用。
Smart-Thinking是一个先进的MCP服务器,提供多维、自适应且可自验证的AI推理框架,采用基于图形的架构实现复杂思维连接,支持跨平台运行并与多种MCP客户端兼容。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
该项目集成Graphistry的GPU加速图可视化平台与模型控制协议(MCP),为AI助手和大型语言模型提供先进的图分析能力,支持多种数据格式和网络分析功能。
一个提供图像识别功能的MCP服务器,支持Anthropic和OpenAI的视觉API,具备图像描述、多格式支持、可配置主备服务商及OCR文本提取功能。
SCAST是一个将代码转换为UML图和流程图的编程工具,支持多种语言,提供静态分析和可视化功能。
一个基于GPT-4o-mini模型的图像分析MCP服务器,可处理URL或本地路径的图像内容分析
Ideogram MCP Server是一个基于Ideogram API的图片生成服务,提供多种可定制的图片生成参数,包括比例、模型、风格等。