PixVerse CLI 是一款命令行工具,旨在让开发者无需切换至浏览器,直接在终端通过命令调用 PixVerse 平台的视频和图像生成功能,从而提升工作效率。
埃隆·马斯克旗下xAI公司因Grok聊天机器人被指控生成未成年人露骨内容,遭三名青少年提起集体诉讼。原告称,公司明知其“刺激模式”可能产生违法内容,却未进行充分安全测试,存在设计缺陷。
谷歌Gemini AI助手网页版正式向香港用户开放,提供文字、图像、语音及数据处理等多模态功能,结束了此前无法直接登录的局面。
谷歌推出原生多模态嵌入模型Gemini Embedding2,支持文本、图像、视频、音频和文档,统一映射到向量空间,实现跨媒体深度理解。与生成式模型不同,它专注于“理解”,将数据转化为向量,帮助系统识别语义关系。
最佳AI女友应用,可构建有记忆、2K视觉和深度叙事的虚拟伴侣
提供Nanobanana 2等AI图像生成的热门提示,免提示工程,一键生成
免费在线AI视频生成器,可将文本或图像转化为专业视频
免费AI测验生成器,可从笔记、PDF、图像和YouTube生成测验,无需注册。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
dx8152
这是一个基于Qwen-Image-Edit-2509的LoRA微调模型,专门用于解决图像二次光照处理问题。它能够移除原始图像的光照效果,并根据参考图像的光照和色调,为目标图像重新生成逼真的照明和阴影,实现图像风格的迁移与融合。
GuangyuanSD
Z-Image-Re-Turbo 是一个基于文本生成图像的模型,它在 Z-Image-De-Turbo 模型的基础上进行了去还原和重新加速优化。该模型旨在兼顾训练时的便利性与推理时的速度,恢复了接近原始 Turbo 模型的快速生成能力,同时保持了与 Z-Image-De-Turbo 相同的训练友好特性,使其能够完美兼容 Z-Image 生态系统中已训练的大量 LoRA 模型。
AlekseyCalvin
这是一个针对 Z-Image Turbo DiT 模型的低秩适配器(LoRA),专门用于生成具有历史照片风格的图像。该模型基于 1900-1910 年代摄影师 Sergey Prokudin-Gorsky 的 150 张彩色照片训练而成,能够为现代图像生成注入独特的早期彩色摄影美学,如暖色调光晕和特定色彩质感。
jayhuang92
Qwen-Image 是基于 Qwen 系列开发的文本到图像生成模型,支持中英双语输入,在多个评估指标上表现优异,特别适用于追求逼真效果的图像生成场景。
AiAF
D-ART - LoRA - Z-Image-Turbo 是一个基于 Tongyi-MAI/Z-Image-Turbo 基础模型的图像生成模型。它是一个LoRA(Low-Rank Adaptation)适配器,旨在为生成图像注入特定的“D-ART”艺术风格。该风格以生成自信、充满活力的年轻女性角色插画为特点,尤其强调角色的曲线和动态姿态。用户通过使用特定的触发词即可激活该风格,生成具有统一美学特征的多样化图像。
NewBie-AI
NewBie image Exp0.1 是一个基于 Next-DiT 架构开发的高效图像生成基础模型,专门用于生成高质量的动漫风格图像。它融合了先进的文本编码器和视觉组件,支持自然语言和结构化标签输入,是多角色动漫图像生成的强大工具。
drbaph
Z-Image(造相)是一个拥有60亿参数的高效图像生成基础模型,专门解决图像生成领域的效率和质量问题。其蒸馏版本Z-Image-Turbo仅需8次函数评估就能达到或超越领先竞品,在企业级H800 GPU上可实现亚秒级推理延迟,并能在16G VRAM的消费级设备上运行。
city96
FLUX.2-dev是由black-forest-labs开发的图像生成和编辑模型,已转换为GGUF格式,专为图像生成任务优化,采用扩散模型架构,支持在ComfyUI框架中使用。
gguf-org
flux2-dev-gguf 是一个基于 FLUX.2-dev 的图像到图像转换模型,专门用于根据文本提示生成特定风格的图像。该模型支持在 ComfyUI 环境中运行,能够将文本描述转换为风格化的视觉内容。
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
ostris
这是一个基于LoRA技术的文本到图像转换模型,专门用于生成具有法国印象派画家贝尔特·莫里索艺术风格的图像。该模型在FLUX.2-dev基础模型上训练,能够将普通图像或文本描述转换为莫里索风格的画作。
Tongyi-MAI
Z-Image是一款功能强大且高效的图像生成模型,拥有60亿参数。它能有效解决图像生成领域在效率、质量和功能多样性方面的问题,为用户提供高质量的图像生成和编辑服务。
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
MCG-NJU
SteadyDancer是一个基于图像到视频范式的强大动画框架,专门用于生成高保真且时间连贯的人体动画。该框架通过稳健的首帧保留机制,有效解决了传统方法中的身份漂移问题,在视觉质量和可控性上表现出色,同时显著减少了训练资源需求。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
00quebec
这是一个专门为 Qwen-Image 设计的开源 LoRA 模型,专注于模拟现代 iPhone 摄影的真实感外观和感觉。模型基于5000多张真实 iPhone 风格照片训练,能够生成清晰、自然、适合社交媒体分享的图像。
black-forest-labs
FLUX.2 [dev] 是一个拥有320亿参数的校正流变压器模型,专门用于图像生成、编辑和组合任务。该模型在文本到图像生成、单参考编辑和多参考编辑方面处于领先水平,无需微调即可实现角色、对象和风格参考,支持个人、科学和商业用途。
jayn7
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
AWS MCP Servers是一套基于Model Context Protocol的专用服务器,提供多种AWS相关功能,包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等,旨在通过标准化协议增强AI应用与AWS服务的集成。
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景去除和自动缩放功能。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
一个基于FAL AI的Logo生成服务器,提供图像生成、背景移除和自动缩放功能。
基于Gemini 2 API的图像生成MCP服务
MCP Kling是首个且唯一完整的Kling AI MCP服务器,提供13种创意工具,支持视频生成、图像处理、唇形同步及虚拟试衣等功能,实现与Claude的无缝集成,适用于内容创作者和开发者。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
一个专注于探索和应用生成式AI(GenAI)的仓库,旨在通过实际案例和资源分享,帮助用户学习和实验GenAI在日常任务中的应用,包括写作、编程、图像生成等。
一个基于FastMCP框架的服务器,通过远程Comfy服务器根据提示生成图像。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
一个基于Python的轻量级MCP服务器,通过WebSocket与本地ComfyUI交互,实现AI代理程序化生成图像。
Solana交易MCP服务器是一个集成了AI功能的综合服务平台,专注于Solana代币的创建与部署。
基于Google Gemini 2.5 Flash API的MCP图像生成与编辑服务器,支持文本生成图像、图像编辑、迭代创作和风格迁移功能
一个为Replicate平台实现的MCP协议服务器,提供模型调用和管理工具
Azure OpenAI DALL-E 3集成服务器,通过MCP协议提供图像生成与下载功能
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。