vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
谷歌AI笔记工具NotebookLM新增幻灯片生成器功能,可将笔记快速转换为演示幻灯片,帮助用户高效整理内容、生成草稿并优化视觉效果。该功能与信息图工具均基于Gemini3Pro图像生成模型运行,能处理详细提示信息。
伦敦高等法院裁定Stable Diffusion训练AI模型不构成版权侵权。Getty Images曾指控其抓取数百万版权照片威胁创意产业,但最终放弃主要诉求。案件焦点在于使用版权图像训练AI是否侵权,裁决对AI开发与版权平衡具重要意义。
微软发布首款自研AI图像生成器MAI-Image-1,已在必应图像创作和Copilot平台上线。该模型在生成食品、自然场景图像方面表现突出,具备优秀艺术照明与照片级细节处理能力。微软AI负责人透露即将登陆欧盟市场,强调其在真实感图像生成领域的技术优势。
Kling 3.0免费AI视频生成器,支持文本、图像转视频,有先进运动控制。
基于信用额度的AI视频生成器,可文本/图像转视频,免费试用后可充值
InsMelo免费AI歌曲生成器,可从歌词、文本或图像创作400+风格歌曲。
免费AI照片编辑器、增强器和生成器,秒速在线创作各类图像。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Vimax97
基于Florence-2-base-ft微调的GPT4-O风格字幕生成器,用于生成图像描述
buildborderless
这是一个基于视觉Transformer架构的图像分类模型,专门用于检测AI生成的图像,为法医应用提供支持。模型在包含270万张图像的大规模数据集上训练,涵盖15+个生成器和4600+个模型。
huanngzh
MV-Adapter是一款创意生产力工具,可无缝将文本到图像模型转换为多视角生成器。
KBlueLeaf
DanTagGen是基于LLaMA架构的Danbooru标签生成器,用于自动生成图像标签。
unography
基于BLIP微调的长文本图像描述生成器,适用于文生图提示和图像数据集标注
Kvikontent
Midjourney是全球最逼真且强大的人工智能图像生成器,这是V7版本的首次发布。
DanTagGen(Danbooru标签生成器)是一个基于NanoLLaMA架构的文本生成模型,专门用于生成Danbooru风格的图像标签。
eimiss
基于扩散模型的动漫风格图像生成器,擅长魔法场景和特效表现,提供原版和增强版两个版本
MCP图像生成器是一个基于Together AI或Replicate的图像生成服务,支持通过SSE端点或本地运行,提供根据文本提示生成图像的功能。
MCP STL 3D浮雕生成器是一个将2D图像转换为3D浮雕模型的工具,支持控制模型尺寸、添加基座和深度反转等功能,适合3D打印和渲染。