谷歌推出原生多模态嵌入模型Gemini Embedding2,支持文本、图像、视频、音频和文档,统一映射到向量空间,实现跨媒体深度理解。与生成式模型不同,它专注于“理解”,将数据转化为向量,帮助系统识别语义关系。
谷歌DeepMind开放Project Genie AI模型,用户可通过文本或图片生成可交互虚拟世界,实现游戏式探索。该工具融合Genie3、Nano Banana Pro图像生成和Gemini多模态模型,突破传统内容生成边界。
谷歌将AI订阅服务Google AI Plus扩展至35个国家和地区,旨在以更具竞争力的价格推广其尖端生成式AI技术。该服务提供全方位的智能增强方案,包括Gemini 3 Pro模型和移动端优化的Nana Banana Pro图像生成工具。
谷歌正秘密测试其Gemini Flash系列新成员Nano Banana2Flash,该模型由科技博主MarsForTech曝光,是谷歌目前速度最快的生成式AI图像模型,旨在提供更实惠、高效的视觉生成体验。不过,它在推理深度、细节精确度及处理复杂创意任务方面存在性能上限。
一站式AI图像与视频生成平台,20+模型,免提示词,按使用付费。
FLUX Pro Finetuning API 是一款用于定制化生成式图像模型的高级工具。
一键式创意图像生成模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
TrianC0de
TripoSR是由Stability AI与Tripo AI合作开发的快速前馈式3D生成模型,能够从单张图像快速生成3D模型。
Emanon14
基于RouWei构建的v-prediction预测模型,专注于文本生成图像任务,采用Booru标签式提示词风格。
TencentARC
NVComposer是一种无需显式外部对齐的生成式多视角新视角合成模型,通过图像-姿态双流扩散和几何感知特征对齐实现高质量3D视图生成。
seckmaster
GIT是一个基于Transformer的生成式图像转文本模型,能够将视觉内容转换为文本描述。
briaai
基于商业授权数据集训练的生成式填充模型,提供法律责任保障和高质量图像填充能力
unum-cloud
UForm-Gen2-dpo 是一个小型生成式视觉语言模型,通过直接偏好优化(DPO)在 VLFeedback 和 LLaVA-Human-Preference-10K 偏好数据集上针对图像描述生成和视觉问答任务进行对齐训练。
stabilityai
TripoSR是由Stability AI与Tripo AI联合开发的快速前馈式3D生成模型,专注于从单张图像快速重建3D模型。
UForm-Gen是一款小型生成式视觉语言模型,主要用于图像描述生成和视觉问答。
thuanz123
SwiftBrush 是基于变分分数蒸馏的一步式文本生成图像扩散模型,专注于快速生成高质量图像。
SDXL-Turbo是一款快速的生成式文本到图像模型,能够通过单次网络评估从文本提示生成逼真的图像。
Sof22
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,通过引导式标注策略有效利用网络数据
wangjin2000
GIT是一个基于Transformer的生成式图像到文本模型,能够将视觉内容转换为描述性文本。
microsoft
GIT是一个基于Transformer的生成式图像到文本模型,能够根据图像生成描述性文本。
GIT是一个基于Transformer的生成式图像到文本转换模型,基础版本在VATEX数据集上进行了微调,适用于图像和视频字幕生成等任务。
Aybeeceedee
基于Dreambooth技术微调的稳定扩散模型,专门用于生成拆解式排列(knolling)风格的图像作品。
asi
基于GPT-fr开发的法语增量式预训练语言模型,具备文本生成图像能力