谷歌於12月1日推出Gemini 3大模型,接入搜索AI模式,覆蓋近120個國家地區,向AI Pro與Ultra訂閱用戶開放。同時上線Nano Banana Pro圖像模型,支持2K/4K分辨率、精準文本渲染及專業級攝影控制,定價1080p爲0.139美元、4K爲0.24美元。Gemini 3採用原生多模態架構,統一處理文本、圖像、音頻和視頻。
德國AI公司Black Forest Labs發佈全新圖像生成編輯系統FLUX.2,包含四個不同規模模型,支持高效創意工作流程。技術提升包括多參考條件、更高保真度輸出和改進文本渲染,推動圖像生成技術進步。
騰訊發佈業界首個開源商用級原生多模態生圖模型混元圖像3.0,擁有80億參數,效果領先且參數量最大,媲美頂尖閉源模型。用戶可通過官網體驗,模型權重及加速版已在GitHub、Hugging Face等平臺開源,供開發者免費使用。其亮點在於原生多模態技術架構。
谷歌發佈Imagen4文本轉圖像模型,通過Gemini API和AI Studio開放。新版本顯著提升文本渲染性能,包含三個版本:標準版提升圖像生成質量和文本準確性;Imagen4Fast版針對快速生成需求優化。
前沿AI圖像生成器,結合雙技術,有卓越文本渲染能力。
免費文本生成AI藝術圖像,支持4K,無水印,快速出圖,可升級Pro。
Nanobanana Pro:AI圖像生成器,文本渲染完美,可生成數學解和信息圖。
Banana Pro是下一代AI圖像模型,支持文本轉圖像、高分辨率渲染和精確編輯
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
$2
PeterKocsis
IntrinsiX是一個專注於利用圖像先驗進行高質量PBR(基於物理的渲染)生成的項目,能夠從文本輸入生成可渲染的PBR地圖,為圖像生成和大規模PBR紋理生成提供創新解決方案。
Qwen
Qwen-Image是通義系列的多模態圖像生成基礎模型,在複雜文本渲染和精確圖像編輯方面表現卓越,特別擅長中文文本渲染,支持多種圖像生成和編輯任務。
PosterCraft
PosterCraft是一個用於高質量美學海報生成的統一框架,在精確文本渲染、抽象藝術無縫融合、醒目佈局和風格協調方面表現出色。
X-ART
LeX-Lumina是一個高質量的文本生成圖像模型,專注於提升文本渲染保真度和美學效果。
Yntec
復仇者是基於LiberteRedmond與Vintedois混合模型並融合3D渲染LoRA的文本生成圖像模型,優化了構圖能力與簡潔提示詞效果。
goofyai
基於FLUX框架開發的3D渲染文本生成圖像模型,支持通過LoRA微調生成高質量3D風格圖像
gvecchio
StableMaterials 是一款基於擴散模型的物理渲染(PBR)材質生成工具,能夠根據文本或圖像提示生成高分辨率、可平鋪的材質貼圖。
JingyeChen22
TextDiffuser-2 是一個文本生成圖像的模型,專注於文本渲染任務,通過釋放語言模型的潛力來生成包含文本的圖像。
基於Stable Diffusion XL的3D風格圖像生成模型,支持通過文本提示生成高質量的3D渲染風格圖像。
digiplay
一個高質量的穩定擴散模型,能夠根據文本描述生成逼真的圖像,尤其擅長人物肖像和複雜細節的渲染。
openai
Shap-E是一種基於擴散過程的文本生成3D圖像模型,能夠根據文本提示生成可渲染為紋理網格和神經輻射場的3D資產。
yuanzheng
這是一個基於Dreambooth技術微調的文本生成圖像模型,專注於商業場景的圖像生成,特別是日本料理和清酒的高質量渲染。
這是一個用於生成PDF文檔的MCP服務器,支持從文本、佈局創建PDF,以及將PDF頁面渲染為圖像,特別適用於簡歷生成和靈活排版。
D2 MCP Server是一個提供D2圖表生成和操作功能的模型上下文協議服務器,支持通過文本創建、渲染、導出和保存D2圖表,並具備增量編輯能力。
一個用於獲取和轉換網頁內容的MCP服務器,支持多種格式提取和渲染,包括原始文本、HTML、Markdown以及媒體文件內容分析。