漫威《復仇者聯盟5》預告意外泄露,克里斯·埃文斯迴歸飾演美國隊長,懷抱嬰兒展現父親形象。因偷拍畫質模糊,網友不滿,技術愛好者已用AI技術重置預告片。
Cloudflare推出開源工具VibeSDK,支持開發者用自然語言描述零成本生成、測試和部署全棧應用。該平臺簡化開發流程,讓普通用戶也能快速創建網站或工具,實現“直覺式編碼”。
生數科技發佈Vidu Q2版本“生圖全家桶”,集成參考生圖、文生圖與圖像編輯三大功能。新版本上線首日使用量突破50萬次,顯示用戶需求旺盛。Vidu Q2增強了圖像生成控制力,支持精準指定畫面位置、動作與構圖,並輸出4K畫質。新增圖像編輯功能包括局部重繪和材質替換,在國際評測中表現優異。
AI設計平臺Lovart推出Touch Edit觸控功能,公測48小時吸引超10萬創作者。該功能通過快捷鍵自動識別並鎖定髮絲、服飾等元素,用戶只需用自然語言描述修改需求,即可在4K分辨率下即時完成融合,無需手動操作。同時支持多圖上傳,系統自動編輯混搭。
Nano Banana Pro是前沿AI圖像生成引擎,4K畫質、角色一致,推理生成強大。
免費4K AI圖像生成與編輯器,支持精確文字渲染,適用於多種設計。
免費 Nano Banana Pro:在 10 秒內創建驚豔的 4K 視覺效果。
從文本或照片生成高質量AI圖像和視頻,支持4K輸出與多模型
Bytedance
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Alibaba
$1.8
$5.4
16
Baidu
32
Huawei
4
Tencent
$3.5
$7
Chatglm
01-ai
Owen777
UltraFlux是一款基於Flux的擴散變換器,專門用於原生4K文本到圖像生成。它通過數據、架構和損失的協同設計,能夠在各種不同縱橫比下保持一致的圖像質量。
opocai
這是一個基於LoRA和Diffusers技術的文本到圖像生成模型,使用特定觸發詞'Put it here'來生成高質量圖像。該模型基於FLUX.1-Kontext-dev基礎模型構建,支持自適應光線調整和4K高清畫質輸出。
Mungert
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型開發的視覺語言推理模型,專注於圖像文本到文本轉換,在複雜多模態任務中表現出色,支持64K長上下文和4K分辨率圖像處理,提供中英雙語支持。
THUDM
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型,專注於提升複雜任務中的推理能力,支持64k上下文長度和4K圖像分辨率。
zai-org
GLM-4.1V-9B-Base是智譜AI開發的開源視覺語言基礎模型,擁有90億參數,專注於多模態推理能力,支持中英雙語,處理高達4K分辨率的圖像和64K上下文長度。
LyliaEngine
一個基於LoRA的文本生成圖像擴散模型,專注於生成高質量、高分辨率的動漫風格角色圖像,融合哥特、和風與賽博元素。
Jonjew
基於XL 1.0+Flux1D+SD1.5基礎模型訓練的LoRA微調模型,專注於生成具有超高清4K電影級畫質和極致細節的寫實皮膚紋理風格圖像。
zhibinlan
LLaVE-2B是基於Aquila-VL-2B模型的20億參數多模態嵌入模型,具有4K tokens的上下文窗口,支持文本、圖像、多圖像和視頻的嵌入表示。
Efficient-Large-Model
Sana是一個高效生成4K分辨率圖像的文本生成圖像框架,能夠快速合成高分辨率、高質量且文本-圖像對齊性強的圖像,並可在筆記本電腦GPU上部署。
depth-anything
Prompt Depth Anything 是一種高分辨率且精確的度量深度估計方法,通過提示(prompting)釋放深度基礎模型的潛力,能夠生成高達4K分辨率的精確度量深度。
ibm-granite
Granite-3.1-1B-A400M-Base 是 IBM 開發的一款語言模型,通過漸進式訓練策略將上下文長度從4K擴展到128K,支持多語言和多種文本處理任務。
Granite-8B-Code-Base-128K是IBM Research開發的一款代碼生成模型,通過漸進式訓練策略將上下文長度從4K擴展到128K,支持116種編程語言,能夠處理代碼生成、解釋、修復等多種軟件工程任務。
microsoft
Phi-3-Medium-4K-Instruct是一個140億參數的輕量級開源模型,專注於高質量推理能力,支持4K上下文長度,適用於英語環境下的商業和研究用途。
bongodongo
Phi-3 4k Instruct 是一個輕量級但功能強大的語言模型,經過4位量化處理以降低資源需求。
Phi-3 Mini 是一款輕量級、前沿的開源模型,專注於高質量、高推理密度的數據,支持4K上下文長度。
PixArt-alpha
PixArt-Σ是基於Transformer架構的潛在擴散模型,可直接通過文本提示生成高分辨率圖像(最高4K)。
internlm
InternLM-XComposer2-4KHD是基於InternLM2的通用視覺語言大模型,具備4K分辨率圖像理解能力。
efederici
基於intfloat/multilingual-e5-small的局部稀疏全局版本,支持約4k標記的多語言文本嵌入模型
meta-llama
Llama 2是Meta開源的130億參數對話優化大語言模型,採用RLHF對齊人類偏好,支持4k上下文長度
設置4K YouTube視頻的MCP複製FLUX服務
設置4K YouTube視頻的教程