索尼PS6迎來技術變革,爆料稱其將融合視頻幀插補、獨家超分辨率算法與AI光線追蹤,藉助AI幀生成等黑科技,目標在4K分辨率下實現120幀超高流暢度體驗。
即夢AI網頁版6月23日上線原生4K功能,核心突破在於直接在生成階段以4K渲染,而非後期低分辨率放大。這項技術路徑創新從源頭保留了高密度細節,使人物髮絲、服裝紋理、建築線條等精細元素得到更完整清晰的呈現,標誌其視頻生成品質的關鍵提升。
蘋果與香港大學合作推出LGTM渲染框架,通過解耦3D場景的幾何結構與表面紋理,簡化幾何複雜度併疊加紋理層,突破4K超高清渲染瓶頸,提升視覺效果。
蘋果與港大聯合發佈LGTM技術框架,通過解耦幾何與分辨率,優化3D高斯噴濺在高分辨率下的計算瓶頸,爲Vision Pro等設備提供更高效的圖形渲染方案。
一款支持多模態輸入、可單次生成30秒原生4K畫質及同步音頻的AI視頻生成器。
ByteDance推出的新一代多模態4K AI視頻與圖像生成與編輯平臺。
Wan 2.7 AI視頻製作器,4K分辨率,30秒片段,原生音頻與唇形同步。
Seedance 2.5 是一款支持多模態輸入、可生成帶原生同步音效的 4K 超清 AI 視頻生成器。
Bytedance
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Alibaba
$1.8
$5.4
16
Baidu
32
Huawei
4
Tencent
$3.5
$7
Chatglm
01-ai
Owen777
UltraFlux是一款基於Flux的擴散變換器,專門用於原生4K文本到圖像生成。它通過數據、架構和損失的協同設計,能夠在各種不同縱橫比下保持一致的圖像質量。
opocai
這是一個基於LoRA和Diffusers技術的文本到圖像生成模型,使用特定觸發詞'Put it here'來生成高質量圖像。該模型基於FLUX.1-Kontext-dev基礎模型構建,支持自適應光線調整和4K高清畫質輸出。
Mungert
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型開發的視覺語言推理模型,專注於圖像文本到文本轉換,在複雜多模態任務中表現出色,支持64K長上下文和4K分辨率圖像處理,提供中英雙語支持。
THUDM
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型,專注於提升複雜任務中的推理能力,支持64k上下文長度和4K圖像分辨率。
zai-org
GLM-4.1V-9B-Base是智譜AI開發的開源視覺語言基礎模型,擁有90億參數,專注於多模態推理能力,支持中英雙語,處理高達4K分辨率的圖像和64K上下文長度。
LyliaEngine
一個基於LoRA的文本生成圖像擴散模型,專注於生成高質量、高分辨率的動漫風格角色圖像,融合哥特、和風與賽博元素。
Jonjew
基於XL 1.0+Flux1D+SD1.5基礎模型訓練的LoRA微調模型,專注於生成具有超高清4K電影級畫質和極致細節的寫實皮膚紋理風格圖像。
zhibinlan
LLaVE-2B是基於Aquila-VL-2B模型的20億參數多模態嵌入模型,具有4K tokens的上下文窗口,支持文本、圖像、多圖像和視頻的嵌入表示。
Efficient-Large-Model
Sana是一個高效生成4K分辨率圖像的文本生成圖像框架,能夠快速合成高分辨率、高質量且文本-圖像對齊性強的圖像,並可在筆記本電腦GPU上部署。
depth-anything
Prompt Depth Anything 是一種高分辨率且精確的度量深度估計方法,通過提示(prompting)釋放深度基礎模型的潛力,能夠生成高達4K分辨率的精確度量深度。
ibm-granite
Granite-3.1-1B-A400M-Base 是 IBM 開發的一款語言模型,通過漸進式訓練策略將上下文長度從4K擴展到128K,支持多語言和多種文本處理任務。
Granite-8B-Code-Base-128K是IBM Research開發的一款代碼生成模型,通過漸進式訓練策略將上下文長度從4K擴展到128K,支持116種編程語言,能夠處理代碼生成、解釋、修復等多種軟件工程任務。
microsoft
Phi-3-Medium-4K-Instruct是一個140億參數的輕量級開源模型,專注於高質量推理能力,支持4K上下文長度,適用於英語環境下的商業和研究用途。
bongodongo
Phi-3 4k Instruct 是一個輕量級但功能強大的語言模型,經過4位量化處理以降低資源需求。
Phi-3 Mini 是一款輕量級、前沿的開源模型,專注於高質量、高推理密度的數據,支持4K上下文長度。
PixArt-alpha
PixArt-Σ是基於Transformer架構的潛在擴散模型,可直接通過文本提示生成高分辨率圖像(最高4K)。
internlm
InternLM-XComposer2-4KHD是基於InternLM2的通用視覺語言大模型,具備4K分辨率圖像理解能力。
efederici
基於intfloat/multilingual-e5-small的局部稀疏全局版本,支持約4k標記的多語言文本嵌入模型
meta-llama
Llama 2是Meta開源的130億參數對話優化大語言模型,採用RLHF對齊人類偏好,支持4k上下文長度
設置4K YouTube視頻的MCP複製FLUX服務
設置4K YouTube視頻的教程
一個基於Google Gemini模型的AI圖像生成MCP服務器,支持智能模型選擇(Flash快速生成和Pro高質量4K生成)、多種寬高比控制、文件管理和模板功能,提供生產級圖像生成能力。
Banana Image MCP是一個基於MCP協議的AI圖像生成服務器,讓Claude等助手能夠使用Google Gemini模型生成高質量圖像,支持4K分辨率和智能模型選擇。