蘋果與香港大學合作推出LGTM渲染框架,通過解耦3D場景的幾何結構與表面紋理,簡化幾何複雜度併疊加紋理層,突破4K超高清渲染瓶頸,提升視覺效果。
蘋果與港大聯合發佈LGTM技術框架,通過解耦幾何與分辨率,優化3D高斯噴濺在高分辨率下的計算瓶頸,爲Vision Pro等設備提供更高效的圖形渲染方案。
谷歌發佈新一代圖像生成模型Nano Banana2,基於Gemini3.1Flash Image架構,顯著提升理解能力和響應速度。新模型重點優化了中文字符亂碼、語義混亂和畫面僞影等常見問題,能生成清晰準確的中文文本,改善用戶體驗。
谷歌擴大AI視頻工具Flow的訪問範圍,向商務、企業及教育版Workspace用戶開放。該工具搭載Veo3.1模型,可根據文本或圖像生成8秒視頻片段,支持拼接成更長場景。
谷歌驅動的統一全模型,支持4K視頻生成、編輯與混音
veo 4 是一款支持 4K 分辨率、原生音頻同步及角色一致性的生成式 AI 視頻製作工具。
GPT Image 2.0可秒級生成4K圖像,支持文本轉圖像及參考編輯等
使用Flux、Imagen和Seedream AI從文本或照片生成4K圖像,免費無需註冊。
Bytedance
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
Alibaba
$1.8
$5.4
16
Baidu
32
Huawei
4
Tencent
$3.5
$7
Chatglm
01-ai
Owen777
UltraFlux是一款基於Flux的擴散變換器,專門用於原生4K文本到圖像生成。它通過數據、架構和損失的協同設計,能夠在各種不同縱橫比下保持一致的圖像質量。
opocai
這是一個基於LoRA和Diffusers技術的文本到圖像生成模型,使用特定觸發詞'Put it here'來生成高質量圖像。該模型基於FLUX.1-Kontext-dev基礎模型構建,支持自適應光線調整和4K高清畫質輸出。
Mungert
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型開發的視覺語言推理模型,專注於圖像文本到文本轉換,在複雜多模態任務中表現出色,支持64K長上下文和4K分辨率圖像處理,提供中英雙語支持。
THUDM
GLM-4.1V-9B-Thinking是基於GLM-4-9B-0414基礎模型的開源視覺語言模型,專注於提升複雜任務中的推理能力,支持64k上下文長度和4K圖像分辨率。
zai-org
GLM-4.1V-9B-Base是智譜AI開發的開源視覺語言基礎模型,擁有90億參數,專注於多模態推理能力,支持中英雙語,處理高達4K分辨率的圖像和64K上下文長度。
LyliaEngine
一個基於LoRA的文本生成圖像擴散模型,專注於生成高質量、高分辨率的動漫風格角色圖像,融合哥特、和風與賽博元素。
Jonjew
基於XL 1.0+Flux1D+SD1.5基礎模型訓練的LoRA微調模型,專注於生成具有超高清4K電影級畫質和極致細節的寫實皮膚紋理風格圖像。
zhibinlan
LLaVE-2B是基於Aquila-VL-2B模型的20億參數多模態嵌入模型,具有4K tokens的上下文窗口,支持文本、圖像、多圖像和視頻的嵌入表示。
Efficient-Large-Model
Sana是一個高效生成4K分辨率圖像的文本生成圖像框架,能夠快速合成高分辨率、高質量且文本-圖像對齊性強的圖像,並可在筆記本電腦GPU上部署。
depth-anything
Prompt Depth Anything 是一種高分辨率且精確的度量深度估計方法,通過提示(prompting)釋放深度基礎模型的潛力,能夠生成高達4K分辨率的精確度量深度。
ibm-granite
Granite-3.1-1B-A400M-Base 是 IBM 開發的一款語言模型,通過漸進式訓練策略將上下文長度從4K擴展到128K,支持多語言和多種文本處理任務。
Granite-8B-Code-Base-128K是IBM Research開發的一款代碼生成模型,通過漸進式訓練策略將上下文長度從4K擴展到128K,支持116種編程語言,能夠處理代碼生成、解釋、修復等多種軟件工程任務。
microsoft
Phi-3-Medium-4K-Instruct是一個140億參數的輕量級開源模型,專注於高質量推理能力,支持4K上下文長度,適用於英語環境下的商業和研究用途。
bongodongo
Phi-3 4k Instruct 是一個輕量級但功能強大的語言模型,經過4位量化處理以降低資源需求。
Phi-3 Mini 是一款輕量級、前沿的開源模型,專注於高質量、高推理密度的數據,支持4K上下文長度。
PixArt-alpha
PixArt-Σ是基於Transformer架構的潛在擴散模型,可直接通過文本提示生成高分辨率圖像(最高4K)。
internlm
InternLM-XComposer2-4KHD是基於InternLM2的通用視覺語言大模型,具備4K分辨率圖像理解能力。
efederici
基於intfloat/multilingual-e5-small的局部稀疏全局版本,支持約4k標記的多語言文本嵌入模型
meta-llama
Llama 2是Meta開源的130億參數對話優化大語言模型,採用RLHF對齊人類偏好,支持4k上下文長度
設置4K YouTube視頻的MCP複製FLUX服務
設置4K YouTube視頻的教程
一個基於Google Gemini模型的AI圖像生成MCP服務器,支持智能模型選擇(Flash快速生成和Pro高質量4K生成)、多種寬高比控制、文件管理和模板功能,提供生產級圖像生成能力。
Banana Image MCP是一個基於MCP協議的AI圖像生成服務器,讓Claude等助手能夠使用Google Gemini模型生成高質量圖像,支持4K分辨率和智能模型選擇。