苹果与香港大学合作推出LGTM渲染框架,通过解耦3D场景的几何结构与表面纹理,简化几何复杂度并叠加纹理层,突破4K超高清渲染瓶颈,提升视觉效果。
苹果与港大联合发布LGTM技术框架,通过解耦几何与分辨率,优化3D高斯喷溅在高分辨率下的计算瓶颈,为Vision Pro等设备提供更高效的图形渲染方案。
谷歌发布新一代图像生成模型Nano Banana2,基于Gemini3.1Flash Image架构,显著提升理解能力和响应速度。新模型重点优化了中文字符乱码、语义混乱和画面伪影等常见问题,能生成清晰准确的中文文本,改善用户体验。
谷歌扩大AI视频工具Flow的访问范围,向商务、企业及教育版Workspace用户开放。该工具搭载Veo3.1模型,可根据文本或图像生成8秒视频片段,支持拼接成更长场景。
GPT Image 2:免费AI图像生成器与在线照片编辑器,4K文字转图像。
Kling 5.0 AI可从文本、图像生成4K电影级视频,具备角色一致性等特性
Veo 4 AI视频生成器,创作高质量4K电影感视频,功能先进。
在线AI图像增强器,无需注册下载,可将图像提升至4K并恢复细节。
Bytedance
-
输入tokens/百万
输出tokens/百万
上下文长度
Alibaba
$1.8
$5.4
16
Baidu
32
Huawei
4
Tencent
$3.5
$7
Chatglm
01-ai
Owen777
UltraFlux是一款基于Flux的扩散变换器,专门用于原生4K文本到图像生成。它通过数据、架构和损失的协同设计,能够在各种不同纵横比下保持一致的图像质量。
opocai
这是一个基于LoRA和Diffusers技术的文本到图像生成模型,使用特定触发词'Put it here'来生成高质量图像。该模型基于FLUX.1-Kontext-dev基础模型构建,支持自适应光线调整和4K高清画质输出。
Mungert
GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型开发的视觉语言推理模型,专注于图像文本到文本转换,在复杂多模态任务中表现出色,支持64K长上下文和4K分辨率图像处理,提供中英双语支持。
THUDM
GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型,专注于提升复杂任务中的推理能力,支持64k上下文长度和4K图像分辨率。
zai-org
GLM-4.1V-9B-Base是智谱AI开发的开源视觉语言基础模型,拥有90亿参数,专注于多模态推理能力,支持中英双语,处理高达4K分辨率的图像和64K上下文长度。
LyliaEngine
一个基于LoRA的文本生成图像扩散模型,专注于生成高质量、高分辨率的动漫风格角色图像,融合哥特、和风与赛博元素。
Jonjew
基于XL 1.0+Flux1D+SD1.5基础模型训练的LoRA微调模型,专注于生成具有超高清4K电影级画质和极致细节的写实皮肤纹理风格图像。
zhibinlan
LLaVE-2B是基于Aquila-VL-2B模型的20亿参数多模态嵌入模型,具有4K tokens的上下文窗口,支持文本、图像、多图像和视频的嵌入表示。
Efficient-Large-Model
Sana是一个高效生成4K分辨率图像的文本生成图像框架,能够快速合成高分辨率、高质量且文本-图像对齐性强的图像,并可在笔记本电脑GPU上部署。
depth-anything
Prompt Depth Anything 是一种高分辨率且精确的度量深度估计方法,通过提示(prompting)释放深度基础模型的潜力,能够生成高达4K分辨率的精确度量深度。
ibm-granite
Granite-3.1-1B-A400M-Base 是 IBM 开发的一款语言模型,通过渐进式训练策略将上下文长度从4K扩展到128K,支持多语言和多种文本处理任务。
Granite-8B-Code-Base-128K是IBM Research开发的一款代码生成模型,通过渐进式训练策略将上下文长度从4K扩展到128K,支持116种编程语言,能够处理代码生成、解释、修复等多种软件工程任务。
microsoft
Phi-3-Medium-4K-Instruct是一个140亿参数的轻量级开源模型,专注于高质量推理能力,支持4K上下文长度,适用于英语环境下的商业和研究用途。
bongodongo
Phi-3 4k Instruct 是一个轻量级但功能强大的语言模型,经过4位量化处理以降低资源需求。
Phi-3 Mini 是一款轻量级、前沿的开源模型,专注于高质量、高推理密度的数据,支持4K上下文长度。
PixArt-alpha
PixArt-Σ是基于Transformer架构的潜在扩散模型,可直接通过文本提示生成高分辨率图像(最高4K)。
internlm
InternLM-XComposer2-4KHD是基于InternLM2的通用视觉语言大模型,具备4K分辨率图像理解能力。
efederici
基于intfloat/multilingual-e5-small的局部稀疏全局版本,支持约4k标记的多语言文本嵌入模型
meta-llama
Llama 2是Meta开源的130亿参数对话优化大语言模型,采用RLHF对齐人类偏好,支持4k上下文长度
设置4K YouTube视频的MCP复制FLUX服务
设置4K YouTube视频的教程
Banana Image MCP是一个基于MCP协议的AI图像生成服务器,让Claude等助手能够使用Google Gemini模型生成高质量图像,支持4K分辨率和智能模型选择。
一个基于Google Gemini模型的AI图像生成MCP服务器,支持智能模型选择(Flash快速生成和Pro高质量4K生成)、多种宽高比控制、文件管理和模板功能,提供生产级图像生成能力。