漫威《复仇者联盟5》预告意外泄露,克里斯·埃文斯回归饰演美国队长,怀抱婴儿展现父亲形象。因偷拍画质模糊,网友不满,技术爱好者已用AI技术重置预告片。
Cloudflare推出开源工具VibeSDK,支持开发者用自然语言描述零成本生成、测试和部署全栈应用。该平台简化开发流程,让普通用户也能快速创建网站或工具,实现“直觉式编码”。
生数科技发布Vidu Q2版本“生图全家桶”,集成参考生图、文生图与图像编辑三大功能。新版本上线首日使用量突破50万次,显示用户需求旺盛。Vidu Q2增强了图像生成控制力,支持精准指定画面位置、动作与构图,并输出4K画质。新增图像编辑功能包括局部重绘和材质替换,在国际评测中表现优异。
AI设计平台Lovart推出Touch Edit触控功能,公测48小时吸引超10万创作者。该功能通过快捷键自动识别并锁定发丝、服饰等元素,用户只需用自然语言描述修改需求,即可在4K分辨率下即时完成融合,无需手动操作。同时支持多图上传,系统自动编辑混搭。
Nano Banana Pro是前沿AI图像生成引擎,4K画质、角色一致,推理生成强大。
免费4K AI图像生成与编辑器,支持精确文字渲染,适用于多种设计。
免费 Nano Banana Pro:在 10 秒内创建惊艳的 4K 视觉效果。
从文本或照片生成高质量AI图像和视频,支持4K输出与多模型
Bytedance
-
输入tokens/百万
输出tokens/百万
上下文长度
Alibaba
$1.8
$5.4
16
Baidu
32
Huawei
4
Tencent
$3.5
$7
Chatglm
01-ai
Owen777
UltraFlux是一款基于Flux的扩散变换器,专门用于原生4K文本到图像生成。它通过数据、架构和损失的协同设计,能够在各种不同纵横比下保持一致的图像质量。
opocai
这是一个基于LoRA和Diffusers技术的文本到图像生成模型,使用特定触发词'Put it here'来生成高质量图像。该模型基于FLUX.1-Kontext-dev基础模型构建,支持自适应光线调整和4K高清画质输出。
Mungert
GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型开发的视觉语言推理模型,专注于图像文本到文本转换,在复杂多模态任务中表现出色,支持64K长上下文和4K分辨率图像处理,提供中英双语支持。
THUDM
GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型,专注于提升复杂任务中的推理能力,支持64k上下文长度和4K图像分辨率。
zai-org
GLM-4.1V-9B-Base是智谱AI开发的开源视觉语言基础模型,拥有90亿参数,专注于多模态推理能力,支持中英双语,处理高达4K分辨率的图像和64K上下文长度。
LyliaEngine
一个基于LoRA的文本生成图像扩散模型,专注于生成高质量、高分辨率的动漫风格角色图像,融合哥特、和风与赛博元素。
Jonjew
基于XL 1.0+Flux1D+SD1.5基础模型训练的LoRA微调模型,专注于生成具有超高清4K电影级画质和极致细节的写实皮肤纹理风格图像。
zhibinlan
LLaVE-2B是基于Aquila-VL-2B模型的20亿参数多模态嵌入模型,具有4K tokens的上下文窗口,支持文本、图像、多图像和视频的嵌入表示。
Efficient-Large-Model
Sana是一个高效生成4K分辨率图像的文本生成图像框架,能够快速合成高分辨率、高质量且文本-图像对齐性强的图像,并可在笔记本电脑GPU上部署。
depth-anything
Prompt Depth Anything 是一种高分辨率且精确的度量深度估计方法,通过提示(prompting)释放深度基础模型的潜力,能够生成高达4K分辨率的精确度量深度。
ibm-granite
Granite-3.1-1B-A400M-Base 是 IBM 开发的一款语言模型,通过渐进式训练策略将上下文长度从4K扩展到128K,支持多语言和多种文本处理任务。
Granite-8B-Code-Base-128K是IBM Research开发的一款代码生成模型,通过渐进式训练策略将上下文长度从4K扩展到128K,支持116种编程语言,能够处理代码生成、解释、修复等多种软件工程任务。
microsoft
Phi-3-Medium-4K-Instruct是一个140亿参数的轻量级开源模型,专注于高质量推理能力,支持4K上下文长度,适用于英语环境下的商业和研究用途。
bongodongo
Phi-3 4k Instruct 是一个轻量级但功能强大的语言模型,经过4位量化处理以降低资源需求。
Phi-3 Mini 是一款轻量级、前沿的开源模型,专注于高质量、高推理密度的数据,支持4K上下文长度。
PixArt-alpha
PixArt-Σ是基于Transformer架构的潜在扩散模型,可直接通过文本提示生成高分辨率图像(最高4K)。
internlm
InternLM-XComposer2-4KHD是基于InternLM2的通用视觉语言大模型,具备4K分辨率图像理解能力。
efederici
基于intfloat/multilingual-e5-small的局部稀疏全局版本,支持约4k标记的多语言文本嵌入模型
meta-llama
Llama 2是Meta开源的130亿参数对话优化大语言模型,采用RLHF对齐人类偏好,支持4k上下文长度
设置4K YouTube视频的MCP复制FLUX服务
设置4K YouTube视频的教程