完美世界宣布新增“AI应用(AIGC)”概念,其游戏研发已深度整合AI绘图技术,显著提升美术设计效率与创意产出。该技术广泛应用于角色原画、场景构建、道具设计等环节,能基于文本或草图自动生成高质量视觉素材,加速概念设计迭代,并为美术团队提供创作灵感与参考。
苹果最新发布的多模态AI模型“Manzano”,成功将视觉识别与文本生成图像功能结合,实现“双修”能力。该模型不仅能精准理解图像内容,还能根据文本生成高质量图片,标志着AI技术的重要突破,有望满足行业对多功能模型的需求。
谷歌推出A2UI开放标准,让AI代理能即时生成图形界面元素,如表单和按钮,无缝融入应用,实现从纯文本到动态界面的交互变革。该标准采用Apache 2.0许可证,旨在规范AI创建视觉响应的方式,弥合生成式AI与图形用户界面之间的鸿沟。
Runway发布新一代视频生成模型Gen-4.5,显著提升视觉准确性与创意控制能力。用户通过简短文本提示即可生成高清动态视频,支持复杂场景与生动角色。该模型基于Nvidia GPU进行训练与推理,优化生成精度与风格表现。
Nano Banana AI是先进图像生成与编辑器,用文本提示瞬间创惊艳视觉。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
lmstudio-community
Qwen3-VL-2B-Thinking是由Qwen推出的视觉语言模型,基于2B参数规模,使用MLX进行8位量化,专门针对Apple Silicon芯片进行了优化。该模型支持图像和文本的多模态理解与生成任务。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Instruct是通义系列中最强大的视觉语言模型,采用混合专家模型架构,具备出色的文本理解与生成能力、深入的视觉感知与推理能力,支持256K长上下文和视频理解,可在多种设备上进行推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
bullerwins
Qwen3-VL是通义系列迄今为止最强大的视觉语言模型,实现了全面升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。