阿里通义千问团队开源Qwen3-TTS系列语音生成模型,采用端到端架构,支持秒级音色克隆、自然语言音色设计和实时流式输出。其核心创新Dual-Track双轨混合流式生成机制结合离散多码本语言模型,实现极致低延迟,大幅降低实时应用门槛。
阿里巴巴通义大模型开源“百聆”系列语音模型重大升级。新模型仅需3秒录音即可无缝切换9种语言和18种方言,支持普通话、粤语、日语、英语等,并能模拟开心、愤怒等多种情感。其中Fun-CosyVoice3模型改进显著,首包延迟降低50%,中英混说准确率大幅提升。
阿里巴巴通义实验室开源Z-Image-Turbo-Fun-Controlnet-Union模型,扩展Z-Image系列图像生成生态。该模型强化了精确控制与创意生成能力,已在Hugging Face上线,采用Apache2.0许可,支持商用。
阿里云通义系列AI大模型在“双11”首次大规模应用于电商领域,全面优化淘宝天猫的消费者体验、经营管理和流量分发,其中通义Qwen-MT等翻译模型在跨语种交易中发挥核心作用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen
Qwen3-VL-30B-A3B-Thinking是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL是通义系列最强大的视觉语言模型,采用混合专家模型架构(MoE),提供GGUF格式权重,支持在CPU、GPU等设备上进行高效推理。模型在文本理解、视觉感知、空间理解、视频处理等方面全面升级。
Qwen3-VL-30B-A3B-Instruct是通义系列中最强大的视觉语言模型,采用混合专家模型架构,具备出色的文本理解与生成能力、深入的视觉感知与推理能力,支持256K长上下文和视频理解,可在多种设备上进行推理。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-8B-Instruct是通义系列中最强大的视觉语言模型,具备卓越的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
Qwen3-VL-2B-Instruct-GGUF是通义千问系列的多模态视觉语言模型的GGUF量化版本,具备20亿参数,支持图像理解和文本生成的无缝融合,可在CPU、GPU等设备上高效运行。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
bullerwins
Qwen3-VL是通义系列迄今为止最强大的视觉语言模型,实现了全面升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是通义系列最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。