清华大学联合多家机构开源MOSS-TTSD语音对话生成模型,基于Qwen3-1.7B-base训练,支持中英双语超长语音生成。创新采用XY-Tokenizer技术,实现1kbps低比特率下保留语音质量,具备零样本音色克隆和声音事件控制能力。在中文指标上优于MoonCast等开源模型,支持最长960秒语音生成,避免拼接不自然。已开放模型权重、API及在线Demo,适用于播客、有声书等场景,未来将优化多说话人切换和情感表达。
malaysia-ai
基于Qwen/Qwen3-1.7B-Base进行继续预训练的多语言语音转换和文本转语音模型,支持多语言、多说话人的语音生成和转换功能。
unsloth
Qwen3-1.7B-Base是通义千问系列最新一代大语言模型,提供高质量的预训练语言模型能力。
Qwen3-1.7B-Base是通义系列最新一代大语言模型,提供了一系列密集模型和专家混合(MoE)模型,在训练数据、模型架构和优化技术等方面进行了大量改进。
Qwen
Qwen3-1.7B是通义千问系列最新一代17亿参数基础语言模型,采用三阶段预训练体系,支持32k上下文长度。