Best 声音模型 AI Tools & Models - Premium 声音模型 News

AI News

苹果发布PCG语音生成技术：告别刻板校验，AI配音提速40%

苹果与特拉维夫大学合作推出“原则性粗粒度”技术，通过改变AI语音合成中的验证方式，在保持音质无损的同时，将生成速度提升约40%，突破了传统自回归模型逐个预测声音片段的效率瓶颈。

6.7k 57 minutes ago

开源版“Veo 3”来了：LTX-2正式发布，一次性生成20秒4K音画同步AI视频，本地显卡轻松跑

Lightricks开源LTX-2模型，支持生成20秒4K高清视频，实现画面、声音、口型、环境音和音乐的完美同步。模型权重、训练代码、基准测试和工具包已全部开源，托管于GitHub，社区反响热烈。

27.2k 14 hours ago

开源版“Veo 3”来了：LTX-2正式发布，一次性生成20秒4K音画同步AI视频，本地显卡轻松跑

阿里巴巴推出新款 Qwen 模型，三秒音频即可克隆声音

阿里巴巴云发布两款AI语音模型，Qwen3-TTS-VD-Flash支持用户通过文本指令定制声音，可精确描述声音的情感、节奏等特征，实现个性化语音生成。

17.9k 18 hours ago

豆包上线 Seedance 1.5 Pro，可直接生成有声视频

字节跳动推出“Seedance1.5Pro”音视频创作模型，现已上线豆包平台。该模型实现“文字-画面-声音”一体化生成，能深度理解文本意图，同步创作匹配的画面、音效与人物台词，有效避免音画脱节，并提升人物“开口说话”的自然度，让普通用户也能轻松制作有声视频。

21.4k 3 hours ago

AI Products

Lucent Chat

集成多AI模型，可通过对话生成图像、视频和声音，优化创意流程。

AI设计工具

7.8k

WeClone

使用微信聊天记录微调大语言模型，实现高质量声音克隆。

语音克隆

19.3k

OCTAVE

下一代语音语言模型，具备即时创建声音和个性的能力。

语音克隆

9.6k

Sketch2Sound

通过时间变化信号和声音模仿生成可控音频的模型

音频生成

10k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

​苹果发布PCG语音生成技术：告别刻板校验，AI配音提速40%

开源版“Veo 3”来了：LTX-2正式发布，一次性生成20秒4K音画同步AI视频，本地显卡轻松跑

阿里巴巴推出新款 Qwen 模型，三秒音频即可克隆声音

豆包上线 Seedance 1.5 Pro，可直接生成有声视频

AI Products

Lucent Chat

WeClone

OCTAVE

Sketch2Sound

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

Qianfan-Lightning

qwen3-max

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

qwen-image-edit

Pikachu

Arabic TTS Spark

Audio Flamingo 3

Fb Mms Tts Hin Ft Female

VoiceCore

Hear Pytorch

Llama OuteTTS 1.0 1B GPTQ 8bit

Wav2vec2 Vd Bird Sound Classification

Kartoffel_Orpheus 3B_german_natural V0.1

EpXTTS

Audiobox Aesthetics

Frugal_ai_space

Vits_icelandic_rosa_female_monospeaker

MMS TTS THAI MALEV1

XTTS V2

Ichigo Llama3.1 S Instruct V0.3 Phase 3

Cnn8rnn Audioset Sed

XTTS V2 Argentinian Spanish

CosyVoice 300M SFT

XTTS V2 Argentinian Spanish

苹果发布PCG语音生成技术：告别刻板校验，AI配音提速40%