Best 音频技术 AI Tools & Models - Premium 音频技术 News

AI News

火山引擎Seedance 2.0全面开放API服务

火山引擎发布Seedance 2.0系列API服务，提供先进的视频生成技术，支持文本、图片、音频和视频四种输入方式，具备多模态内容创建与编辑能力，适用于复杂互动和动态场景。该服务旨在帮助企业及个人用户优化工作流程，探索创新应用，同时确保AI视频创作的合规性与安全性。

17.4k 6 hours ago

微软开启“AI 自主化”总攻：拟 2027 年问世最强自研模型

微软正加速自研尖端AI模型，目标在2027年前实现文本、图像和音频处理能力的行业领先，以挑战OpenAI和Anthropic。此举标志着其AI战略从依赖外部合作转向强化自主核心技术开发。

21.1k 3 days ago

万象有声开启公测：懒人听书原班人马杀回，用 AIGC 再造一个“有声工厂”

从手工作坊到智能工厂的产业升级正在音频内容产业悄然发生。面对海量IP因传统制作高成本、低效率而“沉睡”的行业困局，原“懒人听书”核心团队创立的“万象有声”推出系统性解决方案，通过AI技术赋能，有望推动音频行业迎来属于自己的“破局时刻”。

13.2k 7 hours ago

马斯克旗下 xAI 发布 Grok Imagine 1.0：视频生成迎来新纪元！

马斯克旗下xAI公司发布Grok Imagine 1.0，实现AI视频生成技术重大突破。该版本支持生成10秒720p高清视频，音频质量显著提升，大幅缩短高质量视频创作时间，标志着AI视频生成领域的重要进展。

15.9k 1 hours ago

AI Products

GPTSora

基于OpenAI技术，可秒将文本转成含多镜头、同步音频的逼真AI视频

视频生成

8.2k

V03AI

V03 AI是基于Google Veo 3 AI技术的视频生成器，支持文本到视频和图片到视频的转换，具备音频功能。

视频生成

10.7k

LIP

全球音频感知技术的革命性AI唇同步技术。

视频生成

10.6k

JoyGen

JoyGen 是一种音频驱动的 3D 深度感知的说话人脸视频编辑技术。

视频生成

11.7k

Models

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

百度蒸汽机2.0音视一体

Baidu

Input tokens/M

Output tokens/M

Context Length

腾讯混元生视频-视频特效

Tencent

Input tokens/M

Output tokens/M

Context Length

腾讯混元生视频

Tencent

Input tokens/M

Output tokens/M

Context Length

gpt-oss-20b

Openai

$0.4

Input tokens/M

Output tokens/M

128

Context Length

Claude Opus 4.1

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Spark X1

Iflytek

Input tokens/M

Output tokens/M

Context Length

qwen-tts-realtime

Alibaba

$2.4

Input tokens/M

$12

Output tokens/M

Context Length

Wan2.1-T2V-1.3B

Alibaba

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B Instructed

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B Instructed LiteRT (Preview)

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B Instructed

Google

$140

Input tokens/M

$280

Output tokens/M

Context Length

Gemma 3n E4B Instructed LiteRT Preview

Google

Input tokens/M

Output tokens/M

Context Length

MCP

Ragstack Lambda

RAGStack-Lambda是一个基于AWS Lambda的无服务器AI文档与媒体处理平台，支持上传文档、图片、视频和音频，通过OCR、转录和向量化技术构建知识库，并提供带来源追溯的AI聊天功能。采用按需付费的零闲置成本架构。

typescript

5.4k

2.5points

Callcenter.js Mcp

一个基于MCP协议的AI语音呼叫系统，通过VoIP技术让Claude等AI助手能够自动拨打电话并进行智能对话，支持多种SIP协议和音频编解码器。

typescript

2.5points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

​火山引擎Seedance 2.0全面开放API服务

微软开启“AI 自主化”总攻：拟 2027 年问世最强自研模型

万象有声开启公测：懒人听书原班人马杀回，用 AIGC 再造一个“有声工厂”

马斯克旗下 xAI 发布 Grok Imagine 1.0：视频生成迎来新纪元！

AI Products

GPTSora

V03AI

LIP

JoyGen

Models

Gemini 2.0 Flash-Lite

o3-mini

Gemini 2.5 Flash

qwen3-livetranslate-flaltimeash-re-2025-09-22

wan2.5-i2v-preview

qwen3-omni-30b-a3b-captioner

百度蒸汽机2.0音视一体

腾讯混元生视频-视频特效

腾讯混元生视频

gpt-oss-20b

Claude Opus 4.1

Spark X1

qwen-tts-realtime

Wan2.1-T2V-1.3B

Gemma 3n E2B Instructed

Gemma 3n E2B

Gemma 3n E4B

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E4B Instructed

Gemma 3n E4B Instructed LiteRT Preview

VibeVoice Large Q8

Gemma 3n E2B It Litert Preview GGUF

DeSTA2.5 Audio Llama 3.1 8B

Midashenglm 7b

Gemma 3n E2B It

Gemma 3n E4B It

DASS_medium_AudioSet_50.2

Whisper Large V3 Turbo Quantized.w8a8

Whisper Large V3 Quantized.w8a8

InspireMusic 1.5B 24kHz

TangoFlux

Low Frame Rate Speech Codec 22khz

Openmusic

Tango2 Full

Pikachu

Obama

Miles_morales

Maki_nishikino

Korid

Juice_wrld

MCP

Ragstack Lambda

Callcenter.js Mcp

火山引擎Seedance 2.0全面开放API服务