Best 音频功能 AI Tools & Models - Premium 音频功能 News

AI News

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

昆仑万维开源视频生成大模型SkyReels-V3，实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入，能精准保留主体身份与构图，推动视频生成技术进入高保真、多模态新阶段。

13.5k 18 hours ago

xAI Grok Imagine 推出10秒视频生成功能，全面升级质量与音效xAI

xAI旗下Grok Imagine新增10秒视频生成功能，视频质量显著提升，画面稳定、细节丰富，音频清晰同步。目前生成过程仍较随机，缺乏计时器选项，输出长度和一致性有待优化，但相关功能预计将很快完善。

24k 11 hours ago

xAI Grok Imagine 推出10秒视频生成功能，全面升级质量与音效xAI

华为上半年计划推新一代AI眼镜！鸿蒙加持、三电续航、实时同传，引爆智能穿戴新赛道

华为将于2026年上半年推出新一代AI眼镜，在保留音频功能基础上，首次加入高清拍照，并深度整合鸿蒙系统，支持跨设备协同、实时翻译等AI体验。产品延续轻量化设计，内置三块高密度电池以提升续航，标志着华为向全场景智能交互迈出关键一步。

11.6k 1 hours ago

消息称华为 AI 眼镜暂定上半年发布:轻量化三电池设计

华为计划2026年上半年推出新款AI眼镜，主打轻量化设计，内置三块锂电池，提供流光银、钛银灰和摩登黑三种配色。产品搭载鸿蒙系统，支持跨端协同、同传翻译、拍照及音频功能，探索AI交互新体验。随着智能眼镜被预测为2025年消费电子增长黑马，此举显示华为正深化AI终端布局。

10.3k 2 days ago

AI Products

Levelr

Levelr提供AI音频修复、母带处理、语音隔离与增强等功能。

音频生成

5.4k

SongGuru

SongGuru AI可借助AI创作歌曲、歌词、音乐，还具备多种音频处理功能。

音乐生成

5.6k

sora 2 app

通过Google AI Studio创建具有原生音频的8秒AI视频，操作直观功能强大

视频生成

6.9k

Sora2Video

OpenAI的Sora 2 AI，实现物理精确视频生成，有同步音频和客串功能

视频生成

Models

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-t2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

qwen-mt-image

Alibaba

Input tokens/M

Output tokens/M

Context Length

百度蒸汽机2.0音视一体

Baidu

Input tokens/M

Output tokens/M

Context Length

腾讯混元生视频

Tencent

Input tokens/M

Output tokens/M

Context Length

qwen-mt-turbo

Alibaba

$0.7

Input tokens/M

$1.95

Output tokens/M

Context Length

qwen-tts-realtime

Alibaba

$2.4

Input tokens/M

$12

Output tokens/M

Context Length

Gemma 3n E2B Instructed

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B Instructed LiteRT (Preview)

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B Instructed LiteRT Preview

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B Instructed

Google

$140

Input tokens/M

$280

Output tokens/M

Context Length

QianfanHuijin-8B

Baidu

Input tokens/M

Output tokens/M

Context Length

Pangu-AgentExpert-N1-0.0.2

Huawei

Input tokens/M

Output tokens/M

Context Length

MCP

Douyin Mcp Server

一个基于MCP协议的抖音视频处理服务器，支持无水印视频下载、音频提取和文本转换功能。

python

13.3k

3.0points

Strudel Mcp Server

一个生产就绪的MCP服务器，通过Strudel.cc实现AI驱动的音乐生成，提供完整的浏览器自动化控制、实时音频分析和模式生成功能

typescript

2.5points

Mcp Audacity

该项目实现了一个通过命名管道与Audacity音频编辑器交互的MCP服务器，提供远程控制功能（如录制、播放等），支持uv工具运行和Claude桌面客户端集成。

python

8.7k

2.5points

Yt Dlp Mcp

yt-dlp-mcp是一个集成yt-dlp的MCP服务器实现，为LLMs提供视频和音频内容下载功能，支持多种平台如YouTube、Facebook、TikTok等。

typescript

10.7k

2.5points

Speech Mcp

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

python

10.6k

2.5points

Pixeltable Mcp Server

Pixeltable的多模态模型上下文协议服务器集合，提供音频、视频、图像和文档的索引与查询功能

python

6.6k

2.5points

Rime Text To Speech

一个基于Rime API的文本转语音MCP服务器，提供系统音频播放功能。

typescript

9.5k

2.5points

Audio Transcriber (OpenAI Whisper)

一个基于OpenAI API的音频转文字MCP服务器，提供音频转录功能并支持多种配置选项。

typescript

6.2k

2.5points

Audio Interface

一个为AI助手提供音频输入输出功能的MCP服务器

python

9.4k

2.5points

Speech Interface (Faster Whisper)

Speech MCP 是一个为Goose设计的语音交互扩展，提供实时语音识别、文本转语音和音频可视化功能。

python

5.6k

2.5points

Mcp Audio

mcp-audio是一个符合AIO-2030标准的MCP插件，提供语音转文字功能，支持多种音频格式和API调用方式。

python

7.8k

2.5points

Gemini Media Analysis

一个基于Google Gemini AI的MCP服务器，提供图像、音频和视频识别功能，支持多种传输方式和客户端集成。

typescript

9.3k

2.5points

Rime Mcp

Rime MCP是一个基于Rime API的文本转语音服务，通过系统原生音频播放器实现语音合成与播放功能。

typescript

9.5k

2.5points

Video Edit Mcp

一个强大的视频编辑MCP服务器，提供视频和音频的全面编辑功能，支持操作链式处理和无缝集成到MCP客户端。

python

9.2k

2.5points

Mcp Tts Server

基于MCP协议的文本转语音服务器项目，通过Groq API实现语音合成功能，支持多种音频格式输出。

typescript

9.7k

2.5points

Audio MCP Server

一个提供音频输入/输出功能的MCP服务器，支持AI助手如Claude与电脑音频系统交互，包括录音、播放音频文件等功能。

python

10.4k

2.5points

REAPER

REAPER MCP Server是一个全面的模型上下文协议服务器，使AI代理能够在REAPER中创建完全混音和母带处理的音轨，支持MIDI和音频功能。

python

10.3k

2.5points

Mcp Ffmpeg

一个基于Node.js和FFmpeg的视频处理服务器，提供视频转码和音频提取功能

javascript

9.4k

2.5points

Mcp Tts Voicevox

VOICEVOX语音合成的MCP服务器，提供队列管理和预加载功能，支持文本转语音和音频文件生成。

typescript

9.7k

2.5points

Mcp Make Sound

一个为macOS提供全面音频播放功能的MCP服务器，支持系统声音、文本转语音和自定义音频文件播放，适用于AI助手等MCP客户端。

typescript

8.3k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

xAI Grok Imagine 推出10秒视频生成功能，全面升级质量与音效xAI

华为上半年计划推新一代AI眼镜！鸿蒙加持、三电续航、实时同传，引爆智能穿戴新赛道

消息称华为 AI 眼镜暂定上半年发布:轻量化三电池设计

AI Products

Levelr

SongGuru

sora 2 app

Sora2Video

Models

Gemini 2.0 Flash-Lite

o3-mini

Gemini 2.5 Flash

wan2.5-i2i-preview

wan2.5-t2v-preview

wan2.5-i2v-preview

qwen3-omni-30b-a3b-captioner

qwen-mt-image

百度蒸汽机2.0音视一体

腾讯混元生视频

qwen-mt-turbo

qwen-tts-realtime

Gemma 3n E2B Instructed

Gemma 3n E4B

Gemma 3n E2B

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E4B Instructed LiteRT Preview

Gemma 3n E4B Instructed

QianfanHuijin-8B

Pangu-AgentExpert-N1-0.0.2

Arabic TTS Spark

Neutts Air Vi

Latin_SpeechT5

Step Audio 2 Mini

Qwen2.5 Omni 7B GGUF

Bambara Tts

ED

DarwinWatterson2333333

SoundSlayerAI

Spec_soul_ast_aug

MCP

Douyin Mcp Server

Strudel Mcp Server

Mcp Audacity

Yt Dlp Mcp

Speech Mcp

Pixeltable Mcp Server

Rime Text To Speech

Audio Transcriber (OpenAI Whisper)

Audio Interface

Speech Interface (Faster Whisper)

Mcp Audio

Gemini Media Analysis

Rime Mcp

Video Edit Mcp

Mcp Tts Server

Audio MCP Server

REAPER

Mcp Ffmpeg

Mcp Tts Voicevox

Mcp Make Sound