Best 音频输入 AI Tools & Models - Premium 音频输入 News

AI News

谷歌课堂上线Gemini播客工具！教师一键生成音频课，用“播客式教学”俘获Z世代学生

谷歌将AI音频功能融入教育，推出基于Gemini模型的播客风格音频课生成工具。教师只需输入主题或大纲，即可自动创建结构清晰、富有感染力的音频内容，帮助学生通过听觉深化理解，尤其迎合Z世代对播客的偏好。

8.9k 1 hours ago

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

Meta发布SAM Audio，全球首个统一多模态音频分离模型。用户可通过点击视频中物体、输入关键词或圈定时间片段，一键提取目标声音或过滤噪音，实现“用眼睛听声音”。该技术首次模拟人类自然感知声音的方式，支持看、说等多种交互。

9.5k 1 hours ago

阿里通义推出Qwen3-Omni-Flash-2025-12-01

阿里通义Qwen团队发布新版Qwen3-Omni-Flash-2025-12-01，作为新一代全模态大模型，能高效处理文本、图像、音频和视频输入，实现实时流式响应，生成文本与自然语音输出。升级重点提升了音视频交互体验，增强了对音视频指令的理解和执行能力，优化了口语化场景中的表现。

12.1k 6 hours ago

阿里发布全模态大模型Qwen3-Omni-Flash：实时流式输出，支持 119 种语言交互

阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01，支持文本、图像、音频和视频的无缝输入，并能实时流式同步生成高质量文本与自然语音，语音自然度接近真人。该模型采用实时流式架构，支持119种文本语言交互。

11.9k 2 days ago

阿里发布全模态大模型Qwen3-Omni-Flash：实时流式输出，支持 119 种语言交互

AI Products

Qwen2.5-Omni

Qwen2.5-Omni 是阿里云通义千问团队开发的端到端多模态模型，支持文本、音频、图像、视频输入。

AI模型

18.4k

Sesame CSM

一个用于生成对话式语音的模型，支持从文本和音频输入生成高质量的语音。

语音合成

12.4k

Phi-4-multimodal-instruct

Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型，支持文本、图像和音频输入。

AI模型

11.2k

MMAudio

MMAudio根据视频和/或文本输入生成同步音频。

视频生成

9.2k

Models

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

Doubao - Seedream - 4.0

Bytedance

Input tokens/M

Output tokens/M

Context Length

qwen3-asr-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

Hunyuan-T1-20250822

Tencent

Input tokens/M

Output tokens/M

Context Length

百度蒸汽机2.0音视一体

Baidu

Input tokens/M

Output tokens/M

Context Length

GPT-5 nano

Openai

$0.35

Input tokens/M

$2.8

Output tokens/M

400

Context Length

Claude Opus 4.1

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

qwen-mt-turbo

Alibaba

$0.7

Input tokens/M

$1.95

Output tokens/M

Context Length

qwen-tts-realtime

Alibaba

$2.4

Input tokens/M

$12

Output tokens/M

Context Length

Gemma 3n E2B Instructed

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B Instructed LiteRT (Preview)

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B Instructed

Google

$140

Input tokens/M

$280

Output tokens/M

Context Length

Gemma 3n E4B Instructed LiteRT Preview

Google

Input tokens/M

Output tokens/M

Context Length

MCP

Audio Interface

一个为AI助手提供音频输入输出功能的MCP服务器

python

9.8k

2.5points

Audio MCP Server

一个提供音频输入/输出功能的MCP服务器，支持AI助手如Claude与电脑音频系统交互，包括录音、播放音频文件等功能。

python

8.9k

2.5points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

谷歌课堂上线Gemini播客工具！教师一键生成音频课，用“播客式教学”俘获Z世代学生

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

​阿里通义推出Qwen3-Omni-Flash-2025-12-01

阿里发布全模态大模型Qwen3-Omni-Flash：实时流式输出，支持 119 种语言交互

AI Products

Qwen2.5-Omni

Sesame CSM

Phi-4-multimodal-instruct

MMAudio

Models

Gemini 2.0 Flash-Lite

Grok 4 Fast

Gemini 2.5 Flash

Gemini 2.5 Flash-Lite

wan2.5-i2v-preview

qwen3-omni-30b-a3b-captioner

Doubao - Seedream - 4.0

qwen3-asr-flash

Hunyuan-T1-20250822

百度蒸汽机2.0音视一体

GPT-5 nano

Claude Opus 4.1

qwen-mt-turbo

qwen-tts-realtime

Gemma 3n E2B Instructed

Gemma 3n E4B

Gemma 3n E2B

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E4B Instructed

Gemma 3n E4B Instructed LiteRT Preview

Gemma 3n E4B It Heretic GGUF

Qwen3 Omni 30B A3B Captioner AWQ 4bit

Ovi

Wan2.1 HuMo GGUF

Wan2_1 HuMo_17B GGUF

Wan2.2 S2V 14B

Qwen2.5 Omni 7B Q4_0 GGUF

Gemma 3n E2B It Quantized.w4a16

Gemma 3n E2B It FP8 Dynamic

Gemma 3n E4B It FP8 Dynamic

Voxtral Mini 3B 2507 Transformers

Gemma 3n E4B It 4bit MLX

Gemma 3n E2B It Litert Preview GGUF

OmniAvatar 14B

Gemma 3n E2B It

Gemma 3n E2B It Litert Lm

Gemma 3n E4B It

Gemma 3n E4B

Qwen2.5 Omni 7B GGUF

Qwen2.5 Omni 3B GGUF

MCP

Audio Interface

Audio MCP Server

阿里通义推出Qwen3-Omni-Flash-2025-12-01