Best 多模态语音交互 AI Tools & Models - Premium 多模态语音交互 News

AI News

研究人员推出LPM1.0模型:实现单图转实时交互式数字人视频

LPM1.0模型发布，能通过单张参考图实时生成人物说话、聆听及唱歌视频。其核心突破在于多模态处理，可同步整合文本、音频与图像，生成唇形精准同步、表情细腻且情绪过渡自然的动态画面。该模型支持接入ChatGPT等主流语音AI，将传统语音对话升级为具备视觉反馈的实时交互。

15.1k 3 hours ago

谷歌全球上线Search Live:搭载Gemini3.1Flash Live实现摄像头实时AI搜索

谷歌在全球推出“Search Live”功能，用户可通过手机摄像头和语音与AI实时交互，实现多模态搜索。该功能由Gemini 3.1 Flash Live模型驱动，提升了对话的自然度和响应速度。

15.7k 4 days ago

谷歌全球上线Search Live:搭载Gemini3.1Flash Live实现摄像头实时AI搜索

马斯克 xAI 上线语音 API：AI 嘴替争霸战再次升级

马斯克旗下xAI公司正式推出Grok文本转语音Speech API，使AI助手具备语音交互能力。此举不仅拓展了Grok的多模态功能，更为开发者提供了便捷接口，可将其对话能力集成至各类应用，推动AI生态向更拟人化方向发展。

13k 10 hours ago

Rokid 携手顶尖 AI 公司，推出未来感十足的智能眼镜！

Rokid正与顶尖大模型公司合作开发新一代AI智能眼镜，以生成式AI和AI智能体为核心，打造革命性操作系统和界面。该眼镜采用端侧多模态模型，支持语音、视觉和触控等多种交互方式，旨在提供全新用户体验。

11.5k 1 days ago

AI Products

MinMo

MinMo是一款多模态大型语言模型，用于无缝语音交互。

语音识别

12.2k

VITA-1.5

VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型

AI模型

10.6k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

研究人员推出LPM1.0模型:实现单图转实时交互式数字人视频

谷歌全球上线Search Live:搭载Gemini3.1Flash Live实现摄像头实时AI搜索

马斯克 xAI 上线语音 API：AI 嘴替争霸战再次升级

Rokid 携手顶尖 AI 公司，推出未来感十足的智能眼镜！

AI Products

MinMo

VITA-1.5

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

wan2.5-i2i-preview

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Omnivinci

Ultravox V0_6 Gemma 3 27b

EchoLLaMA 1B

VITA 1.5

Qwen2 Audio 7B GGUF

Qwen2 Audio 7B GGUF

Mini Omni2

LLM_SQL_BaseDatosEspanol_Mistral

SpeechGPT 7B Cm