LPM1.0模型发布,能通过单张参考图实时生成人物说话、聆听及唱歌视频。其核心突破在于多模态处理,可同步整合文本、音频与图像,生成唇形精准同步、表情细腻且情绪过渡自然的动态画面。该模型支持接入ChatGPT等主流语音AI,将传统语音对话升级为具备视觉反馈的实时交互。
谷歌在全球推出“Search Live”功能,用户可通过手机摄像头和语音与AI实时交互,实现多模态搜索。该功能由Gemini 3.1 Flash Live模型驱动,提升了对话的自然度和响应速度。
马斯克旗下xAI公司正式推出Grok文本转语音Speech API,使AI助手具备语音交互能力。此举不仅拓展了Grok的多模态功能,更为开发者提供了便捷接口,可将其对话能力集成至各类应用,推动AI生态向更拟人化方向发展。
Rokid正与顶尖大模型公司合作开发新一代AI智能眼镜,以生成式AI和AI智能体为核心,打造革命性操作系统和界面。该眼镜采用端侧多模态模型,支持语音、视觉和触控等多种交互方式,旨在提供全新用户体验。
MinMo是一款多模态大型语言模型,用于无缝语音交互。
VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
fixie-ai
Ultravox是一个多模态语音大语言模型,能够同时处理语音和文本输入,为语音交互场景提供强大支持。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
VITA-MLLM
VITA-1.5是一个多模态交互模型,旨在实现GPT-4o级别的实时视觉与语音交互能力。
NexaAIDev
Qwen2-Audio是先进的小规模多模态模型,支持音频与文本输入,无需依赖语音识别模块即可实现语音交互。
NexaAI
Qwen2-Audio 是一款先进的小规模多模态模型,支持音频和文本输入,无需ASR模块即可进行语音交互。
gpt-omni
Mini-Omni2是一款全交互式多模态模型,能理解图像、音频和文本输入,并与用户进行端到端的语音对话。
somosnlp
支持西班牙语的多模态数据库交互工具,通过语音/文本指令生成SQL查询,并以最适合的模态(语音/文本/图像)返回结果
fnlp
SpeechGPT是一个具备内在跨模态对话能力的大型语言模型,能够感知和生成多模态内容,支持语音与文本的交互。