LPM1.0模型发布,能通过单张参考图实时生成人物说话、聆听及唱歌视频。其核心突破在于多模态处理,可同步整合文本、音频与图像,生成唇形精准同步、表情细腻且情绪过渡自然的动态画面。该模型支持接入ChatGPT等主流语音AI,将传统语音对话升级为具备视觉反馈的实时交互。
即梦AI推出首个协作型叙事创作工具“小章鱼”Octo,引入VibeCreate(氛围创作)模式,旨在改变AI内容生成方式,从单向指令转向同屏共创的合伙人模式。目前该工具仅开放Web端内测,支持对话与多模态交互,标志着AI创作交互范式的重要演进。
谷歌升级企业视频应用Vids,集成Veo3.1模型,实现AI虚拟形象动态交互。用户通过文字指令即可控制形象与场景互动,并保持角色一致性。更新强化了多模态整合,提升视频创作效率。
谷歌在全球推出“Search Live”功能,用户可通过手机摄像头和语音与AI实时交互,实现多模态搜索。该功能由Gemini 3.1 Flash Live模型驱动,提升了对话的自然度和响应速度。
一款支持多种语言模型的高性能AI聊天工具,提供本地隐私保护和多模态交互功能。
多模态AI平台,整合文本、图像和音频交互
MyCharacter.AI是一个基于AI协议构建的dApp,利用CharacterGPT V2多模态AI系统生成逼真、智能、交互式的AI角色,这些角色可在Polygon区块链上收藏。
专业的AI数字人平台,定制数字人专属IP,创造无限商业价值
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
fahadh4ilyas
Llama 4系列是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像交互,在多种语言和视觉任务中表现卓越。
Llama 4系列是Meta推出的原生多模态AI模型,支持文本和图像交互,采用混合专家架构,在文本和图像理解方面表现卓越。
bnb-community
Llama 4系列是Meta开发的多模态AI模型,支持文本与图像交互,采用混合专家架构(MoE),在文本和图像理解领域具有领先性能。
meta-llama
Llama 4 Scout是Meta开发的多模态AI模型,采用混合专家架构,支持12种语言的文本和图像交互,具有17B激活参数和109B总参数。
Llama 4系列是Meta开发的多模态AI模型,支持文本与图像交互,采用混合专家架构(MoE),在文本和图像理解方面具有行业领先性能。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
microsoft
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
lamm-mit
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和交互。
MaxKB是一款开源的AI助手,专为企业设计,支持RAG流程、工作流引擎和多模态交互,适用于智能客服、知识库等场景。