美图公司AI Agent产品RoboNeo接入Seedance2.0大模型,实现从“单点生成”到“系统化工作流”的升级。用户可直接调用文生视频、图生视频、首尾帧控制及视频参考生成等能力,支持自由组合创作逻辑,提升AI短视频创作效率与灵活性。
DeepSeek将于下周发布多模态大模型V4,支持图像、视频及文本生成。该模型全面适配国产算力,旨在优化与中国制造芯片的兼容性,有望推动本土半导体需求并加速AI推理与国产芯片的融合。
深度求索将于下周发布多模态大模型V4,原生支持图像、视频与文本生成,旨在填补国内高性能低成本开源多模态模型市场空白。这是继1月发布R1推理模型后的首次重大更新。发布初期将提供简要技术说明,一个月后公开详细工程报告。V4模型已与华为、寒武纪完成底层生态合作。
深度求索将于下周推出多模态大模型DeepSeek V4,原生支持图像、视频和文本生成。这是继今年1月发布R1推理模型后的首次重大更新,旨在满足国内对低成本开源模型的需求,推动AI发展。同时将发布简要技术说明,详细版本预计一个月后推出。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
使用AI大模型一键生成高清故事短视频,支持多种语言模型和图像生成技术。
图生视频大模型,专为动漫和游戏场景设计
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
Quantamhash
开放且先进的大规模视频生成模型套件,支持文本生成视频、图像生成视频等多种任务
Isi99999
万2.1版是一个开放且先进的大规模视频生成模型,支持文本生成视频、图像生成视频等多种任务,适配消费级显卡。
THUdyh
Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态大语言模型,基于Qwen2.5架构,支持处理文本、图像、视频和音频输入,并生成文本输出。
wchai
AuroraCap是一个用于图像和视频字幕的多模态大语言模型,专注于高效和详细的视频字幕生成。
DAMO-NLP-SG
VideoLLaMA 2是一个多模态大语言模型,专注于视频理解和音频处理,能够处理视频和图像输入并生成自然语言响应。
LanguageBind
Video-LLaVA是一个开源的多模态模型,通过在多模态指令跟随数据上微调大语言模型进行训练,能够生成交错的图像和视频。