DeepSeek将于下周发布多模态大模型V4,支持图像、视频及文本生成。该模型全面适配国产算力,旨在优化与中国制造芯片的兼容性,有望推动本土半导体需求并加速AI推理与国产芯片的融合。
深度求索将于下周发布多模态大模型V4,原生支持图像、视频与文本生成,旨在填补国内高性能低成本开源多模态模型市场空白。这是继1月发布R1推理模型后的首次重大更新。发布初期将提供简要技术说明,一个月后公开详细工程报告。V4模型已与华为、寒武纪完成底层生态合作。
深度求索将于下周推出多模态大模型DeepSeek V4,原生支持图像、视频和文本生成。这是继今年1月发布R1推理模型后的首次重大更新,旨在满足国内对低成本开源模型的需求,推动AI发展。同时将发布简要技术说明,详细版本预计一个月后推出。
2026年春节期间,国产AI大模型赛道迎来密集发布潮,字节跳动、智谱、MiniMAX等头部企业相继推出新品,带动资本市场对AI应用板块热情高涨。其中,字节跳动发布的Seedance 2.0视频生成模型尤为瞩目,支持文本和图像输入,可生成长达60秒的多镜头视频,并实现了画质跨越,具备原生音频同步与出色的运镜规划能力。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
使用AI大模型一键生成高清故事短视频,支持多种语言模型和图像生成技术。
图生视频大模型,专为动漫和游戏场景设计
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
Quantamhash
开放且先进的大规模视频生成模型套件,支持文本生成视频、图像生成视频等多种任务
Isi99999
万2.1版是一个开放且先进的大规模视频生成模型,支持文本生成视频、图像生成视频等多种任务,适配消费级显卡。
THUdyh
Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态大语言模型,基于Qwen2.5架构,支持处理文本、图像、视频和音频输入,并生成文本输出。
wchai
AuroraCap是一个用于图像和视频字幕的多模态大语言模型,专注于高效和详细的视频字幕生成。
DAMO-NLP-SG
VideoLLaMA 2是一个多模态大语言模型,专注于视频理解和音频处理,能够处理视频和图像输入并生成自然语言响应。
LanguageBind
Video-LLaVA是一个开源的多模态模型,通过在多模态指令跟随数据上微调大语言模型进行训练,能够生成交错的图像和视频。