小红书正研发AI视频剪辑工具OpenStoryline,支持对话式剪辑,旨在降低用户创作门槛,进一步深耕短视频生态。
腾讯推出首款漫剧App“火龙漫剧”,将漫画转化为短视频,采用竖屏信息流设计,结合AI技术提升内容生产效率,进一步巩固其在泛娱乐领域的优势。
Meta本周四证实正为AI视频功能Vibes测试独立App,剑指OpenAI的Sora。2024年是文生视频元年,2026年或成巨头决战年。Vibes旨在打造全员“数字分身”的短视频平台,成为Meta在AI视频赛道的关键布局。
AI视频生成技术飞速发展,但主流AI聊天机器人却难以识别深度伪造内容。研究显示,面对OpenAI自家Sora生成的虚假视频,ChatGPT识别错误率高达92.5%,暴露了AI在内容真实性判断上的严重短板。
Elser AI可瞬间生成动漫、漫画、动画、音乐视频和短片等。
Chunks用AI将长视频转为自动高光片段,生成可分享短片
借助 AI 轻松高效创作爆款短视频。
传声港是一站式新媒体平台,专注于短视频发布和网红营销。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$2.1
$17.5
Alibaba
$2
$20
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
256
Baidu
Tencent
24
32
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型,能够将文本查询、视觉文档(如图像、PDF)或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势,在ViDoRe基准测试中表现出色,同时显著减少了嵌入占用空间。
TencentARC
ARC-Qwen-Video-7B是腾讯ARC实验室开发的用于理解现实世界短视频的多模态模型,基于Qwen2.5-VL-7B-Instruct构建,支持音视频同步分析和理解。
ARC-Hunyuan-Video-7B 是腾讯ARC实验室开发的多模态模型,专门用于理解现实世界中的短视频内容。它能够端到端处理视觉、音频和文本信号,通过整合多模态线索实现对视频的深度结构化理解。
chaowenguo
AnimateLCM 是一个基于扩散模型的文本到视频生成系统,能够通过文本描述生成高质量短视频片段。
google
PaliGemma 2是一款视觉语言模型(VLM),结合了Gemma 2模型的能力,能够同时处理图像和文本输入,并生成文本输出,支持多种语言。适用于图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割等多种视觉语言任务。
lzyvegetable
基于静态图像生成短视频片段的扩散模型,支持576x1024分辨率下生成14帧动态画面
weights
基于静态图像生成短视频片段的潜在扩散模型,支持1024x576分辨率25帧视频生成
vdo
Stable Video Diffusion (SVD) 1.1 是一款基于扩散模型的图像转视频工具,能够将静态图像作为条件帧生成短视频片段。
model-hub
Stable Video Diffusion(SVD)是一个扩散模型,能够以静态图像作为输入条件生成短视频片段。
一个扩散模型,可将静态图像作为条件帧生成短视频片段
thingthatis
基于静态图像生成短视频片段的扩散模型,支持576x1024分辨率25帧视频生成
开源短视频自动生成工具,整合文本转语音、自动字幕、背景视频和音乐,从简单文本输入创建专业短视频。
Shorts Video Maker是一个开源工具,用于自动化生成短视频。它结合了文本转语音、自动字幕、背景视频和音乐技术,通过简单文本输入创建吸引人的短视频内容。支持REST API和MCP协议,适用于内容创作者和开发者。