腾讯开源混元3D世界模型2.0,支持文本、图片、视频等多模态输入,可自动生成、重建和模拟3D世界。模型支持Mesh、3DGS、点云等多种格式导出,能与游戏开发流程无缝对接,助力快速生成游戏地图与关卡原型,推动AI“造世界”技术发展。
火山引擎发布Seedance 2.0系列API服务,提供先进的视频生成技术,支持文本、图片、音频和视频四种输入方式,具备多模态内容创建与编辑能力,适用于复杂互动和动态场景。该服务旨在帮助企业及个人用户优化工作流程,探索创新应用,同时确保AI视频创作的合规性与安全性。
MiniMax推出MMX-CLI命令行工具,专为AI Agent设计,简化全模态模型调用流程。该工具解决了接口适配繁琐、代码冗余等问题,使Agent能像原生应用一样轻松调度多种AI能力。用户可在主流开发环境中一键调用编程、视频生成等功能,无需额外编写MCP Server或适配复杂接口。
Tubi成为全球首个接入ChatGPT的流媒体平台,用户可通过对话式交互解决“选片焦虑”,告别传统关键词搜索,实现更自然的找片体验。
ngram利用AI将想法等转化为专业视频,掌控全流程
Guideless可将操作流程转化为带旁白视频指南,便于分享与嵌入
AI视频与图像工作室,支持文生视频、图生视频,多模型统一工作流
集成多AI模型,可通过对话生成图像、视频和声音,优化创意流程。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$2.1
$17.5
Alibaba
$2
$20
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
Xai
$1.4
$10.5
256
$0.8
Baidu
Tencent
24
32
tencent
混元视频-1.5是一款轻量级高性能视频生成模型,仅用83亿参数就能提供顶级的视频质量,显著降低了使用门槛。它能在消费级GPU上流畅运行,支持文本到视频和图像到视频生成,让每个开发者和创作者都能轻松使用。
NexaAI
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
showlab
Show-o2 是一个改进的原生统一多模态模型,利用自回归建模和流匹配技术,支持文本、图像和视频模态的统一理解和生成。
egorchistov
MEMFOF是一种内存高效的光流估计方法,专为全高清视频设计,结合了高精度和低显存使用。
Qwen
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
Qwen2.5-Omni是一款端到端多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。
calcuis
基于Lightricks/LTX-Video的gguf量化版本,专注于图像转视频任务,提供即装即用的完整工作流程。
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。
TaiMingLu
基于稳定视频扩散模型(SVD)构建的视频生成流程,通过关键帧生成时间连贯的视频,用于探索给定场景。
yeliudev
VideoMind是一个多模态智能体框架,通过模拟人类思维的处理流程(如任务拆解、时刻定位与验证和答案合成)来增强视频推理能力。
aap9002
基于RGB图像与广视角密集光流训练的弯道曲率分类模型,用于视频分类任务。
obvious-research
OnlyFlow是基于光流的视频扩散模型,用于精确控制视频生成中的运动
internlm
InternLM-XComposer2.5-OL是一个支持长时流式视频与音频交互的全方位多模态系统。
DepthCrafter是一个能够为开放世界视频生成时间上连贯的长深度序列的模型,具有精细的细节,无需额外的信息如相机姿态或光流。
benjamin-paine
VidXTend是StreamingT2V第二阶段精简封装的视频扩展流程,用于将16帧256x256像素动画每次扩展8帧(8fps下扩展1秒时长)
cerspense
一款基于Modelscope的无水印视频生成模型,优化16:9画面比例和流畅视频输出
TikTok MCP是一个集成TikTok访问功能的工具,支持分析视频流行因素、获取视频内容以及与视频互动,适用于Claude AI等应用。
manim-mcp 是一个基于 manimgl 库的文本转视频动画生成工具,通过多智能体 LLM 流水线将自然语言描述转换为高质量数学动画,可作为 CLI 工具、AI 代理或 MCP 服务器与 Claude 等助手集成。
一个MCP服务器项目,用于连接CCTV录像系统(VMS),实现视频流检索、播放控制及PTZ摄像头操作。