OpenAI视频生成应用Sora上线不足月,仅限美加邀请制却斩获200万下载量,登顶App Store。负责人宣布即将推出三大更新:角色扩展、视频编辑和社交互动功能,其中"客串角色"最受关注,安卓版本也即将发布。
火山引擎推出豆包视频生成模型1.0pro fast,生成速度提升3倍,价格降低72%,同时优化视频质量和场景适配性,为开发者提供高效低成本AI工具。
10月24日,火山引擎推出豆包视频生成模型1.0pro fast,在继承前作优势基础上实现效率提升和成本降低。新模型生成速度显著加快,仅需10秒即可产出720P的5秒视频,比pro版提速约3倍,为企业与创作者提供更高效的视频制作解决方案。
美团发布视频生成模型LongCat-Video,推动AI理解真实世界。该模型基于DiT架构,能模拟物理规律,处理文本生成视频等任务,助力世界模型研究发展。
Banono AI借助谷歌Nano Banana模型,可创建、编辑图像视频,无需应用程序。
VORAvideo连接多AI模型,支持文生视频、图生视频,享Sora 2特惠
AIAI是AI创作平台,可生成视频、图像、语音和文本内容。
LTX 2是革命性AI视频生成引擎,支持4K、开源且音视频同步。
google
$9
Input tokens/M
$72
Output tokens/M
1M
Context Length
$2.16
$18
tencent
$0.8
$2
32k
openai
128k
$0.72
$2.88
$3
8k
2M
sensetime
$2.8
$8.4
256k
$4
$16
200k
$1.08
$4.32
aws
$5.76
$23.04
300k
$0.43
$1.73
$0.58
unsloth
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、增强的空间和视频理解能力,以及强大的智能体交互能力。该模型为2B参数的思考版,专门增强推理能力。
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知与推理能力、长上下文支持以及增强的空间和视频动态理解能力。
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的全面升级,具备卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更强的空间和视频动态理解能力,以及更出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频理解能力,以及出色的智能体交互能力。
lightx2v
基于LoRA的4步推理高性能视频生成模型,从Wan2.2蒸馏模型中提取的LoRA权重,具备灵活部署、存储高效和出色生成质量的特点
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
cpatonn
Qwen3-VL是通义系列最强大的视觉语言模型,实现全方位综合升级,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文处理和视频理解,提供指令优化版本。
citizenplain
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务。该模型使用AI Toolkit训练,为视频生成应用提供支持。
hyperchainsad
这是一个基于Wan2.2-T2V-A14B基础模型训练的文本到视频LoRA模型,使用AI Toolkit工具包进行训练,专门用于增强文本到视频的转换能力。
synap5e
这是一个基于AI Toolkit by Ostris训练的文本到视频LoRA模型,使用Wan2.2-T2V-A14B作为基础模型,支持文本到视频的转换任务,为相关领域的应用提供了强大的支持。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
QuantTrio
Qwen3-VL-30B-A3B-Thinking-AWQ 是基于 Qwen/Qwen3-VL-30B-A3B-Thinking 模型量化后的版本,是通义系列中最强大的视觉语言模型。该版本在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面进行了全面升级。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
一个基于Model Context Protocol (MCP)的B站视频搜索服务器,提供API接口支持视频内容搜索、分页查询及视频信息返回,包含LangChain调用示例和测试脚本。
开源短视频自动生成工具,整合文本转语音、自动字幕、背景视频和音乐,从简单文本输入创建专业短视频。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
通过yt-dlp下载YouTube字幕并通过MCP协议连接Claude.ai进行视频内容分析
Video Editor MCP是一个视频编辑服务器,提供视频上传、搜索、生成和编辑功能,支持通过LLM和Video Jungle平台进行操作。
一个通过MCP协议获取YouTube视频字幕的服务
一个提供查询Erick Wendel在不同平台贡献内容的MCP服务器,支持通过自然语言查询演讲、博客和视频。
一个集成OpenAI Sora 2视频生成API的MCP服务器,提供视频生成、混剪、状态查询和自动下载功能
一个查询Erick Wendel跨平台贡献内容的MCP服务器,支持通过自然语言查询演讲、博客和视频。
adb-mcp是一个概念验证项目,旨在通过MCP协议为LLM提供接口,创建控制Adobe工具(如Photoshop和Premiere)的AI代理。该项目包含MCP服务器、Node命令代理服务器和Adobe应用插件,支持自然语言指令操作Adobe软件,适用于图像和视频编辑自动化。
一个基于MCP协议的抖音视频处理服务器,支持无水印视频下载、音频提取和文本转换功能。
Awesome MCP Security 是一个关于模型上下文协议(MCP)安全的资源集合,包括安全考虑、论文、视频、文章、工具和服务器等内容,旨在帮助用户了解和应对MCP相关的安全挑战。
YouTube MCP服务器是一个标准化接口实现,允许AI语言模型通过协议与YouTube内容进行交互,提供视频信息获取、字幕管理、频道和播放列表管理等功能。
一个用于获取网页内容和YouTube视频字幕的MCP服务器
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
一个通过Claude Desktop和兼容MCP客户端上传图片和视频到Cloudinary的服务器工具
TikTok MCP是一个集成TikTok访问功能的工具,通过TikNeuron为Claude AI等应用提供视频内容分析、字幕获取和帖子详情查询服务。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。