昆仑万维旗下AI视频创作平台SkyReels焕新上线,推出V3模型及五大核心功能升级,支持Web端和移动端。平台主打“一站式”与“多模态聚合”亮点,整合全球顶尖AI多模态模型,实现无缝创作体验。
美团正式发布自研LongCat大模型官方App,支持安卓和iOS系统下载。该应用具备联网搜索、语音通话功能,未来还将加入视频通话。通过文本处理和多模态理解技术,帮助用户高效获取信息,体现美团在人工智能领域的重要进展。
Adobe Max大会展示多项AI实验工具,统称"Sneaks",涵盖照片、视频、音频编辑。核心功能"帧前移"让视频编辑如修图般简单,结合光线重塑、语音修正等AI技术,重构创作流程,展现未来创意生产力方向。
xAI即将为iOS版Grok Imagine工具推出视频生成功能,用户可通过文本或图像提示创建高清动态视频,并支持从内容提要中直接重混提示以快速迭代创作。界面轻度优化提升操作流畅性,基于Aurora/Grok核心模型,支持一键高清升级,生成数秒短片,适用于广告和创意内容。重混机制降低输入门槛,简化创作流程。
通过Google AI Studio创建具有原生音频的8秒AI视频,操作直观功能强大
OpenAI的Sora 2 AI,实现物理精确视频生成,有同步音频和客串功能
立即找到附近足球场,含专业球场和本地场地,还有AI生成名人视频功能
世界首个HDR AI视频生成器,可创建16位HDR视频,功能强大免费试用。
google
$9
Input tokens/M
$72
Output tokens/M
1M
Context Length
$2.16
$18
aws
$5.76
$23.04
300k
QuantStack
这是NVIDIA ChronoEdit-14B-Diffusers模型的GGUF量化版本,专门用于图像转视频任务。该模型保留了原始模型的所有功能,同时通过GGUF格式优化了部署和运行效率。
nvidia
NVIDIA Nemotron Nano v2 12B VL是一款强大的多模态视觉语言模型,支持多图像推理和视频理解,具备文档智能、视觉问答和摘要功能,可用于商业用途。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
jude1903
AJWWan22-lora 是一个基于文本生成视频的LoRA模型,通过AI Toolkit进行训练,专门用于图像生成任务。该模型需要特定的触发词来激活生成功能。
fraemwerk
这是一个基于Wan2.1-T2V-14B模型的文本到视频LoRA适配器,使用AI Toolkit训练,专注于图像生成任务,需要特定触发词'fraemwerk'来激活生成功能。
Qwen
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本采用混合专家模型架构,支持增强推理思维功能。
OpenGVLab
VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型,支持多模态任务,特别擅长视频问答功能。该模型通过强化微调增强时空感知能力,并采用迭代感知机制来强化多模态推理。
lym00
基于特定模型的转换项目,将模型转换为GGUF格式,支持文本到视频、图像到视频、视频到视频等多种功能
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
SkyReels-V2是一个14B参数的文本生成视频模型,支持720P分辨率输出,并增加了VACE功能。
alibaba-pai
支持多分辨率训练的文图生视频模型,具备首尾帧预测功能
支持多分辨率训练的1.3B参数文生视频模型,具备首尾帧预测功能
jarvisvasu
Qwen2.5-VL是Qwen家族的最新视觉语言模型,具备增强的视觉理解、智能体功能和长视频处理能力。
motexture
基于条件增强的文本生成视频模型,通过时序条件变换器扩展生成片段并实现平滑过渡,支持提示词插值功能
a-r-r-o-w
基于Diffusers格式的LTX-Video模型,支持文本生成视频和图像生成视频功能
jbilcke-hf
专为Hugging Face推理端点优化的视频生成模型分支版本,支持文本生成视频和图像生成视频功能
foduucom
基于YOLOv8s的目标检测模型,专为实时股市交易视频数据中的图表模式识别而设计,提供趋势预测和分类功能。
Video Editor MCP是一个视频编辑服务器,提供视频上传、搜索、生成和编辑功能,支持通过LLM和Video Jungle平台进行操作。
一个集成OpenAI Sora 2视频生成API的MCP服务器,提供视频生成、混剪、状态查询和自动下载功能
一个基于MCP协议的抖音视频处理服务器,支持无水印视频下载、音频提取和文本转换功能。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
TikTok MCP是一个集成TikTok访问功能的工具,通过TikNeuron为Claude AI等应用提供视频内容分析、字幕获取和帖子详情查询服务。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
YouTube视频分析MCP服务,提供转录提取、内容摘要和AI查询功能
一个基于MCP协议的YouTube视频分析服务,提供字幕提取、视频搜索和频道信息获取功能。
Shaka Packager MCP服务器是一个实验性项目,将Shaka Packager视频处理工具与Claude AI应用集成,提供视频转码、封装和分析功能。通过MCP协议与文件系统服务器配合,使Claude能访问和处理本地视频文件。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
yt-dlp-mcp是一个集成yt-dlp的MCP服务器实现,为LLMs提供视频和音频内容下载功能,支持多种平台如YouTube、Facebook、TikTok等。
一个基于MCP协议的YouTube视频搜索服务端,提供视频搜索、信息获取和字幕提取功能。
Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询功能
一个基于FastMCP的服务,利用Replicate和0x0.st实现YouTube/Bilibili视频的在线转录功能,提供带时间戳的文本输出和临时文件托管。
这是一个基于MCP协议的YouTube字幕提取服务器项目,提供本地和远程部署功能,支持通过VS Code或MCP Inspector工具与MCP主机/客户端连接,实现视频字幕的提取和处理。
Vidu MCP Server是一个基于Model Context Protocol的服务器,用于与Vidu视频生成API交互,提供图像转视频、生成状态检查和图像上传功能。
一个提供YouTube视频搜索、字幕提取和语义搜索功能的MCP服务器
基于Go开发的MCP服务器,支持SSE和stdio运行方式,提供B站个人信息查询、最新关注及视频搜索功能,助力AI个性化视频内容选择。
一个基于Google Gemini AI的MCP服务器,提供图像、音频和视频识别功能,支持多种传输方式和客户端集成。
这是一个基于Runway API的MCP服务器项目,允许用户通过Claude Desktop调用Runway的各种AI生成功能,包括视频生成、图像生成、视频编辑和超分辨率等工具。