Adobe升级AI服务,Firefly订阅用户现可无限量生成图像和视频,并整合Google、GPT、Runway等外部顶尖模型,功能全面升级。
蚂蚁灵波科技开源具身世界模型LingBot-VA,首次提出自回归视频-动作世界建模框架,将视频生成与机器人控制深度融合。模型可同步生成未来世界状态并输出动作序列,实现“边推演、边行动”。真机评测显示,该模型能有效应对复杂物理交互任务。
字节跳动与阿里巴巴计划在春节前后发布新一代底层模型技术,竞争进入白热化。字节跳动将推出三款核心模型,涵盖语言处理、图像生成及视频领域,挑战市场格局。
昆仑万维开源视频生成大模型SkyReels-V3,实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入,能精准保留主体身份与构图,推动视频生成技术进入高保真、多模态新阶段。
用多AI模型生成图像、编辑照片、由图像创建视频,结果快速高质。
NewYouGo是免费AI图像与视频生成平台,用先进模型秒速创建高质量视觉内容。
免费AI视频与图像平台,集成多模型,可创作视频、图像、音乐等
Crevid是在线AI视频与图像生成器,支持多种模型创作高质量内容。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
rujutashashikanjoshi
这是一个基于YOLOv12 Medium架构,在自定义数据集上微调的目标检测模型。该模型专门用于高效、准确地检测图像或视频中的无人机目标,为计算机视觉应用提供支持。
Shawon16
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集上预训练,并在一个未知的、可能与手语识别相关的数据集上进行了微调。模型在评估集上取得了78.11%的准确率,适用于视频分类任务。
这是一个基于VideoMAE-base架构微调的视频理解模型,专门针对手语识别任务进行优化。模型在WLASL数据集上训练了200个epoch,采用TimeSformer架构处理视频序列。
这是一个基于VideoMAE-base架构微调的视频理解模型,专门针对手语识别任务进行优化。模型在WLASL100数据集上训练了200个epoch,具备视频动作识别能力。
这是一个基于VideoMAE-base架构在未知数据集上微调的视频理解模型,专门用于手语识别任务。模型在20个训练周期后达到了18.64%的准确率。
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型,能够将文本查询、视觉文档(如图像、PDF)或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势,在ViDoRe基准测试中表现出色,同时显著减少了嵌入占用空间。
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集预训练的基础上进行了微调,专门用于手语识别任务。模型在评估集上表现有待提升,准确率为0.0010。
lightx2v
本仓库包含为HunyuanVideo-1.5优化的4步蒸馏模型,能够在不使用CFG(无分类器指导)的情况下实现超快速的4步推理,显著减少生成时间,同时保持高质量的视频输出。
这是一个基于VideoMAE-base架构的视频理解模型,在未知数据集上进行了20个epoch的微调训练。模型在评估集上表现有限,准确率为0.0041,损失值为7.7839。
这是基于MCG-NJU/videomae-base模型在未知数据集上微调的视频理解模型,经过20个epoch的训练,在评估集上达到13.31%的准确率。该模型专门针对视频分析任务进行优化。
jayn7
腾讯混元视频1.5模型的量化GGUF版本,专门用于文本到视频生成任务,支持720P高清视频生成,提供多种量化精度版本以优化使用效率。
本项目提供腾讯混元视频1.5文本到视频模型的量化GGUF版本,支持480P视频生成任务,包含蒸馏模型和完整模型两个版本,可与ComfyUI-GGUF等工具配合使用。
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
为HunyuanVideo-1.5优化的量化模型,与LightX2V框架配合使用,在显著减少内存使用的同时保持高质量视频生成性能。
Justin331
SAM 3 是 Meta 推出的第三代可提示分割基础模型,统一支持图像和视频分割任务。相比前代 SAM 2,它引入了开放词汇概念分割能力,能够处理大量文本提示,在 SA-CO 基准测试中达到人类表现的 75-80%。
yaleiyaleichiling
首个真正开源、无限制的二次元视频生成模型,基于Wan2.2-5B架构,仅需6GB显存即可运行,能够生成惊艳的二次元动画内容
kayte0342
ChronoEdit-14B是NVIDIA开发的一款具备时间推理能力的图像编辑和世界模拟模型,拥有140亿参数。它通过两阶段推理过程实现物理感知的图像编辑和基于动作条件的世界模拟,从预训练视频生成模型中提炼先验知识。
tencent
混元视频-1.5是一款轻量级高性能视频生成模型,仅用83亿参数就能提供顶级的视频质量,显著降低了使用门槛。它能在消费级GPU上流畅运行,支持文本到视频和图像到视频生成,让每个开发者和创作者都能轻松使用。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
YouTube MCP服务器是一个标准化接口实现,允许AI语言模型通过协议与YouTube内容进行交互,提供视频信息获取、字幕管理、频道和播放列表管理等功能。
Awesome MCP Security 是一个关于模型上下文协议(MCP)安全的资源集合,包括安全考虑、论文、视频、文章、工具和服务器等内容,旨在帮助用户了解和应对MCP相关的安全挑战。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
360 AI 云盘 MCP 服务实现,允许 AI 模型通过标准协议与云盘交互,提供文件管理、上传下载、视频处理等智能操作能力。
YouTube MCP服务器是一个工具,用于从YouTube视频中获取和提取字幕,使AI语言模型能够访问和处理视频内容。
Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询功能
一个基于MCP协议的视频音频文本提取服务器,支持从多平台下载视频并利用Whisper模型进行语音转文字处理
Luma API MCP是一个提供图像和视频生成服务的项目,用户可以通过API密钥接入,支持多种比例、模型和分辨率选项,并能通过参考图像或视频关键帧控制生成效果。
Media Gen MCP 是一个严格遵循TypeScript和MCP规范的服务器,专注于使用OpenAI和Google的AI模型生成和编辑图像与视频。它提供了一系列工具,包括图像生成/编辑、视频创建/混音、文件获取与处理,并支持智能资源链接和内联输出,适用于各种MCP兼容客户端。
该项目扩展了视频语音识别功能,从仅支持本地Whisper模型,新增支持简影和B站剪辑的在线语音识别服务,提供了灵活的多服务选择架构。
基于MCP协议的Pixabay API服务,为AI模型提供图片和视频搜索功能。
腾讯云COS MCP Server是一个无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力的服务,提供文件上传下载、图片处理、视频处理等云端存储与处理功能。
YouTube MCP服务器是一个通过YouTube Data API v3提供实时YouTube数据访问的综合模型上下文协议服务器,支持14种功能,包括视频详情获取、频道分析、内容评估和字幕提取等,适用于AI助手集成。
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。
YouTube MCP服务器是一个实现模型上下文协议(MCP)的服务,为AI语言模型提供与YouTube内容交互的标准化接口,支持视频信息获取、字幕管理、频道和播放列表操作等功能。
一个基于fal.ai API的MCP服务器,用于生成图像和视频,支持扩展不同模型和API端点。