快手可灵AI发布数字人模型Avatar2.0,用户仅需提供一张照片和一段音乐,即可生成长达5分钟的唱歌视频。该模型显著提升了数字人的表现力,使其能够自然展现表情和肢体动作,告别僵硬“对口型”模式。这标志着AI内容创作从静态向动态叙事的重大进步。
快手旗下可灵AI推出首个“音画同出”模型可灵2.6,能同时生成画面、语音、音效和环境氛围,打通音画世界。该模型提供“文生音画”和“图生音画”两种创作路径,用户可通过一句话或图片快速生成完整视频,提升创作体验。
AWS在re:Invent2025大会上推出四款自研“Nova2”系列大模型,覆盖文本、图像、视频、语音多模态场景,并首次内置网页检索与代码执行能力,宣称在价格性能比上达到业界领先。其中,Nova2 Lite定位高性价比推理,在多项基准测试中表现优于Claude Haiku4.5和GPT-5Mini,成本仅为后者约50%;Nova2 Pro则面向复杂Agent任务。
亚马逊云科技在2025年re:Invent大会上推出Nova2模型系列,包括四款新模型,在推理、多模态、对话AI、代码生成和Agent任务方面具备领先性价比。其中,Nova2Lite专为日常负载设计,支持文本、图像和视频输入并生成文本输出,是一款快速经济的推理模型。
免费AI生成器中心,50+模型在线创作图像、视频和音乐
S02AI基于Sora2模型,可从文本或图像生成带音频的高质量AI视频。
免费AI视频与图像创作平台,一键生成视频、图像,多种模型支持。
通过 AI 设计代理快速生成专业图像、视频和 3D 模型。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
Shawon16
这是一个基于VideoMAE-base架构微调的视频理解模型,专门针对手语识别任务进行优化。模型在WLASL数据集上训练了200个epoch,采用TimeSformer架构处理视频序列。
这是一个基于VideoMAE-base架构微调的视频理解模型,专门针对手语识别任务进行优化。模型在WLASL100数据集上训练了200个epoch,具备视频动作识别能力。
这是一个基于VideoMAE-base架构在未知数据集上微调的视频理解模型,专门用于手语识别任务。模型在20个训练周期后达到了18.64%的准确率。
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型,能够将文本查询、视觉文档(如图像、PDF)或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势,在ViDoRe基准测试中表现出色,同时显著减少了嵌入占用空间。
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
这是一个基于VideoMAE架构的视频理解模型,在Kinetics数据集预训练的基础上进行了微调,专门用于手语识别任务。模型在评估集上表现有待提升,准确率为0.0010。
lightx2v
本仓库包含为HunyuanVideo-1.5优化的4步蒸馏模型,能够在不使用CFG(无分类器指导)的情况下实现超快速的4步推理,显著减少生成时间,同时保持高质量的视频输出。
这是一个基于VideoMAE-base架构的视频理解模型,在未知数据集上进行了20个epoch的微调训练。模型在评估集上表现有限,准确率为0.0041,损失值为7.7839。
这是基于MCG-NJU/videomae-base模型在未知数据集上微调的视频理解模型,经过20个epoch的训练,在评估集上达到13.31%的准确率。该模型专门针对视频分析任务进行优化。
jayn7
腾讯混元视频1.5模型的量化GGUF版本,专门用于文本到视频生成任务,支持720P高清视频生成,提供多种量化精度版本以优化使用效率。
本项目提供腾讯混元视频1.5文本到视频模型的量化GGUF版本,支持480P视频生成任务,包含蒸馏模型和完整模型两个版本,可与ComfyUI-GGUF等工具配合使用。
本项目提供了腾讯HunyuanVideo-1.5-I2V-720p模型的量化GGUF版本,专门用于图像转视频和视频生成任务。该模型支持将静态图像转换为高质量视频内容,提供了多种量化版本以优化性能。
腾讯混元视频1.5模型的量化GGUF版本,专门用于图像转视频和视频生成任务。提供480P分辨率的蒸馏模型和标准模型,支持多种量化精度,包括Q4_K_S、Q8_0和FP16等。
为HunyuanVideo-1.5优化的量化模型,与LightX2V框架配合使用,在显著减少内存使用的同时保持高质量视频生成性能。
Justin331
SAM 3 是 Meta 推出的第三代可提示分割基础模型,统一支持图像和视频分割任务。相比前代 SAM 2,它引入了开放词汇概念分割能力,能够处理大量文本提示,在 SA-CO 基准测试中达到人类表现的 75-80%。
yaleiyaleichiling
首个真正开源、无限制的二次元视频生成模型,基于Wan2.2-5B架构,仅需6GB显存即可运行,能够生成惊艳的二次元动画内容
kayte0342
ChronoEdit-14B是NVIDIA开发的一款具备时间推理能力的图像编辑和世界模拟模型,拥有140亿参数。它通过两阶段推理过程实现物理感知的图像编辑和基于动作条件的世界模拟,从预训练视频生成模型中提炼先验知识。
tencent
混元视频-1.5是一款轻量级高性能视频生成模型,仅用83亿参数就能提供顶级的视频质量,显著降低了使用门槛。它能在消费级GPU上流畅运行,支持文本到视频和图像到视频生成,让每个开发者和创作者都能轻松使用。
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUF是基于quanhaol/Wan2.2-TI2V-5B-Turbo基础模型转换而来的图像转视频模型,经过优化可在4GB GPU上运行,具有出色的通用性和高效推理能力。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
Awesome MCP Security 是一个关于模型上下文协议(MCP)安全的资源集合,包括安全考虑、论文、视频、文章、工具和服务器等内容,旨在帮助用户了解和应对MCP相关的安全挑战。
YouTube MCP服务器是一个标准化接口实现,允许AI语言模型通过协议与YouTube内容进行交互,提供视频信息获取、字幕管理、频道和播放列表管理等功能。
腾讯云COS MCP Server是一个基于MCP协议的服务,无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力,提供文件上传下载、图片处理、视频截帧等云端存储与处理功能。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询功能
YouTube MCP服务器是一个工具,用于从YouTube视频中获取和提取字幕,使AI语言模型能够访问和处理视频内容。
360 AI 云盘 MCP 服务实现,允许 AI 模型通过标准协议与云盘交互,提供文件管理、上传下载、视频处理等智能操作能力。
Luma API MCP是一个提供图像和视频生成服务的项目,用户可以通过API密钥接入,支持多种比例、模型和分辨率选项,并能通过参考图像或视频关键帧控制生成效果。
一个基于MCP协议的视频音频文本提取服务器,支持从多平台下载视频并利用Whisper模型进行语音转文字处理
基于MCP协议的Pixabay API服务,为AI模型提供图片和视频搜索功能。
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。
YouTube MCP服务器是一个通过YouTube Data API v3提供实时YouTube数据访问的综合模型上下文协议服务器,支持14种功能,包括视频详情获取、频道分析、内容评估和字幕提取等,适用于AI助手集成。
腾讯云COS MCP Server是一个无需编码即可让大模型快速接入腾讯云存储(COS)和数据万象(CI)能力的服务,提供文件上传下载、图片处理、视频处理等云端存储与处理功能。
YouTube MCP服务器是一个实现模型上下文协议(MCP)的服务,为AI语言模型提供与YouTube内容交互的标准化接口,支持视频信息获取、字幕管理、频道和播放列表操作等功能。
一个基于fal.ai API的MCP服务器,用于生成图像和视频,支持扩展不同模型和API端点。
Supadata MCP服务器是一个集成Supadata视频和网页抓取能力的模型上下文协议服务器实现,提供视频转录提取、网页抓取、爬取和发现功能,支持自动重试和速率限制。
该项目为Pixeltable的多模态模型上下文协议服务器集合,提供音频、视频、图像和文档的索引与查询服务,支持Docker本地部署。