百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
快手旗下可灵AI在2026年初实现爆发式增长,月活跃用户突破1200万,App付费用户环比激增350%。增长主要得益于产品快速迭代,包括2025年底发布的多模态视频模型O1和“音画同出”功能,以及2026年1月推出的“动作控制”新功能,用户可通过图片和动作参考生成视频。
谷歌扩大AI视频工具Flow的访问范围,向商务、企业及教育版Workspace用户开放。该工具搭载Veo3.1模型,可根据文本或图像生成8秒视频片段,支持拼接成更长场景。
Google DeepMind旗下AI视频生成模型Veo3.1迎来重大更新,核心优化“Ingredients to Video”功能,显著提升人物、物体、纹理与背景的一致性,新增原生竖版输出和专业级4K超分能力,使AI视频从演示工具升级为实用生产工具。
Crevid是在线AI视频与图像生成器,支持多种模型创作高质量内容。
Conut.ai是AI图像与视频生成平台,提供多种前沿AI模型。
Vidzoo AI免费生成高分辨率AI视频和图像,多模型集成一键生成
AI视频与图像工作室,支持文生视频、图生视频,多模型统一工作流
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
citizenplain
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务。该模型使用AI Toolkit训练,为视频生成应用提供支持。
hyperchainsad
这是一个基于Wan2.2-T2V-A14B基础模型训练的文本到视频LoRA模型,使用AI Toolkit工具包进行训练,专门用于增强文本到视频的转换能力。
synap5e
这是一个基于AI Toolkit by Ostris训练的文本到视频LoRA模型,使用Wan2.2-T2V-A14B作为基础模型,支持文本到视频的转换任务,为相关领域的应用提供了强大的支持。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
spamnco
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务,为图像生成提供增强功能。该模型使用AI Toolkit训练,需要特定的触发词'diddly'来激活图像生成。
BarleyFarmer
natalie_wan_2.2-lora 是基于 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于文本到视频转换任务,能够有效提升图像生成的质量和效果。
MartinSSSTSGH
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的图像生成任务,使用触发词'Lilly'来生成特定风格的图像内容。
Mark111111111
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换,为图像生成带来新的体验。该模型需要配合基础模型Wan2.2-T2V-A14B使用。
Ashmotv
animat3d_style_wan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频生成,可为图像生成带来独特的3D动画风格效果。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种主流AI平台使用。
LL1999
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换任务。模型采用Safetensors格式,支持在ComfyUI、AUTOMATIC1111等多种平台使用。
LiseTY
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频转换任务。该模型基于Wan2.2-T2V-A14B基础模型进行微调,支持多种AI工具和框架。
Isshywondertwin
Alexis_Noir_Wan2.2-lora 是使用 AI Toolkit by Ostris 训练的 LoRA 模型,专门用于图像到视频转换任务。该模型基于 Wan2.2-I2V-A14B 基础模型,支持高分辨率图像生成。
bigdoinks420518
这是一个使用AI Toolkit by Ostris训练的LoRA模型,基于Wan-AI/Wan2.1-T2V-14B-Diffusers基础模型,主要用于文本到视频生成,在图像生成领域有独特应用价值。
EightiesPower
bl00dsqibWan22-lora是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于图像到视频处理任务,为图像和视频处理领域提供了新的解决方案。
deadpoolx22
这是一个基于AI技术的文本到视频LoRA模型,专门针对alita角色进行优化训练,可用于图像生成等场景,为相关领域的应用提供了便利。
jude1903
AJWWan22-lora 是一个基于文本生成视频的LoRA模型,通过AI Toolkit进行训练,专门用于图像生成任务。该模型需要特定的触发词来激活生成功能。
fraemwerk
这是一个基于Wan2.1-T2V-14B模型的文本到视频LoRA适配器,使用AI Toolkit训练,专注于图像生成任务,需要特定触发词'fraemwerk'来激活生成功能。
这是一个基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频的转换任务。模型基于Wan2.2-T2V-A14B架构,支持高分辨率图像生成。
xreborn
ohwx2_wan-lora是一个基于文本生成视频的LoRA模型,使用AI Toolkit训练,专门用于图像生成任务,需要特定触发词'ohwx girl'来激活生成效果。
YouTube MCP服务器是一个标准化接口实现,允许AI语言模型通过协议与YouTube内容进行交互,提供视频信息获取、字幕管理、频道和播放列表管理等功能。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
YouTube MCP服务器是一个工具,用于从YouTube视频中获取和提取字幕,使AI语言模型能够访问和处理视频内容。
360 AI 云盘 MCP 服务实现,允许 AI 模型通过标准协议与云盘交互,提供文件管理、上传下载、视频处理等智能操作能力。
Media Gen MCP 是一个严格遵循TypeScript和MCP规范的服务器,专注于使用OpenAI和Google的AI模型生成和编辑图像与视频。它提供了一系列工具,包括图像生成/编辑、视频创建/混音、文件获取与处理,并支持智能资源链接和内联输出,适用于各种MCP兼容客户端。
基于MCP协议的Pixabay API服务,为AI模型提供图片和视频搜索功能。
YouTube MCP服务器是一个通过YouTube Data API v3提供实时YouTube数据访问的综合模型上下文协议服务器,支持14种功能,包括视频详情获取、频道分析、内容评估和字幕提取等,适用于AI助手集成。
YouTube MCP服务器是一个实现模型上下文协议(MCP)的服务,为AI语言模型提供与YouTube内容交互的标准化接口,支持视频信息获取、字幕管理、频道和播放列表操作等功能。
CloudGlue MCP服务是一个连接AI助手与视频数据的桥梁,通过结构化处理视频内容,使其能被大型语言模型理解和使用。
一个基于YouTube数据API的MCP服务器实现,为AI语言模型提供标准化接口来访问YouTube内容,包括视频信息、字幕管理、频道分析和趋势分析等功能。
YouTube视频字幕提取MCP服务器,支持多语言字幕获取,方便AI模型如Claude直接使用视频字幕内容。