12月18日,火山引擎在FORCE原动力大会上宣布,豆包大模型日均Tokens使用量已突破50万亿,位居中国第一、全球第三。同时,公司正式发布了豆包大模型1.8与视频生成模型Seedance1.5pro。豆包1.8在多模态Agent场景中深度优化,视觉理解能力显著提升,支持超长视频分析,并在工具调用和复杂指令遵循方面达到全球领先水平。
谷歌在实验应用Doppl中推出购物发现功能,通过AI生成视频展示真实产品,支持虚拟试穿。该功能根据用户分享的喜好和互动记录分析时尚偏好,提供个性化服装推荐,旨在帮助用户发现符合个人风格的时尚单品。
快手发布新一代多模态模型Keye-VL-671B-A37B并开源代码。该模型具备“善看会想”特性,在视觉理解、视频分析和数学推理等核心基准测试中表现优异,强化了视觉感知与跨模态对齐能力,展现快手在AI领域的技术实力。
前MrBeast内容策略师Jay Neo推出AI短视频工具Palo,定价250美元/月,已获380万美元投资。面向10万粉以上创作者,提供三大功能:AI自动分析账号生成热门脚本;实时监测视频数据与情绪曲线;智能标注内容“掉粉点”。基于18亿播放案例经验,助力高效创作。
适用于Mac的免费AI助手,可翻译、改写文本,下载视频,分析截图,提升生产力。
Monetize.ai可追踪分析多平台视频,助力升级视频策略
AI技术解锁图像和视频的力量,无需编码,支持全球100多个组织使用。
Trenz是一款AI驱动的平台,帮助您加速发展TikTok店铺,发现热门产品,追踪趋势,分析TikTok视频,并与高效能创作者联系。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
$7.7
$30.8
200
Anthropic
$105
$525
Google
$2.1
$17.5
$21
$0.7
Alibaba
$4
$16
$2
$20
-
$6
$24
256
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Moonshot
Bytedance
Baidu
32
$0.8
Shawon16
这是基于MCG-NJU/videomae-base模型在未知数据集上微调的视频理解模型,经过20个epoch的训练,在评估集上达到13.31%的准确率。该模型专门针对视频分析任务进行优化。
unsloth
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
TencentARC
ARC-Qwen-Video-7B是腾讯ARC实验室开发的用于理解现实世界短视频的多模态模型,基于Qwen2.5-VL-7B-Instruct构建,支持音视频同步分析和理解。
Qwen2.5-VL-72B-Instruct是Qwen家族的最新视觉语言模型,具备强大的视觉理解和视频分析能力,适用于金融、商业等多个领域。
Qwen2.5-VL是Qwen家族最新推出的视觉语言模型,具备强大的视觉理解和多模态处理能力,支持图像、视频分析和结构化输出。
chancharikm
基于Qwen2.5-VL-7B-Instruct微调的摄像机运动分析模型,专注于视频中的摄像机运动分类和视频-文本检索任务
NiklasTUM
基于MCG-NJU/videomae-base微调的视频分析模型,用于欺骗检测任务,准确率达70.37%
wwwyyy
TimeZero是一种基于推理引导的大规模视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计,通过强化学习方法实现动态视频-语言关系分析。
videophysics
VideoPhy2 是一个专注于视频物理常识理解的模型,旨在通过视频内容理解和分析物理现象。
HuggingFaceTB
轻量级多模态模型,专为分析视频内容设计,可处理视频、图像和文本输入以生成文本输出。
SmolVLM2-256M-Video是一款轻量级多模态模型,专为分析视频内容而设计,能够处理视频、图像和文本输入并生成文本输出。
SmolVLM2-2.2B 是一款轻量级多模态模型,专为分析视频内容而设计,可处理视频、图像和文本输入并生成文本输出。
shahadalll
基于MCG-NJU/videomae-base微调的视频分析模型,专注于异常行为检测任务
DAMO-NLP-SG
VideoRefer-7B是一个多模态大语言模型,专注于视频问答任务,能够理解和分析视频中的时空物体关系。
kanlo
基于VideoMAE基础模型微调的视频分析模型,专注于自闭症谱系障碍(ASD)相关的眼神接触识别任务
wisdomik
基于Quilt-1M病理视频数据集训练的CLIP ViT-B/16视觉语言基础模型,专注于病理学图像分析
基于Quilt-1M病理视频数据集训练的CLIP ViT-B/32视觉语言基础模型,专为病理组织学分析设计
shazab
基于VideoMAE基础模型在UCF-Crime数据集上微调的视频分析模型,用于异常行为检测
rahulbarua
基于VideoMAE基础模型在UCF-Crime数据集上微调的视频分析模型
通过yt-dlp下载YouTube字幕并通过MCP协议连接Claude.ai进行视频内容分析
YouTube视频分析MCP服务,提供转录提取、内容摘要和AI查询功能
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
一个为Claude设计的YouTube视频字幕获取与分析MCP服务器
TikTok MCP是一个集成TikTok访问功能的工具,通过TikNeuron为Claude AI等应用提供视频内容分析、字幕获取和帖子详情查询服务。
一个基于MCP协议的YouTube视频分析服务,提供字幕提取、视频搜索和频道信息获取功能。
Shaka Packager MCP服务器是一个实验性项目,将Shaka Packager视频处理工具与Claude AI应用集成,提供视频转码、封装和分析功能。通过MCP协议与文件系统服务器配合,使Claude能访问和处理本地视频文件。
一个AI驱动的视频编码辅助工具,通过MCP服务器连接Claude AI与编码工作流,提供智能错误解析、实时分析和自动化解决方案,减少人工干预。
YouTube数据MCP服务器,通过标准化接口实现AI语言模型与YouTube内容的交互
MCP Gemini API服务器是一个为Cursor和Claude设计的Google Gemini API代理服务,提供文本生成、图像分析、视频分析和网络搜索等功能。
一个基于Model Context Protocol的服务器工具,用于从YouTube视频中提取字幕文本,支持与Cursor和Claude Desktop集成,方便AI直接分析视频内容。
一个通过MCP协议获取YouTube视频字幕的服务器工具
一个基于Google Gemini和Vertex AI的AI视觉分析MCP服务器,支持图像和视频的多模态分析,提供对象检测、图像比较等功能,可集成到多种MCP客户端中。
YouTube MCP是一个基于AI的解决方案,旨在通过机器学习技术提升YouTube内容交互体验,支持视频搜索、字幕获取及语义搜索等功能,无需官方API。
TikTok MCP是一个集成TikTok访问功能的工具,支持分析视频流行因素、获取视频内容以及与视频互动,适用于Claude AI等应用。
基于Google Gemini Vision API的YouTube视频分析MCP服务,提供视频描述、摘要、问答和关键片段提取功能。
YouTube MCP服务器是一个通过YouTube Data API v3提供实时YouTube数据访问的综合模型上下文协议服务器,支持14种功能,包括视频详情获取、频道分析、内容评估和字幕提取等,适用于AI助手集成。
YouTube MCP服务器是一个实现模型上下文协议(MCP)的服务,为AI语言模型提供与YouTube内容交互的标准化接口,支持视频信息获取、字幕管理、频道和播放列表操作等功能。
YouTube MCP服务器是一个通过标准接口与YouTube数据交互的服务,提供视频、频道、评论和字幕的查询与分析功能。
Video Indexer MCP服务器,提供与Video Indexer API交互的工具和资源,支持从视频洞察生成提示内容并获取。