中国电信人工智能研究院发布GVC生成式视频压缩技术,压缩率可达0.02%,1GB视频仅需传输约200KB数据即可还原清晰画质。其核心是“用计算换带宽”,区别于传统编码的“搬运像素”逻辑,通过AI模型学习视频内容特征,在接收端智能重建画面,大幅降低传输数据量,有望革新视频存储与流媒体传输。
机器人公司1X发布“1X世界模型”AI模型,旨在让Neo人形机器人通过理解物理动态实现自主学习,超越预设程序。该模型结合视频数据与提示词,使机器人具备学习未训练任务的能力,推动商业化进程。
抖音报告显示,用户对科技内容需求显著上升,全年播放量超1.4万亿次,人均日观看超六次。深度科技内容尤其受欢迎,30分钟以上中长视频观看量增长明显。
网易有道推出AI学习硬件“有道AI答疑笔Space X”新功能,实现国内首个生成式AI“视频答疑”。该功能突破传统文本推理,能针对各学科问题生成动态板书视频讲解,标志着AI学习硬件进入生成式视频交互新阶段。
专注AI视频的开源社区,可创建、分享、学习及复刻爆款视频
AI Takeaway将AI与投资视频提炼成摘要、要点等,助投资者快速学习。
AI视频摘要,创意学习路径,商业想法,提高10倍的生产力。
VideoTutor是一款AI驱动的工具,根据用户提出的问题生成动画、语音引导的学习视频。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$2.1
$17.5
Alibaba
$2
$20
-
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
$15.8
$12.7
$0.8
256
Baidu
Tencent
24
Deepseek
$4
$16
32
Iflytek
Kwai-Keye
快手Keye-VL是由快手Keye团队打造的前沿多模态大语言模型,在视频理解、视觉感知和推理任务中表现卓越。1.5版本通过创新的快慢视频编码策略、LongCoT冷启动数据管道和强化学习训练策略,在视频理解、图像感知和推理能力上达到新高度,支持长达128k标记的扩展上下文长度。
ByteDance
ContentV是一个高效的视频生成模型框架,通过极简架构、多阶段训练策略和经济高效的强化学习框架,在有限计算资源下实现高质量视频生成。
facebook
感知编码器是通过简单视觉-语言学习训练的最先进的图像和视频理解编码器,在多种视觉任务上实现了最先进的性能。
Zhang199
TinyLLaVA-Video-R1是基于可溯源训练模型TinyLLaVA-Video的小规模视频推理模型,通过强化学习显著提升了推理与思维能力,并展现出'顿悟时刻'的涌现特性。
nvidia
Eagle 2.5是一款前沿的视觉语言模型(VLM),专为长上下文多模态学习设计,支持处理长达512帧的视频序列和高分辨率图像。
感知编码器(PE)是通过简单视觉语言学习训练的最先进的图像和视频理解编码器。
感知编码器(PE)是一种通过视觉-语言学习训练而成的先进图像与视频理解编码器,在多种视觉任务上具有最先进性能。
感知编码器(PE)是通过简单视觉-语言学习训练出的最先进的图像与视频理解编码器,在多种视觉任务上均达到最先进性能。
wwwyyy
TimeZero是一种基于推理引导的大规模视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计,通过强化学习方法实现动态视频-语言关系分析。
TimeZero是一种基于推理引导的大型视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计,通过强化学习方法实现视频中与自然语言查询相对应的时序片段识别。
OpenGVLab
VideoMAEv2-giant是一个基于自监督学习的超大规模视频分类模型,采用双掩码策略进行预训练。
VideoMAEv2-Huge是一个基于自监督学习的视频特征提取模型,在UnlabeldHybrid-1M数据集上进行了1200轮预训练。
VideoMAEv2-Base是基于自监督学习的视频特征提取模型,采用双重掩码机制在UnlabeldHybrid-1M数据集上预训练。
aidealab
基于CC-BY、CC-0等授权图像学习的日语/英语文本到视频生成模型,由日本经济产业省GENIAC计划支持开发
Fudan-FUXI
CogVideoX-2B-LiFT是基于奖励加权学习方法对CogVideoX-1.5进行微调的文本到视频生成模型
jhshao
ChronoDepth是基于视频扩散先验的时序一致视频深度学习方法,能够从视频中学习并预测深度信息。
sparklexfantasy
这是一个专注于图像文本到文本处理的多模态伪造表征学习模型,用于检测扩散生成的视频内容,通过多模态特征学习识别深度伪造内容。
InternVideo2-Chat-8B-HD 是一个结合了大型语言模型和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够处理高清视频输入。
InternVideo2-Chat-8B是一个结合大型语言模型(LLM)和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够进行视频语义理解和人机交互。
kpyu
针对第一人称视角视频优化的视觉语言模型,采用EILEV创新训练方法激发上下文学习能力
YouTube MCP是一个基于AI的解决方案,旨在通过机器学习技术提升YouTube内容交互体验,支持视频搜索、字幕获取及语义搜索等功能,无需官方API。
一个将YouTube转化为可查询知识源的MCP服务,提供视频搜索、详情获取、内容分析等功能,并支持通过AI进行摘要生成、学习路径规划等高级操作。