纽约Kaltura公司以约2700万美元收购以色列初创企业eSelf.ai。eSelf专注开发可对话的AI生成数字人技术,其产品将整合至Kaltura的企业视频与学习工具中。该公司成立于2023年,创始团队曾成功将前创业公司出售给Snap。
智元机器人在程序员节推出“灵创”平台,主打零代码、零门槛的人形机器人内容创作。用户无需编程基础,上传人类动作视频即可通过AI动作捕捉和云端模仿学习,让机器人精准复现动作,实现简易机器人“导演”体验。
谷歌NotebookLM集成Nano Banana图像生成模型,实现从文本处理到多模态创作的升级,用户可将笔记转化为视频,提升学习与创作效率。本周起向Pro用户逐步推送,预计数周内全面覆盖。
Google DeepMind的Veo3视频生成模型在测试中展现出超预期的多任务处理潜力,被视为视觉AI里程碑。其核心突破在于零样本学习能力,无需专门训练即可应对多种复杂视觉任务,体现了强大的泛化性能。
AI视频摘要,创意学习路径,商业想法,提高10倍的生产力。
VideoTutor是一款AI驱动的工具,根据用户提出的问题生成动画、语音引导的学习视频。
一个基于深度学习的图像和视频描述模型。
使用 AI 将 YouTube 视频和 PDF 文档转换为详细学习笔记。
Kwai-Keye
快手Keye-VL是由快手Keye团队打造的前沿多模态大语言模型,在视频理解、视觉感知和推理任务中表现卓越。1.5版本通过创新的快慢视频编码策略、LongCoT冷启动数据管道和强化学习训练策略,在视频理解、图像感知和推理能力上达到新高度,支持长达128k标记的扩展上下文长度。
ByteDance
ContentV是一个高效的视频生成模型框架,通过极简架构、多阶段训练策略和经济高效的强化学习框架,在有限计算资源下实现高质量视频生成。
facebook
感知编码器是通过简单视觉-语言学习训练的最先进的图像和视频理解编码器,在多种视觉任务上实现了最先进的性能。
Zhang199
TinyLLaVA-Video-R1是基于可溯源训练模型TinyLLaVA-Video的小规模视频推理模型,通过强化学习显著提升了推理与思维能力,并展现出'顿悟时刻'的涌现特性。
nvidia
Eagle 2.5是一款前沿的视觉语言模型(VLM),专为长上下文多模态学习设计,支持处理长达512帧的视频序列和高分辨率图像。
感知编码器(PE)是通过简单视觉语言学习训练的最先进的图像和视频理解编码器。
感知编码器(PE)是一种通过视觉-语言学习训练而成的先进图像与视频理解编码器,在多种视觉任务上具有最先进性能。
感知编码器(PE)是通过简单视觉-语言学习训练出的最先进的图像与视频理解编码器,在多种视觉任务上均达到最先进性能。
wwwyyy
TimeZero是一种基于推理引导的大规模视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计,通过强化学习方法实现动态视频-语言关系分析。
TimeZero是一种基于推理引导的大型视觉语言模型(LVLM),专为时间视频定位(TVG)任务设计,通过强化学习方法实现视频中与自然语言查询相对应的时序片段识别。
OpenGVLab
VideoMAEv2-giant是一个基于自监督学习的超大规模视频分类模型,采用双掩码策略进行预训练。
VideoMAEv2-Huge是一个基于自监督学习的视频特征提取模型,在UnlabeldHybrid-1M数据集上进行了1200轮预训练。
VideoMAEv2-Base是基于自监督学习的视频特征提取模型,采用双重掩码机制在UnlabeldHybrid-1M数据集上预训练。
aidealab
基于CC-BY、CC-0等授权图像学习的日语/英语文本到视频生成模型,由日本经济产业省GENIAC计划支持开发
Fudan-FUXI
CogVideoX-2B-LiFT是基于奖励加权学习方法对CogVideoX-1.5进行微调的文本到视频生成模型
jhshao
ChronoDepth是基于视频扩散先验的时序一致视频深度学习方法,能够从视频中学习并预测深度信息。
sparklexfantasy
这是一个专注于图像文本到文本处理的多模态伪造表征学习模型,用于检测扩散生成的视频内容,通过多模态特征学习识别深度伪造内容。
InternVideo2-Chat-8B-HD 是一个结合了大型语言模型和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够处理高清视频输入。
InternVideo2-Chat-8B是一个结合大型语言模型(LLM)和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够进行视频语义理解和人机交互。
kpyu
针对第一人称视角视频优化的视觉语言模型,采用EILEV创新训练方法激发上下文学习能力
YouTube MCP是一个基于AI的解决方案,旨在通过机器学习技术提升YouTube内容交互体验,支持视频搜索、字幕获取及语义搜索等功能,无需官方API。
一个将YouTube转化为可查询知识源的MCP服务,提供视频搜索、详情获取、内容分析等功能,并支持通过AI进行摘要生成、学习路径规划等高级操作。