AIBase
首页
AI资讯
AI产品库
GEO平台
MCP服务
模型算力广场
ZH

AI资讯

查看更多

​阿里巴巴与南开大学携手推出视频大模型新型压缩技术LLaVA-Scissor

阿里巴巴与南开大学联合推出LLaVA-Scissor视频大模型压缩技术,采用基于图论的SCC算法,通过两步时空压缩策略(空间压缩识别语义区域+时间压缩去除跨帧冗余),显著降低token数量。实验显示,在50% token保留率下性能与原始模型相当,35%保留率时EgoSchema准确率达57.94%,有效解决了视频处理中的token激增和语义保留难题。(139字)

13.5k 4 天前
​阿里巴巴与南开大学携手推出视频大模型新型压缩技术LLaVA-Scissor

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日,由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V,专门针对多模态大模型的视觉推理能力进行测试。该基准的推出,旨在填补当前评估体系中对模型视觉输出能力的空白,以便更全面地了解现有模型的性能。RBench-V 基准测试包含803道题目,涉及多个领域,包括几何与图论、力学与电磁学、多目标识别和路径规划等。与以往只要求文字回答的评估不同,这次评测特别要求模型生成或修改图像内容,以支持推理过程。这意味着,模

15.7k 5 小时前
多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商务合作网站地图