《赵波-多模态大模型时空感知理解能力前沿进展.pdf》由会员分享,可在线阅读,更多相关《赵波-多模态大模型时空感知理解能力前沿进展.pdf(49页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:赵波101020304长视频理解评测集 MLVU 长视频理解大模型 Video-XL 空间理解大模型 SpatialBot时空理解评测集 STI-Bench2014视频内容理解情节动作推理长视频的挑战信息量大信息冗余度高模型上下文有限5存在的问题:视频短且简单分类任务为主缺乏细节任务视频主题单一缺乏复杂问题6MLVU:Benchmarking Multi-task Long Video Understanding.Zhou et al.CVPR 2025.78910111272B7B1314151 Long Context Compression with Activation Bea
2、con.A plug-in module for transformer-basedLLMs to enable effective,efficient,and flexible compression of long contexts.推理前的 Token 压缩/挑选 会带来严重的信息损失利用 LLM 固有的 Next-token Prediction 能力实现视觉语义 Token 压缩Video-XL:Towards Vision Language Models For Extra-Long Video Understanding.Shu et al.CVPR 2025 Oral1617
3、Partition tokens into intervals Interleaving visual summarization tokens(VSTs)Encoding(i+1)Intervals by the KVs of previous VSTs18人工校验后:20k QAs19202122FramesFrames23在MLVU上不同固定帧压缩率下模型性能24252627280229仅用 RGB 图片无法精确感知距离30 传统 MLLM 未见过深度图 传统 MLLM 未在深度相关任务上训练过 传统多模态数据集缺乏深度相关数据31SpatialBot:Precise Spatial U
4、nderstanding with Vision Language Models.Cai et al.ICRA 20253233343536373839STI-Bench:Are MLLMs Ready for Precise Spatial-Temporal World Understanding?Li et al.2025 arXiv40414243444546Information condensation is the most important for long video understanding.Spatial and Temporal Intelligence(STI)remains largely underexplored.47探索 AI 应用边界Explore the limitsof AI applications49