3B模型在性能上超越了Meta的7B模型,对于超长视频内容的理解能力达到了当前领域的最高水平,刷新了行业纪录!
上海交通大学、北京智源研究院以及特伦托大学的科研人员共同研发了Video-XL-Pro,该系统具备在一块显卡上处理近万帧视频的能力,其在大海捞针般的检索任务中,准确率达到了惊人的98%以上。
现有的多模态大型模型在超长视频的训练与运用过程中仍遭遇诸多难题:一方面,大规模训练超长视频变得相当困难;另一方面,在处理长视频的过程中,模型仍需应对性能不佳和效率低下的问题。
针对这一问题,Video-XL-Pro项目采用了“重构式token压缩”的创新技术,同时利用较少的训练数据,在多个基准评测中取得了显著成果,成功超越了Meta之前发布的7B模型Apollo-7B,以及与自身尺寸相当的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等。值得一提的是,该项目已将代码、模型和训练数据全部开源。
模型结构
Video-XL-Pro的精髓在于其创新性的ReCoT(重构性token压缩)技术,该技术借助自监督学习手段,能够生成既全面又精炼的视频token,从而显著增强了视频内容理解的效率和整体质量。
ReCoT系统由两个核心部分构成,分别是动态标记生成器(DTS)以及语义导向掩码(SGM)。
DTS运用轻巧的时空注意力模块对token进行压缩处理,从而高效地捕捉视频中的动态动作;与此同时,SGM采用自适应掩码技术,降低了视觉token的冗余,进而提升了重构学习过程的优化效果。
这些独特的创新设计使得该模型即便在参数量仅为3B的情况下,其表现也超越了众多参数量达到7B的模型。
此外,为了提升模型对超长视频内容的解析水平,模型特别加入了查询选择机制,这样当输入的视频上下文长度超出既定限制时,模型能够有针对性地聚焦并检索与特定内容相关的部分。
为了增强训练的效率,该研究团队还提出了一种针对视频数据集的剪枝方法。
通过精心筛选出高标准的视频资料,这些技术手段有效地减少了计算的开销,并且在确保模型性能不受影响的前提下,实现了成本的大幅降低。
评测基准
Video-XL-Pro采用了多种主流的视频理解评估标准,对模型进行了全方位的评估。在长视频理解方面,它对LongVideoBench、MLVU、Video-MME、TempCompass以及VNbench等评测基准进行了测试。
MLVU、VideoMME以及LongVideoBench这三项评测均聚焦于对模型在长视频理解方面的评估。
VNbench旨在同时考虑长视频和短视频的特点,而TempCompass专注于评估模型对视频中时间信息的理解能力。
如表1所示,Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。
在MLVU的Dev、Test以及TempCompass三个平台上,Video-XL-Pro模型均荣获了冠军头衔,不仅超越了参数量相同的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等,还超越了众多7B模型,其中包括Meta公司发布的Apollo-7B模型等。
在VideoMME、LongVideoBench以及Video-XL-Pro中,这些模型的表现超越了绝大多数参数量相近的同类模型,并且它们的性能已经与参数量为7B的模型相媲美。
在VNbench平台上,Video-XL-Pro同样实现了颇具竞争力的成绩,这表明该模型在提升对长视频理解力的同时,亦能保持对短视频处理能力的平衡。
值得注意的是,VIdeo-XL-Pro在训练过程中仅使用了相对较少的SFT数据,具体为1M,这一数量低于Apollo的3.2M,更是远逊于Qwen2.5-VL、InternVL2.5等知名开源模型,这一现象进一步印证了该方法的有效性。
Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。
得益于ReCot模块及查询选择器的巧妙设计,模型得以处理极为庞大的上下文序列。即便在硬件配置不变的情况下,它也能以8192帧作为输入,实现了高达近99%的准确度。
时间理解
为了更全面地衡量模型的表现,我们采用了传统的视频时间评估标准Charades-STA,以及最新推出的长视频时间评估标准V-STaR。
V-STaR专注于从极长的视频中识别出与问题相关的具体片段,并且能够精确地指出这些片段在视频中的时间范围。然而,目前公开的模型在V-STaR任务上表现不佳,即便是表现较为出色的Qwen2.5-VL-7B,其mIoU得分也只有11.48。
Video-XL-Pro-3B在V-STaR长视频时间基准测试中取得了25.07的mIoU得分,即便在IoU超过0.7的情况下,其准确率也能达到15.58,这一成绩显著超过了众多知名的开源模型,如InternVL2.5-8B和Qwen2.5-VL-7B,并且还超越了前一代的冠军模型Video-LLaMA3,充分展示了其在长视频时间理解方面的卓越能力。此外,在Charades-STA测试中,它也表现出了相当不错的成绩。
总结
这项研究引入了Video-XL-Pro模型,该模型通过自监督学习技术对视觉标记进行压缩。即便是在相对较少的数据量下,仅用训练了3B参数的模型,其性能也能超越绝大多数7B参数的模型。
Video-XL-Pro在众多主流的长视频理解测试中取得了出色的成绩。
该模型预计将在众多涉及长视频内容理解的实际应用领域发挥重要作用,并有望成为高效的长视频解析助手。
目前,该模型、相关代码以及训练数据均已对外公布,旨在推动长视频理解领域的协作与进步。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275862.html