1. 首页>>分享

ZPressor助力3D高斯泼溅模型,突破多视图输入瓶颈,提升渲染效率?

新智元导语:ZPressor技术能够有效对3D高斯泼溅模型的多视角输入进行压缩,克服了密集视图处理中的性能限制,从而提高了渲染的速度与品质。它基于信息瓶颈理论,将视角划分为核心点和辅助集合,通过交叉注意力机制对信息进行压缩,大幅减少了内存消耗和推理所需时间,进而提升了整体性能,使得3DGS即便在大量视角输入的情况下也能保持高效运行。

在增强现实以及虚拟现实等尖端应用场景中,新视角合成技术(Novel View Synthesis,简称NVS)正逐渐显现出其至关重要的地位。

近年来,一种名为3D高斯泼溅(3D Gaussian Splatting,简称3DGS)的技术崭露头角,它凭借其创新性的实时渲染功能以及出色的视觉效果,迅速在NVS领域实现了重大突破。

然而,传统3DGS在应用中受到“逐场景优化”这一耗时过程的极大制约,这极大地限制了其部署的可行性。与之不同,前馈3DGS(Feed-Forward 3DGS)则通过一次性的前向推理过程,直接获取场景的三维数据。

这种发展似乎解决了关键问题,然而随之而来的困难却使得它在“多角度”面前举步维艰;目前的前馈3DGS模型在应对密集的输入视角时,其扩展性遭遇了根本性的限制。

对当前的前馈3DGS模型结构进行深入剖析,我们发现其根本问题在于编码器所能容纳信息的局限性。随着输入视图的增多,编码器面临的信息量激增问题愈发严重,进而使得计算所需的成本急剧上升。

这一现象并非偶然发生,其根本原因在于场景总信息量中,即所有视图特征的联合熵里,充斥着大量不必要的冗余信息。在完成特征提取的过程后,如何有效剔除这些无关紧要的信息,同时确保其预测效能不受影响,成为了高效运用输入视图信息的关键所在。

以深度分割模型DepthSplat为参照,实验数据明确显示,当输入的视图数量提升后,该模型的表现力明显减弱,并且其计算所需资源也随之大幅增加。

在处理36个输入视图的过程中,DepthSplat的PSNR等性能指标会出现明显下降,同时,推理所需时间和内存消耗也将显著提升。这一现象揭示了信息过载与模型性能、资源消耗之间的直接联系:过多的多余信息不仅减缓了处理进程,还严重影响了最终渲染效果的质量。

浙江大学的研究团队推出了ZPressor,这是一个易于安装的轻量级模块。它能够压缩前馈3DGS特征,从而提升模型的密集视角扩展性和性能。在36个输入视图的情况下,该模块可以将性能提升至4.65dB,同时将推理时间缩短70%,显存占用降低80%。此外,它还能将可输入的视图数量扩展至接近500个。

该论文的链接为:https://www.arxiv.org/abs/2505.23734,读者可通过此网址获取详细内容。

项目访问地址:请点击此处进入——https://lhmd.top/zpressor

请访问以下代码仓库以获取ZPressor的相关信息:https://github.com/ziplab/ZPressor。

为了深入理解和有效应对信息过载现象,研究者们采纳了信息瓶颈(Information Bottleneck,简称IB)的理论概念。

IB原理为学习紧凑型表示奠定了稳固的理论基础,其核心理念在于:从输入数据(X)中提炼出一个紧凑的表示(Z),力求使Z最大限度地保留与目标(Y)相关的信息,并尽可能多地压缩X中与Y无关的部分。

可以明确看出,IB原则的核心目标在于尽量减少所谓的“压缩分数”——也就是Z所携带的关于X的信息含量——并且尽可能提升“预测分数”——即Z对预测目标Y所提供的有用信息量。

这一原理为3DGS所遭遇的“信息过载”这一“甜蜜的负担”提供了理论上的缓解途径。

基于对信息瓶颈机制的认识,研究者们设计并推出了ZPressor,这是一种既轻巧又具备「架构独立性」特性的模块。

ZPressor的核心作用是高效地将多个视角的输入数据压缩成一个紧凑的潜在状态Z。这种压缩并非简单地去弃信息,而是巧妙地保留了场景中的关键信息。同时,它还能有效地去除冗余信息。这样一来,它直接解决了前向式3DGS模型长期存在的“信息过载”问题。

三步走,打造高效「信息压缩机」

ZPressor的独到之处在于它将信息压缩的繁复过程细分为三个阶段,从而构筑了一个运作高效的“信息压缩工具”。

进行锚点视图的挑选环节。

ZPressor初始阶段运用“最远点采样”技术挑选锚点视图。这一过程以相机当前位置为依据,旨在保证所选锚点在空间分布上呈现出多样性,并尽可能全面地反映整个场景的特征。

在后续步骤中,我们将执行视图归属操作(Support-to-Anchor Assignment),这一过程旨在明确各个视图之间的关联性。

一旦锚点视图得以确立,各个剩余的支持视图便会依照与相机的距离进行分配,至其最近的锚点视图。这种精确的归属机制保证了支持视图中所包含的互补场景细节能够与空间上最为相关的锚点视图实现有效分组,确保了信息的精准对接,有效避免了混乱。

第三步:执行视觉信息整合操作(Visual Information Integration)

这是ZPressor在信息压缩过程中至关重要的环节。其中,它运用了一种定制的交叉注意力机制,以实现信息的有效整合。

具体来看,锚点视图所提取的特定信息被用作「查询」,而支持视图则分别提供了「键」与「值」。

采用此法,视图间支持信息得以高效融入锚点视图之中,不仅成功锁定了两者间的内在联系,而且在确保结构紧凑的同时,也成功消除了不必要的重复内容。

最终,通过交叉注意力机制的巧妙应用,这些互补信息得以实现真正的融合,进而构建出既精炼又全面的Z态。

性能飙升,内存狂降,让3DGS「脱胎换骨」

ZPressor对3DGS模型的前向式产生了颠覆性的改变,这一影响在DepthSplat、MVSplat以及pixelSplat等众多经典模型上得到了充分的证实。这一验证是通过在DL3DV-10K、RealEstate10K和ACID等众多大规模基准数据集上进行的广泛实验而实现的。

尤为鼓舞人心的是,ZPressor成功克服了现有模型在内存使用上的核心难题。以pixelSplat为例,当输入视图数量超过8个时,它便会因为“内存溢出”问题而无法正常运作。然而,ZPressor不仅让pixelSplat在处理至少36个视图时得以顺畅运行,还显著提升了其性能表现。

ZPressor在效率上的表现同样令人赞叹不已。它能够在输入视图数量上升的情况下,确保3D高斯数量、推理过程中的延迟以及峰值内存使用量保持稳定。这一特点与基线模型中这些指标随输入视图数量增加而线性上升的趋势形成了鲜明对比,后者的发展速度使得其很快变得难以承受。

研究团队通过实验证实了场景中确实存在信息传递的障碍,而且这种障碍在实现信息的均衡压缩与有效保存过程中扮演着至关重要的角色。

不止于此,应用前景更加广阔

本项研究对目前广泛采用的前馈三维全局搜索算法的容量局限进行了详尽剖析,同时,从信息瓶颈理论的角度,阐明了其内在的根本性成因。

在此基础之上,研究团队推出了ZPressor——一款轻量级、架构兼容的模块。该模块能够高效地对多视图输入进行压缩,有效助力模型突破固有局限,显著提升了模型处理更多输入视图的能力。

实验数据表明,ZPressor在中等视图配置中不断优化了现有基准模型的性能,而且在密集输入环境中大幅提升了模型的稳定性,与此同时,它还保持了出色的效率表现,这包括了对内存和运算速度的优化。

ZPressor带来的性能持续增强与效率优化,其价值远超基准测试中的优异表现。这种扩展性、稳定性和效率的显著提升,直接映射出ZPressor在现实应用中的重大意义。ZPressor的问世,让AR/VR技术得以提供更加流畅、逼真的体验,并有效减少了对硬件资源的依赖,进而加速了这些技术的推广与运用。

该研究团队提出的基于信息瓶颈的简化压缩方法,并不仅限于3DGS这一领域。

有充分理由预见,在众多面临「冗余信息」与「信息瓶颈」难题的AI领域,诸如多模态数据处理、大规模传感器融合以及复杂系统状态估计等,ZPressor所具备的「信息瓶颈」处理智慧,或许能提供解决方案,引领我们进入一个崭新的「通用信息压缩」时代!

参考资料:

该链接指向的页面展示了编号为2505.23734的研究成果。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/276024.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息