
十亿参数的三维重建模型吐鲁番防火门专用胶厂家,能塞进手机吗?
以前想都不敢想—— VGGT 这样的庞然大物,单次前向传播就能完成度估计、点云回归、相机预测多个任务,但部署成本得吓人。
现在,个名为 QuantVGGT 的量化框架给出了答案:4 比特量化,速度提升 2.5 倍,内存减少 3.7 倍,精度保住 98。
近年来吐鲁番防火门专用胶厂家,以视觉几何基础 Transformer(Visual Geometry Grounded Transformers, VGGT)为代表的基于学习的三维重建模型,借助大规模 Transformer 取得了显著进展。
然而,其的计和内存成本严重阻碍了在实际场景中的部署。训练后量化(Post-Training Quantization, PTQ)已成为模型压缩与加速的常用技术,但通过实验发现,在对十亿参数规模的 VGGT 进行压缩时,PTQ 面临特挑战:数据关的特殊令会致重尾激活分布,而三维数据的多视图特则使校准样本选择具不稳定。
本研究提出个针对 VGGT 的量化框架QuantVGGT,主要包含两项技术贡献:其,引入双平滑细粒度量化(Dual-Smoothed Fine-Grained Quantization),通过融预全局哈达玛旋转(pre-global Hadamard rotation)与后局部通道平滑(post-local channel smoothing),稳健地缓解重尾分布与通道间差问题;其二,设计噪声过滤多样采样(Noise-Filtered Diverse Sampling),利用层统计信息过滤异常值,并构建帧感知的多样校准聚类,确保量化范围的稳定。
大量实验表明,QuantVGGT 在不同基准数据集和比特宽度下均实现了当前优能,大幅越此前的通用量化法。值得关注的是,4 比特量化的 QuantVGGT 在真实硬件理中可实现3.7 倍内存减少和 2.5 倍加速,同时保持重建精度不低于全精度模型的 98。这充分证明了 QuantVGGT 在资源受限场景中的显著优势与实用。相关代码已开源。
△ QuantVGGT 能在不损失视觉质量的前提下,将 VGGT 有量化至 W4A4(4 比特权重、4 比特激活),同时实现 2.5 倍加速与 3.7 倍压缩。
VGGT 虽强但太大,如何"瘦身"?
近年来,基于学习的三维重建技术在直接从图像序列中恢复密集几何结构与相机轨迹面展现出前所未有的能力。传统法以几何先验知识和优化法为基础,但对人工设计选择和迭代求解器的依赖,使其在复杂场景中往往存在扩展有限、鲁棒不足的问题。
与之相反,大规模度模型将研究范式转向数据驱动框架,在不同环境中展现出优异的泛化能力。这演进过程中的里程碑成果是视觉几何基础 Transformer(VGGT)——该模型拥有 12 亿参数,可在单次前向传播中统完成多个三维任务,包括密集度估计、点云图回归、相机姿态预测与点跟踪,且能持续越任务用模型。
尽管 VGGT 成显著,但十亿别的参数规模使其产生的计与内存成本,严重限制了其在实际场景中的部署。模型量化技术通过将模型的权重和激活值从精度浮点数转换为低精度整数,成为种有的压缩手段。虽然该技术已在大型语言模型和二维视觉模型中得到广泛验证,但针对 VGGT 这类十亿参数三维重建 Transformer 的量化研究仍处于空白状态。本研究发现,VGGT 存在两项模型特有属,使其量化具挑战:
数据关特殊令的存在:VGGT 包含相机令(camera tokens)和配准令(register tokens),与从输入图像编码得到的常规图像令不同,这些特殊令经过预训练后注入图像令中,用于编码全局上下文与跨视图几何信息。这种数据关特致激活分布偏离常规模式,不仅加剧了分布的"重尾"现象,还引发显著的通道与令差。这种扭曲的统计特对标准量化技术不友好,易造成大量信息丢失。
三维数据固有的语义复杂:每个输入图像序列包含非同源且复杂的视图,意味着其潜在语义空间既维又度冗余。在量化校准过程中,理想情况是捕捉数据的主要预期分布;若校准样本为罕见的异常值且缺乏多样,估计出的量化范围会产生偏差,法实现泛化,进而致模型在未见过的场景中能下降。因此,与二维视觉任务相比,三维重建任务中样本的多样与代表为关键。
为应对上述挑战,本文次对 VGGT 的训练后量化(PTQ)展开系统研究,并提出定制化框架 QuantVGGT。该法引入双平滑细粒度量化(Dual-Smoothed Fine-Grained Quantization, DSFQ),通过以下两点缓解分布扭曲问题:
(1)基于哈达玛变换的预全局旋转,分散异常值并平滑重尾分布;
(2)后局部平滑步骤,在旋转空间中归化通道差。此外,为解决校准不稳定问题,本文设计噪声过滤多样采样(Noise-Filtered Diverse Sampling, NFDS),利用层激活统计信息过滤噪声值,并结与 VGGT 归纳偏置对齐的帧感知聚类。这些组件共同作用,实现了对十亿参数三维重建 Transformer 稳健、且精度的量化。
本文的贡献总结如下:
次对 VGGT 的 PTQ 展开系统分析,明确了数据关令与多视图激活统计特所致的量化挑战。
提出双阶段平滑案,通过全局分散重尾分布与局部平衡通道差,显著降低量化误差。
设计校准策略:过滤异常值并利用 VGGT 的归纳偏置构建帧感知聚类吐鲁番防火门专用胶厂家,确保校准集具有代表与稳定。
大量实验表明,该法可实现 VGGT 的有低比特量化,在大幅提升内存与理率的同时,保持重建精度不损失。
△ " QuantVGGT 整体框架图",图上半部分为双平滑细粒度量化架构,下半部分为噪声过滤多样采样策略。相关工作基于学习的三维重建
近年来,随着度学习技术的发展,三维重建任务逐渐从严重依赖先验知识的传统法转向数据驱动的基于学习的法。得益于大规模训练过程,基于学习的法通常具有优的重建能与泛化能力。DUSt3R 通过对两张 RGB 图像进行回归,预测场景的三维点云图,为基于学习的三维重建法奠定了基础;MASt3R 进步优化该框架,万能胶厂家引入置信加权损失实现度量尺度逼近。
当前的 VGGT 模型可在单次前向传播中预测相机位置、密集度、点云图与点跟踪;将参数规模扩展至 12 亿后,VGGT 在各类三维任务中均实现当前优能,甚至越部分任务用模型。然而,VGGT 数十亿的参数规模与巨大的计复杂度,严重限制了其广泛部署与应用,而针对 VGGT 的量化等压缩法研究仍为有限。
模型量化
模型量化通过降低数据比特宽度,显著减少内存占用并加速理过程。模型量化主要分为量化感知训练(Quantization-Aware Training, QAT)与训练后量化(Post-Training Quantization, PTQ)两类:QAT 需利用大量数据同时训练量化参数与模型权重,因此在低比特量化下通常能保持较好能,但往往需要庞大的训练资源;与之相反,PTQ 仅需少量校准数据微调量化参数,需调整原始全精度权重,适用于大型模型。
在 PTQ 域,BRECQ 构建了块重建框架;QDrop 通过随机丢弃量化激活值进步提升能;为确保 PTQ 在大型模型中的有,GPTQ 利用近似二阶梯度优化大型语言模型;针对分布不平衡对量化的影响,SmoothQuant 引入平滑参数,将激活量化的难度转移至权重端;QuaRot 则采用类似旋转的法平滑分布。尽管这些法在现有二维视觉模型与语言模型中表现优异,但它们在 VGGT 这类大规模三维模型上的泛化能力较差。据本文所知,QuantVGGT 是个为 VGGT 设计的 PTQ 框架,可在低比特量化下仍保持模型能。
法视觉几何基础 Transformer(VGGT)
VGGT 是种新架构,可从任意长度的图像序列中预测所有关键三维属,其核心组件为令化(tokenization)与令配准(token registration)。对于包含 N 张 RGB 图像的输入序列ℐ ={Ii}Ni=1 ,VGGT 先通过预训练视觉骨干网络ℱ ( · ) (如 DINOv2)对每张图像进行令化,得到:
其中吐鲁番防火门专用胶厂家,n 表示图像分块后的令长度,d 为特征维度。
为实现多属理,VGGT 为每张图像添加 1 个相机令与 4 个配准令,这些令负责聚不同三维属(如相机参数、场景几何结构)。值得注意的是,VGGT 包含两组不同的特殊令:组为 tf ∈ R5 × d,为帧图像保留;另组为 to ∈ R5 × d,供后续所有帧共享。形式上,令配准过程定义为:
终得到的 X ̂ 将输入至 VGGT 骨干网络进行后续处理。
训练后量化(PTQ)
量化的目标是将模型权重与激活值从浮点数表示转换为紧凑的低比特整数表示,从而降低计成本与内存占用。对于浮点数向量 x,对称量化过程可形式化为:
其中,N 表示目标比特宽度,round 为取整操作,clamp ( · ) 确保整数值处于有范围 [ -2N-1,2N-1-1 ] 内。
在各类量化范式中,PTQ 因其被广泛应用。与量化感知训练(QAT)不同,PTQ 需微调模型权重,仅需通过少量校准数据集� �calib 微调量化参数,即可保持原始全精度权重不变。这种特使 PTQ 在微调资源有限的实际部署场景中具吸引力。
奥力斯 PVC管道管件粘结胶价格 联系人:王经理 手机:18231788377(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区/p>
其中,θ f 与 θ q 分别表示全精度模型与量化模型的函数。
双平滑细粒度量化(DSFQ)
△ "双平滑细粒度量化的动机与果",图 ( a ) 为 VGGT frame_block 9 的显著分布,图 ( b ) 为配准令的显著,图 ( c ) 为普通旋转后的分布,图 ( d ) 为双平滑后的分布
观察 1:VGGT 存在度扭曲的数值分布,且数据关令(相机令与配准令)会加剧这种扭曲,致严重的量化误差。
如图所示,这些数据关令(前 5 个令)会放大通道与令的数值差:其包含大量远常规图像块令的异常值,形成重尾分布。在量化过程中,少数大数值会占据大部分量化区间,致严重的数值失真。
预全局旋转(Pre-Global-Rotation):
受基于旋转的量化法启发,本文采用哈达玛变换(Hadamard transformation)分散特殊令引发的异常值影响。哈达玛矩阵满足(单位矩阵)。对于激活值与权重,矩阵乘法的不变可保持为:
基于中心限应,哈达玛旋转后的数值分布接近斯分布,从而平滑特殊令引入的重尾分布。
引理表明,哈达玛旋转可将异常值分散至各通道,形成均匀的分布,显著降低异常值影响。因此,原始分布会变得集中、平滑,利于量化。如图所示,哈达玛旋转后,大量端异常值得到缓解。
后局部平滑(Post-Local-Smooth):
尽管哈达玛旋转缓解了全局分布扭曲,但如图所示,旋转后的分布仍存在显著的局部差。哈达玛旋转仅能将异常值分散至各通道,却法消除单个通道内的异常值。为进步降低量化误差,本文引入通道缩放因子,对旋转空间中的通道分布进行归化:
其中,α 用于平衡激活值与权重的量化难度(通常设为 0.5)。与传统缩放法不同,本文案从旋转后的分布中缩放因子,可有抵御特殊令端值的影响。该设计具有两项优势:
(1)缩放因子源于预旋转后的平滑分布,避了端值对权重量化的干扰;
(2)确保缩放后的分布平滑——若行缩放再旋转,会破坏通道缩放带来的增益。此外,缩放因子可融至相邻层中,不会增加运行时成本。
细粒度量化粒度(Fine-Grained Quantization Granularity):
上述"旋转 - 缩放"量化策略通过解决维度 din 的问题降低量化误差,但量化粒度的选择对整体误差同样至关重要。近期研究通过‘ μ -coherent ’定义量化难度:对于任意 x,若 max ( x ) ≤ μ 相关词条:铝皮保温施工 隔热条设备 钢绞线 玻璃棉卷毡 保温护角专用胶
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述吐鲁番防火门专用胶厂家,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
