任丘市奥力斯涂料厂 > 新闻资讯 >

宿迁pvc管粘接胶 特伦托大学等联发布:让AI节省90力的"传送门"技术

发布日期:2026-04-28 19:02点击次数:

泡沫板专用胶厂家

近期,特伦托大学联清华大学和电子科技大学的研究团队发表了项引人注目的研究成果,论文题为《Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models》,发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603.01400v1。这项研究门解决了AI模型运行时耗电过多、速度过慢的问题,通过种名为AOT(Anchor with Optimal Transport)的新技术,成功让AI在保持几乎相同准确度的情况下,将计量削减到原来的十分之。

当前的AI模型就像个过度勤奋的管,面对段时会仔细分析每帧画面中的每个细节。但这种做法虽然细致,却带来了巨大的计负担。以段几分钟的为例,AI需要处理成千上万的"视觉令"——可以把它们想象成被切割后的小碎片。每个碎片都需要AI花费时间和力去理解,这就像是要求个人逐字逐句阅读本厚重的百科全书,不仅耗时,还可能错过内容。

研究团队注意到,现有的压缩法就像用粗糙的橡皮擦来删除内容——要么简单粗暴地删掉些画面块,要么把相似的内容强行并。这些法的问题在于,它们在删除"不重要"信息时,往往会把些细微但关键的线索也并抹掉,就像在清理房间时不小心把重要文件也扔进了垃圾桶。

、化繁为简的"传送门"思维

AOT技术的核心创新在于,它不是简单地删除或并信息,而是建立了套精妙的"传送门"系统。设想你要整理个杂乱的图书馆,传统法是直接扔掉些书或者把相似的书捆在起。但AOT的做法像是设立几个特殊的"中心书架",然后通过种叫做"优传输"的数学魔法,将其他书架上的精华内容都传送到这些中心书架上。

这种法的巧妙之处在于双重定位策略。研究团队先在每帧画面中建立两套定位系统:套关注画面的整体重要,就像鸟瞰整个房间找到重要的具;另套则注于局部细节,如同用放大镜检查每个角落的精致装饰。这样的双重视角确保既不会遗漏大局,也不会忽略细节。

接下来的关键步骤是运用优传输理论。这个听起来的数学概念,实际上可以用个搬的比喻来理解。假设你要从个大房子搬到个小公寓,你需要决定如何有地将大房子里的物品重新分配到小公寓的有限空间中。优传输就是找到这种分配的佳案——既要保证重要物品都能搬过去,又要确保搬运成本低,还要让新保持原有的。

二、画面内的整理术

在处理每帧画面时,AOT采用了种称为"锚点选择"的策略。可以把这个过程想象成在幅巨大的拼图中选择关键的几块作为"锚点"。这些锚点的选择并非随意,而是通过注意力机制来指的——就像人眼在观看画面时会自然地被某些重要元素吸引。

具体来说,系统会先分析整个画面,找出那些能代表画面主要内容的区域,这就是"全局锚点"。同时,它还会将画面划分成若干个小网格,在每个网格中选出重要的部分作为"局部锚点"。这种做法确保了既能抓住画面的主题,又不会遗漏局部的关键细节。

选定锚点后,真正的魔法开始了。系统使用优传输法来决定如何将其他非锚点区域的信息"传送"到这些锚点上。这个过程可以比作烹饪中的"提取精华"——就像制作汤时,虽然用了很多食材,但终的汤浓缩了所有食材的精华。每个锚点都会根据优传输计划,吸收来自其他区域的重要信息,从而变得加丰富和完整。

传输的权重计基于余弦相似度的逆值作为成本函数。简单说,就是越相似的内容传输成本越低,系统会优先将相关信息聚集在起。整个过程通过Sinkhorn-Knopp迭代法快速求解,这种法只需要100次左右的简单矩阵运就能找到优案,计时间不到总理时间的1。

三、时间维度的智能压缩

处理完单个画面后,AOT面临着大的挑战:如何在时间维度上进行有压缩。这就像是要将部长电影压缩成几个关键镜头,既要保持故事的完整,又要突出重要的情节发展。

研究团队采用了"片段化处理"的策略,将整个划分成若干个时间片段。在每个片段中,帧被设定为"时间锚点",类似于电影中的关键帧。接下来的帧会与这个时间锚点进行比较和融。

这个过程的精妙之处在于它的自适应。当后续帧与锚点帧非常相似时,系统会将它们的信息通过优传输融到锚点中,实现压缩。但当遇到差异较大的帧时——比如场景切换、动作变化等关键时刻——系统会保留这些帧作为新的重要信息,确保时间动态不被丢失。

这种法特别适处理中常见的时间冗余。比如在段对话场景中宿迁pvc管粘接胶,可能有很多帧的背景和人物位置都很相似,AOT会将这些相似信息压缩到少数几个锚点中。但当出现重要的表情变化、手势动作或者场景转换时,这些关键信息会被门保留下来。

奥力斯    万能胶生产厂家    联系人:王经理    手机:13903175735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

具体的融过程使用了概率分配机制。系统会计每个后续帧与时间锚点的相似度,并据此分配传输权重。相似度的内容会被多地融到锚点中,而差异显著的内容则会被保留作为立的时间变化信息。这样既实现了有压缩,又保持了的时间连续。

四、全位能验证

为了验证AOT技术的有,研究团队在四个主要的理解基准测试上进行了广泛实验。这些测试包括MVBench(多模态理解)、EgoSchema(长时间理解)、LongVideoBench(长基准)和VideoMME(多模态评估)。实验在两个主流的AI模型上进行:LLaVA-OneVision-7B和LLaVA-Video-7B。

实验结果令人印象刻。当保留仅10的视觉令时,AOT在所有测试中平均保持了97.6的原始模型能。这意味着使用了AOT技术的AI在处理速度提升10倍的同时,准确度仅下降了2.4。在计率面,AOT将预填充阶段的浮点运次数(FLOPs)减少到原来的8.3,这相当于将原本需要几个小时的处理任务压缩到几十分钟内完成。

令人惊喜的是,在某些测试场景中,使用AOT技术的模型甚至比原始模型表现好。研究团队解释,这是因为大量的冗余信息实际上会干扰AI的判断,就像是在嘈杂环境中很难听清重要对话样。通过AOT的精确提取和聚,模型能够注于真正重要的视觉信息,从而提升了理解准确度。

在处理不同长度时,AOT展现出了良好的扩展。当输入从16帧增加到128帧时,传统模型会因为计量激增而面临内存限制,但使用AOT的模型能够保持稳定的能表现。特别是在处理长时,AOT的优势加明显——它能够在保持关键信息的同时,大幅减少冗余计。

五、技术细节与优化策略

AOT技术的实现包含多个精心设计的组件。在锚点选择阶段,系统采用注意力分数来评估每个视觉令的重要。具体来说,对于具有[CLS]令的模型(如CLIP),系统计[CLS]令对其他视觉令的注意力权重,选择权重的作为全局锚点。对于没有[CLS]令的模型(如SigLip),则使用自注意力机制来评估令间的相互重要。

在网格化局部选择中,图像被划分为W个非重叠的窗口,每个窗口内立选择局部锚点。这种设计确保了空间分布的多样,避所有重要信息都集中在画面的某区域。全局和局部锚点的数量比例通常设置为1:1,以平衡全局语义和局部细节的保留。

优传输的求解采用了Sinkhorn-Knopp迭代法,该法通过熵正则化将原始的线规划问题转换为可快速求解的形式。实验中迭代次数设置为100次,足以达到收敛而不会带来显著的计开销。熵正则化参数λ设置为0.1,这个值在多次实验中被证明能够提供佳的能平衡。

在时间维度的处理上,系统支持两种片段划分策略:均匀采样和自适应聚类。均匀采样适处理内容变化相对稳定的,而自适应聚类则根据内容的复杂度动态调整片段长度。对于复杂场景,系统会产生多短的片段以保留细节;对于简单场景,则使用较长的片段提压缩率。

六、与现有法的详细比较

AOT技术与现有压缩法的对比展现了其特优势。传统的空间压缩法,如VisionZip,主要关注单帧内的令并,在保留20令时能下降约2,但在激进的10保留率下能急剧下降8.4。这种能崩溃主要是因为纯空间压缩忽略了的时间特。

时间压缩法如DyCoke采用固定的帧组策略,将帧分组并只保留每组的帧。这种法的局限在于它法适应内容的动态变化,对于动作频繁的会丢失大量重要信息。实验结果显示,DyCoke在25保留率下的能下降约7.5,明显于AOT的1.9。

混压缩法如PruneVid在LLM的浅层进行反复剪枝,虽然能同时处理空间和时间冗余,PVC管道管件粘结胶但重复的剪枝操作会累积误差,终影响整体率。FastVID通过密度感知的剪枝策略有所改进,但仍然采用的是"删除"而非"聚"的思路,难以充分利用被删除令中的有用信息。

相比之下宿迁pvc管粘接胶,AOT的核心优势在于"信息聚"而非"信息丢弃"。通过优传输理论,AOT能够将被压缩令的精华内容传递给保留的锚点,这种法确保了信息的大化利用。实验数据显示,在相同的10令保留率下,AOT比佳基线法的能出约1.1个百分点,这种优势在处理复杂内容时加明显。

七、入理解优传输机制

优传输理论在AOT中的应用可以通过个精巧的水资源分配比喻来理解。假设有片干旱地区,分散着许多小水源和几个大型储水库。优传输的目标是找到经济的式,将所有小水源的水都输送到大储水库中,同时小化总的输送成本。

在AOT的语境中,那些被选中的锚点就像大储水库,而其他视觉令则像小水源。每个小水源携带的"水"就是它包含的视觉信息,而输送成本则由令间的相似度决定——相似度越,输送成本越低,因为相关信息容易整。

传输案的计涉及复杂的优化过程。系统需要为每对源令和目标锚点计传输量,确保所有信息都能被适当分配,同时满足每个锚点的容量限制。这个过程通过构建成本矩阵来实现,矩阵中每个元素代表从特定源令向特定锚点传输信息的成本。

Sinkhorn法通过迭代优化来快速求解这个分配问题。法从个初始的传输案开始,然后通过交替新行和列的归化因子来逐步改进案。每次迭代都会让传输案接近优解,而熵正则化项确保了解的唯和数值稳定。整个过程通常在100次迭代内收敛,计时间仅为几毫秒。

传输完成后,每个锚点都会根据接收到的信息进行新。新公式采用了加权平均的形式,其中权重由优传输案确定。这意味着每个锚点的终表示是原始信息和接收信息的智能融,既保持了自身的核心特征,又吸收了其他令的有用信息。

八、实验设计与能分析

研究团队设计了系列的实验来验证AOT技术的有。实验环境使用8张NVIDIA A100 GPU,每张显卡配备40GB显存,确保了充足的计资源。模型配置面,LLaVA-OneVision使用32帧输入(每帧196个令),而LLaVA-Video使用64帧输入(每帧169个令),这些配置反映了不同模型对处理的特点。

在10令保留预下,锚点数量被设置为126(LLaVA-OneVision)和108(LLaVA-Video)。这个数量是通过大量实验优化得出的,既能保证充分的信息表示,又能实现显著的压缩果。权重系数λ_intra和λ_inter都设置为1.0,这个参数控制着信息融的强度,实验证明这是佳的平衡点。

消融实验的结果特别有启发。当只使用全局锚点时,模型能为96.9;只使用局部锚点时为94.9;而结两者时达到了97.6。这证明了双重锚点策略的要——全局锚点保证了语义的完整,局部锚点确保了细节的保留。

在不同压缩比例下的表现也很值得关注。25保留率下,AOT达到99.5的能保持率,几乎没有损失;20时为99.7;15时为98.6;即使在端的10保留率下,仍能保持97.6的能。这种平滑的能下降曲线表明AOT具有良好的可控和鲁棒。

处理不同帧数时的扩展测试显示,当帧数从16增加到128时,传统法会遇到内存瓶颈,而AOT能够维持稳定的处理能力。特别是在处理128帧的长时,AOT将上下文长度保持在可管理范围内,而原始模型则会出大上下文限制。

九、技术局限与改进向

尽管AOT技术取得了显著成果,研究团队也坦诚地指出了当前法的些局限。主要的问题是时间锚点的构建仍然采用启发式法,缺乏像单帧锚点那样的理论基础。目前的做法是将每个时间片段的帧作为锚点,这种简单策略虽然实用,但可能不是优选择。

时间分段的边界检测也存在噪声问题。论是使用固定分段还是动态聚类,都可能将视觉差异较大的帧错误地分组在起,从而影响压缩果。特别是在复杂的场景中,这种分组错误可能致重要的时间动态信息丢失。

另个值得注意的局限是,虽然AOT以训练关的式运行,但整个理流程实际上是端到端可微分的。这为将来的改进提供了可能——研究团队提到,未来可以探索将优传输策略集成到模型训练过程中,通过梯度反向传播来进步优化压缩策略。

计开销面,虽然Sinkhorn法相对,但在处理长时仍然可能成为瓶颈。当前的实现在100次迭代下运行良好,但对于实时应用场景,可能需要进步优化迭代次数和收敛策略。

研究团队还指出,当前的法主要针对理解任务优化,对于其他类型的多模态任务(如生成、编辑等)的适用还有待验证。此外,AOT技术在3D/4D空间智能任务中的扩展应用也是个有趣的研究向。

十、实际应用前景与意义

AOT技术的成功为AI的实际应用开了新的可能。在移动设备上运行复杂模型直是个挑战,因为这类设备的计能力和电池容量都有限。AOT通过将计量减少90,使得在智能手机或平板电脑上运行质量AI成为可能。

在云服务域,AOT技术可以显著降低服务提供商的运营成本。内容分析服务通常需要大量的GPU资源,而AOT的10倍速度提升意味着相同的硬件资源可以处理多的用户请求,或者以低的成本提供相同质量的服务。

教育技术是另个受益明显的域。在线教育平台经常需要自动分析课程来生成字幕、提取关键概念或评估学习果。AOT技术可以让这些在多设备上流畅运行,降低技术门槛,让多教育机构能够负担得起的AI。

内容创作行业也可能迎来变革。编辑软件可以集成基于AOT的AI,实时分析内容并提供智能建议,而不需要用户等待漫长的处理时间。这种即时反馈可以大大提升创作者的工作率和创作体验。

医疗影像分析是另个重要应用场景。医生经常需要分析大量的医疗,如内窥镜检查、声波扫描等。AOT技术可以让AI辅助诊断系统快地处理这些,为医生提供及时的分析结果,potentially挽救多生命。

从技术发展的角度来看,AOT代表了种新的思路:不是简单地删除或并信息,而是通过数学优化来智能地重新分配信息。这种"信息守恒"的理念可能会启发多域的技术创新,不仅限于处理,还可能应用到图像处理、自然语言处理等其他AI域。

说到底,AOT技术的意义不仅在于它解决了AI的率问题,在于它展示了种全新的信息处理哲学。在这个信息爆炸的时代,如何在保持信息完整的同时提处理率,是所有技术发展都需要面对的核心挑战。特伦托大学团队的这项研究为这个挑战提供了个优雅的解决案,相信它会为未来的AI技术发展提供重要的启发和指。对于想要入了解技术细节的读者,可以通过论文编号arXiv:2603.01400v1查询完整的研究报告。

Q&A

Q1:AOT技术是什么?

A:AOT(Anchor with Optimal Transport)是由特伦托大学等机构开发的AI压缩技术,它通过建立"锚点"系统和优传输法,将中的冗余信息智能地聚到关键位置,而不是简单删除,从而在保持97.6准确度的同时将计量减少90。

Q2:AOT技术比其他压缩法好在哪里?

A:传统法要么直接删除信息要么强行并相似内容,容易丢失重要细节。AOT采用"信息聚"而非"信息丢弃"的策略,通过数学优化将被压缩部分的精华传送到保留的锚点上,确保信息大化利用,能比佳基线法出约1.1个百分点。

Q3:普通用户什么时候能用上AOT技术?

A:AOT技术目前还处于研究阶段,但其显著的率提升使得在移动设备上运行复杂AI成为可能。预计未来几年内,这项技术可能会被集成到编辑软件、在线教育平台和各种消费AI应用中,让用户享受快速流畅的AI分析体验。

相关词条:罐体保温     塑料挤出设备     钢绞线    超细玻璃棉板    万能胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定宿迁pvc管粘接胶,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

18232851235

Powered by 任丘市奥力斯涂料厂 RSS地图 HTML地图

Copyright Powered by站群系统 © 2025-2054