
学了新的滨州橱柜台面胶 ,忘了旧的——大模型微调的"灾难遗忘"难题,终于有了新解。
腾讯混元团队新提出的HY-WU范式,破了静态权重的束缚。它的核心洞察是:适配新任务,不定要改写原有参数。
在基座模型持续进化的征途中,如何平衡"通用"与"适配"始终是项技术挑战。传统的微调(Fine-tuning)或 PEFT(如 LoRA)虽然解决了模型"学新知识"的问题,但本质上仍是在静态权重空间内的"存量博弈"——每适配个新任务,都可能对旧有能力造成不可逆的挤压。
3 月 6 日,腾讯混元发布了篇名为" HY-WU ( Part I ) : An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing "的技术报告。提出了种崭新的记忆(functional neural memory)范式(weight unleashing),在模型理时实时生成个化参数,由此对不同任务 / 分布 / 样本进行个化适应。
腾讯混元团队将该范式应用在各大开源图形编辑基模上,有扩充了基模的记忆,在图形编辑任务上普遍取得了好的内容理解、指令遵循和生成质量。与此同时,该范式的数据率、训练率和理速度也做到了真正的实用与创新并重。
接下来让我们看看技术报告的具体内容。
基模学习的两大挑战:学了新的,忘了旧的;千人千面的个化问题
在各个域的基模(Foundation Model)中,普遍存在着两个互为犄角的挑战:
"灾难遗忘"与持续学习的冲突:
已经训练好的基模在面对新数据、新任务时,通常需要通过微调(Fine-tuning)进行重新学习来取得佳表现。然而,传统的适配模式往往是"覆盖式"的,即在共享权重的同个参数点上进行反复擦写。
这种做法易致新旧知识的梯度冲突,损害模型已有的基础能力,致"学了新的,忘了旧的"。这点在 functional memory 上尤其突出,对于映射的学习法被外部存储替代,经元的改写会致以往拟的映射发生变化。
"跷跷板应"与个化的权衡:
面对不同用户、不同域的多样化需求,现有模型往往陷入"参数空间的不可能三角"。例如,在大型语言模型(LLM)中,同参数量模型在强化了严密的编程逻辑后,往往在发散思维或特定风格的生成上表现出‘顾此失彼’的问题;在图像编辑中,增强"去噪"能力可能会损害模型对"艺术风格"的保留。
这种"千人千面"的个化需求,在参数空间内往往对应着相互分离甚至冲突的"可行域",强行用个共享参数去拟所有需求,终只能得到各妥协的平庸结果。虽然业界尝试通过 MoE(混模型)海量数据对齐来缓解,但本质上仍是在有限的参数空间内做‘存量博弈’,难以跳出‘能跷跷板’的困境。HY-WU 范式正是要破这种静态权重的束缚,在不损失基模能力的前提下完成个化适应。
现有解法的局限:静态权重范式的天花板
为了解决上述问题,目前主流的解法包括:
参数微调(PEFT,如 LoRA):虽降低了训练成本,但本质上仍属于"静态参数记忆" 。旦适配完成,理时所有样本都共用同组固定的参数新。这种"刀切"的模式在处理度异构或持续进化的任务时,依然法逃脱参数冲突和过拟的困境。
上下文记忆(RAG / 检索增强):通过外部存储注入背景信息,但这只能改变模型"看到了什么",而法改变模型"如何处理信息" 。当任务核心在于处理规则(如特定的图像变换逻辑)而非缺失事实时,仅仅依靠增加上下文法从根本上改变模型的变换子(Operator)。
立 LoRA 集群:为每个任务训练立的 LoRA 适配器。这虽然避了冲突,但会致存储开销随任务量爆炸式增长,且不同模块间难以实现知识迁移,泛化能力受限。
MoE(混模型):混多个针对不同 domain 进行路由学习和理。能拟多种分布的问题,但对于灾难遗忘和能跷跷板的困境不能从根源上解决。(哪怕是 GPT-5.3 还是 Claude 4.6,都在‘编程强化’后陷入了某种程度的‘偏科’:编程逻辑的致提升,同参数量下伴随着创造的流失或常识直觉的僵化)
△ 静态记忆,上下文记忆和混元团队提出的记忆的对比 HY-WU 的案:从"静态参数记忆"到"记忆"
针对这些痛点,混元团队提出了 HY-WU (Weight Unleashing)范式。团队指出,适配问题的核心不在于优化法,而在于"记忆接口"(Memory Interface)的设计。
传统的适配(如 SFT 或 LoRA)本质上是静态参数记忆,它试图将所有新知识压缩进参数空间的个"单特征点"中,这在处理异构任务时会致结构的脆弱。
HY-WU 则引入了记忆(Functional Memory)。该范式不再追求寻找个通用的固定参数点,而是学习个参数生成器。它将适配过程看作是根据输入条件实时成特定子(Operator)的过程。这种"记忆即经网络"的正式化表达,使得模型能够根据不同实例在权重空间内进行动态路由(Routing),从而避了在共享参数上的反复擦写与冲突。
奥力斯 保温护角专用胶批发 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
两种问题,个对策:Functional Neural Memory 在图像编辑任务上的的参数生成实现
混元团队选择用"文本引的图像编辑"(Text-Guided Image Editing)作为HY-WU的个压力测试,因为图像编辑地暴露了静态权重的局限:
目标互斥: "修复老照片"和"照片做旧"在参数空间里是不同的变换向。如果用同个静态适配器(如 LoRA)强行学习滨州橱柜台面胶 ,模型会陷入"两头不到岸"的平庸折中。
样本敏感:同样的"风格化"指令,在猫的图片和山水的图片上,需要执行的像素变换截然不同。
核心范式:从"存数据"到"存子映射"
HY-WU 提出了个开创的认知:记忆不该是固定的知识点,而应该具有动态的条件映射。
该框架引入了个基于 Transformer 架构的参数生成器。它不像传统 LoRA 那样去学习组固定的权重,而是学习如何生成针对特定实例的子权重:
1. 实时感知:模型先提取当前输入图片和编辑指令的"混条件特征"。
2. 即时成:生成器根据这些特征,在理时实时生成出组针对当前样本的优 LoRA 参数。这个过程在百亿参数的图像编辑基模上也仅需几秒。
3. 动态挂载:这组定制化的参数被立即注入到冻结的基模(Frozen Backbone)中,完成特定的编辑变换。
△ HY-WU 流水线概览
而和以往大部分参数生成工作不同,HY-WU 采取了端到端的训练,不需要收集模型 checkpoint 来训练。
△ HY-WU 模型架构 Neural Network Transformer 的细节
针对 billion-scale 的参数生成,HY-WU 设计了 Factorized self-attention 来优化计,大大降低了复杂度。其模型结构如上图所示。
记忆:学习"条件新族"而非"孤立子"
为了实现动态路由,混元团队提出了条件新族(Conditional Family of Updates)的概念。在记忆的视角下,适配的目标不再是"找到个特定的新",而是"学习个从条件到参数新的映射"。
通过这种式,HY-WU 诱出个结构化的参数流形。图像编辑的分析实验证明,生成的参数在权重空间中呈现出精妙的语义结构:相似的编辑操作(如动物形变、风格迁移)会自动聚集在参数空间的邻近区域。
这种权重空间的几何致表明,记忆成功捕捉到了任务背后的变换规则。这使得系统在面对冲突目标时,可以通过路由到新族的不同区域来化解干涉,而非被迫进行能妥协。
△ HY-WU 参数空间的 Semantic Map 实用考量
HY-WU 在实用面做了充分考量。它不需要像传统 Hypernetwork 那样依赖预先收集的大量微调权重(Checkpoints),也不用在部署时存储大量 LoRA 权重来随时加载。HY-WU 采取端到端训练和生成,作为分离挂载的记忆,不仅保证了生成的参数足够"个化",让整个系统具备了的训练率和工程部署的灵活和可扩展。
图像编辑任务上的优秀表现
研究人员将 HY-WU 应用于HY-Image-3.0-Instruct——这是个拥有 800 亿(80B)参数的原生多模态基座模型(其中激活参数为 13B)。
为了实现的图像编辑,pvc管道管件胶该团队引入了个拥有81.1 亿参数的 Transformer 参数生成器。该网络能为所有线模块生成 7.2 亿参数的Rank-16 LoRA权重,从而确保模型在处理复杂的编辑指令时具备的灵活与准确度。
HY-WU 个化能力展示
在体验测试中,HY-WU 在社交、游戏和广告等场景展现出较好应用果。
△ 马斯克穿腾讯生肖公仔服。(放大果佳)
△ 社交场景下滨州橱柜台面胶 ,马斯克与黄仁勋换脸。(放大果佳)
△ 游戏场景下,马斯克与三角洲行动中角进行换装。(放大果佳)
△ 广告场景下,马斯克试穿时装。(放大果佳)与其他模型在个化场景下的对比
△ HY-WU 与 Seedream 4.5,GPT Image 1.5,Nano Banana 2 的对比(放大果佳)
在换装,试穿和换脸的个化场景中,HY-WU 均比其他模型表现出强的特征致,充分展现了其适配能力,为用户提供了多想象空间。
严苛评测:覆盖 60 余种编辑任务
为了验证 HY-WU 的实战能力,研究团队构建了个的评测,涵盖了单图和多图编辑两大赛道。该测试包含 346 组单图和 64 组多图编辑对,涉及 60 个细分编辑子任务,支持中英双语指令,覆盖了广泛的现实场景。评测对象涵盖了目前市面上强的线模型,包括 OpenAI 的GPT-Image-1.5、Google 的Nano Banana Pro以及 Seedream, FLUX.2、Qwen-Image-Edit 等知名开源项目。
人类评价:比肩闭源旗舰
在代表用户真实感知的GSB(Good/Same/Bad)人类评价 中,HY-WU 表现惊艳。数据显示,HY-WU 的表现显著优于所有主流开源模型。在与顶闭源模型的对比中,HY-WU 依然保持了强的竞争优势,其感官质量仅略逊于 Google 的 Nano Banana。
△ GSB 评测结果自动化榜单:达到先水平
除了人类评价,HY-WU 在多个自动化测试集上也取得了亮眼的成绩:
1. GEdit-Bench:HY-WU 树立了开源模型的新标杆。在中文测试(GEdit-Bench-CN)中,它在语义致、整体评分和感知质量三大维度上均斩获开源模型。在英文测试中,其语义致同样位居榜。值得注意的是,HY-WU 在这六项核心指标上好于闭源模型 Seedream 4.5 和 Nano-Banana-Pro。
2. ImgEdit-Bench:在 9 项细分编辑任务中,HY-WU 在开源模型中夺得了 5 项和 1 项二。其 4.05 的总分在所有公开模型中排名二,与闭源霸主 GPT Image 1.5 的差距仅为 0.11 分。
扩展研究:普适与"规模法则"
研究团队进步探讨了 HY-WU 的普适。实验证明,该框架不仅适用于原生多模态模型,在传统的MMDiT架构(如 Qwen-Image-Edit-2509)上同样能带来显著的能提升。
此外,HY-WU 遵循显著的规模法则(Scaling Law):
模型容量:随着 Transformer 度从 2B 增加到 7B,能持续增强。
权重规模:通过增加 LoRA 的秩(Rank),从 0.12B 扩展至 0.47B 参数,模型表现也呈现出清晰的正相关增长。
新范式的新展望:迈向"记忆分离"与"模块化"的智能架构
HY-WU 技术报告的末尾,混元团队并未止步于图像编辑,而是描绘了幅以"经记忆(Functional Neural Memory)"为核心的未来 AI 路线图 , 传达了他们对大模型架构范式探索前沿的思考。
R1:检索记忆与记忆的协同
存储事实知识的"检索记忆"与存储变换逻辑的"记忆(HY-WU)"从目的和式上是互补而非替代。究竟什么情况下检索记忆是不够的,而什么情况下记忆构成了互补,是下步需要实验验证的重要问题。混元团队建议在需要事实和样例时考虑检索记忆,而需要变换规则和过程控制时考虑记忆。记忆提供了 operator 子需要发生变化时的灵活。
R2:在线持续学习协议(Online & Continual Protocols)
长远来看,记忆的愿景在于:让新行为对应于参数新族(Update Family)上的新区域,而非对共享参数点的不可逆覆盖。虽然 Part I 在机制上通过冲突控制研究和对齐消融实验验证了这案的可行,但尚未评估真正的"在线持续学习"。
混元团队提出,下步的目标是利用记忆作为子工作记忆(Operator-valued Working Memory),定义种在线协议。通过这种协议,系统在处理顺序到达的新目标时,能够将新技能"写入"新族的未开发区域,从而在提升新任务表现的同时,从根本上解决灾难遗忘问题。
R3:架构容量的重新分配(Capacity Reallocation)
"记忆优先"设计的核心假说在于:规模化(Scaling)不应仅仅意味着增加主干网络的体量。混元团队大胆测:将主干模型与记忆模块联规模化,比单纯扩展单体主干模型具计和数据率。
这种直觉源于结构上的重构:单体规模化须将长尾和冲突的目标"摊销"到个单的参数点上,这然致妥协与干扰;而记忆分配的是"条件子容量",使得罕见或冲突的行为需被强行固化在共享权重中。
团队在文中提出了四个探索维度,目标在于在于定量化分析:当主干网络参数达到饱和时,通过增加记忆容量,如何进步提升模型的可控、冲突鲁棒及个化能力。
R4:跨模态的通用(Cross-Modality Universality)
HY-WU(Part I)以图像编辑作为概念验证,但经记忆的范式在本质上是通用的。核心挑战在于:如何在不同的信号空间(如、音频、3D 或多模态智能体)中,利用统的参数流形逻辑来实现致的指令遵循。
生成中的时间相干:模型通常在时间注意力层(Temporal Attention)面临巨大的平衡压力。通过引入记忆,模型可以为特定的动作序列生成动态的子偏移,从而在不破坏基础生成能力的前提下,增强动作的幅度与准确。
多模态对齐:在视觉问答或交互式任务中,主干网络往往需要处理度异构的输入。记忆可以根据输入模态的比例,实时调节跨模态融层的参数权重,实现灵活的感知对齐。
R5:长时致与身份记忆(Identity & Long-horizon Consistency)
在长序列生成或复杂的 Agent 交互中,保持身份(Identity)的致是个长期存在的瓶颈。传统的微调式往往会致全局权重的偏移,而 R5 展望通过记忆来门存储"身份子"。团队提出如下探索向:
身份子化:可以为特定角或对象维护门的参数生成逻辑。当模型识别到特定实体时,生成器会即时成套属的参数约束,确保该角在跨场景、长时跨度的生成中,其核心特征(如面部细节、材质纹理)始终保持稳定,不随背景或动作的变换而发生漂移。
长时致:这种"记忆分离"架构允许模型在处理长或多轮交互时,通过动态挂载不同的模块来维持逻辑连贯,实现真正的长程受控生成。
R6:硬件感知的部署优化 ( Hardware-Aware Deployment )
将适配压力从"静态权重"转移到"动态参数生成",对理侧提出了新的系统挑战。R6 聚焦于如何让这种新范式在实际生产环境中具备的运行率。
定制化内核(Custom Kernels):动态生成的参数(如不同实例对应的 LoRA 新)往往会致显存访问模式的碎片化。因此需要开发硬件感知的优化案,例如针对动态 LoRA 权重设计的定制化子融技术,以减少参数切换带来的开销。
理引擎:通过与 FlashInfer 等能理引擎结,优化生成器与主干网络之间的协作率。
端侧实用: R6 的终目标是降低参数生成的延迟与功耗,使得 HY-WU 这种"千人千面"的个化实时适配,能够在手机、AI PC 等端侧设备上真正落地。
HY-WU(Part I)仅仅是个开始。通过将参数‘释放’(Weight Unleashing),HY-WU 正在赋予 AI 模型种前所未有的灵活。混元团队相信这是强的智能的要环。
键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �
感兴趣的小伙伴欢迎关注 � � 了解详情
� � 点亮星标 � �
科技前沿进展每日见
相关词条:不锈钢保温 塑料管材设备 预应力钢绞线 玻璃棉板厂家 pvc管道管件胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述滨州橱柜台面胶 ,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。




