滨州橱柜台面胶基础模型又关键拼图，腾讯混元发布训练新范式「相」：引入记忆，破静态权重枷锁

发布日期：2026-03-11 19:43:11 点击次数：82

万能胶

学了新的滨州橱柜台面胶，忘了旧的——大模型微调的"灾难遗忘"难题，终于有了新解。

腾讯混元团队新提出的HY-WU范式，破了静态权重的束缚。它的核心洞察是：适配新任务，不定要改写原有参数。

在基座模型持续进化的征途中，如何平衡"通用"与"适配"始终是项技术挑战。传统的微调（Fine-tuning）或 PEFT（如 LoRA）虽然解决了模型"学新知识"的问题，但本质上仍是在静态权重空间内的"存量博弈"——每适配个新任务，都可能对旧有能力造成不可逆的挤压。

3 月 6 日，腾讯混元发布了篇名为" HY-WU ( Part I ) : An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing "的技术报告。提出了种崭新的记忆（functional neural memory）范式（weight unleashing），在模型理时实时生成个化参数，由此对不同任务 / 分布 / 样本进行个化适应。

腾讯混元团队将该范式应用在各大开源图形编辑基模上，有扩充了基模的记忆，在图形编辑任务上普遍取得了好的内容理解、指令遵循和生成质量。与此同时，该范式的数据率、训练率和理速度也做到了真正的实用与创新并重。

接下来让我们看看技术报告的具体内容。

基模学习的两大挑战：学了新的，忘了旧的；千人千面的个化问题

在各个域的基模（Foundation Model）中，普遍存在着两个互为犄角的挑战：

"灾难遗忘"与持续学习的冲突：

已经训练好的基模在面对新数据、新任务时，通常需要通过微调（Fine-tuning）进行重新学习来取得佳表现。然而，传统的适配模式往往是"覆盖式"的，即在共享权重的同个参数点上进行反复擦写。

这种做法易致新旧知识的梯度冲突，损害模型已有的基础能力，致"学了新的，忘了旧的"。这点在 functional memory 上尤其突出，对于映射的学习法被外部存储替代，经元的改写会致以往拟的映射发生变化。

"跷跷板应"与个化的权衡：

面对不同用户、不同域的多样化需求，现有模型往往陷入"参数空间的不可能三角"。例如，在大型语言模型（LLM）中，同参数量模型在强化了严密的编程逻辑后，往往在发散思维或特定风格的生成上表现出‘顾此失彼’的问题；在图像编辑中，增强"去噪"能力可能会损害模型对"艺术风格"的保留。

这种"千人千面"的个化需求，在参数空间内往往对应着相互分离甚至冲突的"可行域"，强行用个共享参数去拟所有需求，终只能得到各妥协的平庸结果。虽然业界尝试通过 MoE（混模型）海量数据对齐来缓解，但本质上仍是在有限的参数空间内做‘存量博弈’，难以跳出‘能跷跷板’的困境。HY-WU 范式正是要破这种静态权重的束缚，在不损失基模能力的前提下完成个化适应。

现有解法的局限：静态权重范式的天花板

为了解决上述问题，目前主流的解法包括：

参数微调（PEFT，如 LoRA）：虽降低了训练成本，但本质上仍属于"静态参数记忆" 。旦适配完成，理时所有样本都共用同组固定的参数新。这种"刀切"的模式在处理度异构或持续进化的任务时，依然法逃脱参数冲突和过拟的困境。

上下文记忆（RAG / 检索增强）：通过外部存储注入背景信息，但这只能改变模型"看到了什么"，而法改变模型"如何处理信息" 。当任务核心在于处理规则（如特定的图像变换逻辑）而非缺失事实时，仅仅依靠增加上下文法从根本上改变模型的变换子（Operator）。

立 LoRA 集群：为每个任务训练立的 LoRA 适配器。这虽然避了冲突，但会致存储开销随任务量爆炸式增长，且不同模块间难以实现知识迁移，泛化能力受限。

MoE（混模型）：混多个针对不同 domain 进行路由学习和理。能拟多种分布的问题，但对于灾难遗忘和能跷跷板的困境不能从根源上解决。（哪怕是 GPT-5.3 还是 Claude 4.6，都在‘编程强化’后陷入了某种程度的‘偏科’：编程逻辑的致提升，同参数量下伴随着创造的流失或常识直觉的僵化）

△ 静态记忆，上下文记忆和混元团队提出的记忆的对比 HY-WU 的案：从"静态参数记忆"到"记忆"

针对这些痛点，混元团队提出了 HY-WU （Weight Unleashing）范式。团队指出，适配问题的核心不在于优化法，而在于"记忆接口"（Memory Interface）的设计。

传统的适配（如 SFT 或 LoRA）本质上是静态参数记忆，它试图将所有新知识压缩进参数空间的个"单特征点"中，这在处理异构任务时会致结构的脆弱。

HY-WU 则引入了记忆（Functional Memory）。该范式不再追求寻找个通用的固定参数点，而是学习个参数生成器。它将适配过程看作是根据输入条件实时成特定子（Operator）的过程。这种"记忆即经网络"的正式化表达，使得模型能够根据不同实例在权重空间内进行动态路由（Routing），从而避了在共享参数上的反复擦写与冲突。

奥力斯保温护角专用胶批发联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

两种问题，个对策：Functional Neural Memory 在图像编辑任务上的的参数生成实现

混元团队选择用"文本引的图像编辑"（Text-Guided Image Editing）作为HY-WU的个压力测试，因为图像编辑地暴露了静态权重的局限：

目标互斥： "修复老照片"和"照片做旧"在参数空间里是不同的变换向。如果用同个静态适配器（如 LoRA）强行学习滨州橱柜台面胶，模型会陷入"两头不到岸"的平庸折中。

样本敏感：同样的"风格化"指令，在猫的图片和山水的图片上，需要执行的像素变换截然不同。

核心范式：从"存数据"到"存子映射"

HY-WU 提出了个开创的认知：记忆不该是固定的知识点，而应该具有动态的条件映射。

该框架引入了个基于 Transformer 架构的参数生成器。它不像传统 LoRA 那样去学习组固定的权重，而是学习如何生成针对特定实例的子权重：

1. 实时感知：模型先提取当前输入图片和编辑指令的"混条件特征"。

2. 即时成：生成器根据这些特征，在理时实时生成出组针对当前样本的优 LoRA 参数。这个过程在百亿参数的图像编辑基模上也仅需几秒。

3. 动态挂载：这组定制化的参数被立即注入到冻结的基模（Frozen Backbone）中，完成特定的编辑变换。

△ HY-WU 流水线概览

而和以往大部分参数生成工作不同，HY-WU 采取了端到端的训练，不需要收集模型 checkpoint 来训练。

△ HY-WU 模型架构 Neural Network Transformer 的细节

针对 billion-scale 的参数生成，HY-WU 设计了 Factorized self-attention 来优化计，大大降低了复杂度。其模型结构如上图所示。

记忆：学习"条件新族"而非"孤立子"

为了实现动态路由，混元团队提出了条件新族（Conditional Family of Updates）的概念。在记忆的视角下，适配的目标不再是"找到个特定的新"，而是"学习个从条件到参数新的映射"。

通过这种式，HY-WU 诱出个结构化的参数流形。图像编辑的分析实验证明，生成的参数在权重空间中呈现出精妙的语义结构：相似的编辑操作（如动物形变、风格迁移）会自动聚集在参数空间的邻近区域。

这种权重空间的几何致表明，记忆成功捕捉到了任务背后的变换规则。这使得系统在面对冲突目标时，可以通过路由到新族的不同区域来化解干涉，而非被迫进行能妥协。

△ HY-WU 参数空间的 Semantic Map 实用考量

HY-WU 在实用面做了充分考量。它不需要像传统 Hypernetwork 那样依赖预先收集的大量微调权重（Checkpoints），也不用在部署时存储大量 LoRA 权重来随时加载。HY-WU 采取端到端训练和生成，作为分离挂载的记忆，不仅保证了生成的参数足够"个化"，让整个系统具备了的训练率和工程部署的灵活和可扩展。

图像编辑任务上的优秀表现

研究人员将 HY-WU 应用于HY-Image-3.0-Instruct——这是个拥有 800 亿（80B）参数的原生多模态基座模型（其中激活参数为 13B）。

为了实现的图像编辑，pvc管道管件胶该团队引入了个拥有81.1 亿参数的 Transformer 参数生成器。该网络能为所有线模块生成 7.2 亿参数的Rank-16 LoRA权重，从而确保模型在处理复杂的编辑指令时具备的灵活与准确度。

HY-WU 个化能力展示

在体验测试中，HY-WU 在社交、游戏和广告等场景展现出较好应用果。

△ 马斯克穿腾讯生肖公仔服。（放大果佳）

△ 社交场景下滨州橱柜台面胶，马斯克与黄仁勋换脸。（放大果佳）

△ 游戏场景下，马斯克与三角洲行动中角进行换装。（放大果佳）

△ 广告场景下，马斯克试穿时装。（放大果佳）与其他模型在个化场景下的对比

△ HY-WU 与 Seedream 4.5，GPT Image 1.5，Nano Banana 2 的对比（放大果佳）

在换装，试穿和换脸的个化场景中，HY-WU 均比其他模型表现出强的特征致，充分展现了其适配能力，为用户提供了多想象空间。

严苛评测：覆盖 60 余种编辑任务

为了验证 HY-WU 的实战能力，研究团队构建了个的评测，涵盖了单图和多图编辑两大赛道。该测试包含 346 组单图和 64 组多图编辑对，涉及 60 个细分编辑子任务，支持中英双语指令，覆盖了广泛的现实场景。评测对象涵盖了目前市面上强的线模型，包括 OpenAI 的GPT-Image-1.5、Google 的Nano Banana Pro以及 Seedream, FLUX.2、Qwen-Image-Edit 等知名开源项目。

人类评价：比肩闭源旗舰

在代表用户真实感知的GSB（Good/Same/Bad）人类评价中，HY-WU 表现惊艳。数据显示，HY-WU 的表现显著优于所有主流开源模型。在与顶闭源模型的对比中，HY-WU 依然保持了强的竞争优势，其感官质量仅略逊于 Google 的 Nano Banana。

△ GSB 评测结果自动化榜单：达到先水平

除了人类评价，HY-WU 在多个自动化测试集上也取得了亮眼的成绩：

1. GEdit-Bench：HY-WU 树立了开源模型的新标杆。在中文测试（GEdit-Bench-CN）中，它在语义致、整体评分和感知质量三大维度上均斩获开源模型。在英文测试中，其语义致同样位居榜。值得注意的是，HY-WU 在这六项核心指标上好于闭源模型 Seedream 4.5 和 Nano-Banana-Pro。

2. ImgEdit-Bench：在 9 项细分编辑任务中，HY-WU 在开源模型中夺得了 5 项和 1 项二。其 4.05 的总分在所有公开模型中排名二，与闭源霸主 GPT Image 1.5 的差距仅为 0.11 分。

扩展研究：普适与"规模法则"

研究团队进步探讨了 HY-WU 的普适。实验证明，该框架不仅适用于原生多模态模型，在传统的MMDiT架构（如 Qwen-Image-Edit-2509）上同样能带来显著的能提升。

此外，HY-WU 遵循显著的规模法则（Scaling Law）：

模型容量：随着 Transformer 度从 2B 增加到 7B，能持续增强。

权重规模：通过增加 LoRA 的秩（Rank），从 0.12B 扩展至 0.47B 参数，模型表现也呈现出清晰的正相关增长。

新范式的新展望：迈向"记忆分离"与"模块化"的智能架构

HY-WU 技术报告的末尾，混元团队并未止步于图像编辑，而是描绘了幅以"经记忆（Functional Neural Memory）"为核心的未来 AI 路线图 , 传达了他们对大模型架构范式探索前沿的思考。

R1：检索记忆与记忆的协同

存储事实知识的"检索记忆"与存储变换逻辑的"记忆（HY-WU）"从目的和式上是互补而非替代。究竟什么情况下检索记忆是不够的，而什么情况下记忆构成了互补，是下步需要实验验证的重要问题。混元团队建议在需要事实和样例时考虑检索记忆，而需要变换规则和过程控制时考虑记忆。记忆提供了 operator 子需要发生变化时的灵活。

R2：在线持续学习协议（Online & Continual Protocols）

长远来看，记忆的愿景在于：让新行为对应于参数新族（Update Family）上的新区域，而非对共享参数点的不可逆覆盖。虽然 Part I 在机制上通过冲突控制研究和对齐消融实验验证了这案的可行，但尚未评估真正的"在线持续学习"。

混元团队提出，下步的目标是利用记忆作为子工作记忆（Operator-valued Working Memory），定义种在线协议。通过这种协议，系统在处理顺序到达的新目标时，能够将新技能"写入"新族的未开发区域，从而在提升新任务表现的同时，从根本上解决灾难遗忘问题。

R3：架构容量的重新分配（Capacity Reallocation）

"记忆优先"设计的核心假说在于：规模化（Scaling）不应仅仅意味着增加主干网络的体量。混元团队大胆测：将主干模型与记忆模块联规模化，比单纯扩展单体主干模型具计和数据率。

这种直觉源于结构上的重构：单体规模化须将长尾和冲突的目标"摊销"到个单的参数点上，这然致妥协与干扰；而记忆分配的是"条件子容量"，使得罕见或冲突的行为需被强行固化在共享权重中。

团队在文中提出了四个探索维度，目标在于在于定量化分析：当主干网络参数达到饱和时，通过增加记忆容量，如何进步提升模型的可控、冲突鲁棒及个化能力。

R4：跨模态的通用（Cross-Modality Universality）

HY-WU（Part I）以图像编辑作为概念验证，但经记忆的范式在本质上是通用的。核心挑战在于：如何在不同的信号空间（如、音频、3D 或多模态智能体）中，利用统的参数流形逻辑来实现致的指令遵循。

生成中的时间相干：模型通常在时间注意力层（Temporal Attention）面临巨大的平衡压力。通过引入记忆，模型可以为特定的动作序列生成动态的子偏移，从而在不破坏基础生成能力的前提下，增强动作的幅度与准确。

多模态对齐：在视觉问答或交互式任务中，主干网络往往需要处理度异构的输入。记忆可以根据输入模态的比例，实时调节跨模态融层的参数权重，实现灵活的感知对齐。

R5：长时致与身份记忆（Identity & Long-horizon Consistency）

在长序列生成或复杂的 Agent 交互中，保持身份（Identity）的致是个长期存在的瓶颈。传统的微调式往往会致全局权重的偏移，而 R5 展望通过记忆来门存储"身份子"。团队提出如下探索向：

身份子化：可以为特定角或对象维护门的参数生成逻辑。当模型识别到特定实体时，生成器会即时成套属的参数约束，确保该角在跨场景、长时跨度的生成中，其核心特征（如面部细节、材质纹理）始终保持稳定，不随背景或动作的变换而发生漂移。

长时致：这种"记忆分离"架构允许模型在处理长或多轮交互时，通过动态挂载不同的模块来维持逻辑连贯，实现真正的长程受控生成。

R6：硬件感知的部署优化 ( Hardware-Aware Deployment )

将适配压力从"静态权重"转移到"动态参数生成"，对理侧提出了新的系统挑战。R6 聚焦于如何让这种新范式在实际生产环境中具备的运行率。

定制化内核（Custom Kernels）：动态生成的参数（如不同实例对应的 LoRA 新）往往会致显存访问模式的碎片化。因此需要开发硬件感知的优化案，例如针对动态 LoRA 权重设计的定制化子融技术，以减少参数切换带来的开销。

理引擎：通过与 FlashInfer 等能理引擎结，优化生成器与主干网络之间的协作率。

端侧实用： R6 的终目标是降低参数生成的延迟与功耗，使得 HY-WU 这种"千人千面"的个化实时适配，能够在手机、AI PC 等端侧设备上真正落地。

HY-WU（Part I）仅仅是个开始。通过将参数‘释放’（Weight Unleashing），HY-WU 正在赋予 AI 模型种前所未有的灵活。混元团队相信这是强的智能的要环。

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见

相关词条:不锈钢保温塑料管材设备预应力钢绞线玻璃棉板厂家 pvc管道管件胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述滨州橱柜台面胶，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：梧州泡沫板胶堂食客单价跌回十年前，越来越便宜，餐饮企业该如何突围？
下一篇：朔州PVC管道管件粘结胶新机盘点: 双2亿影像旗舰手机;6.3英寸小屏手机

滨州橱柜台面胶基础模型又关键拼图，腾讯混元发布训练新范式「相」：引入记忆，破静态权重枷锁

最新资讯

推荐资讯

友情链接：

滨州橱柜台面胶 基础模型又关键拼图，腾讯混元发布训练新范式「相」：引入记忆，破静态权重枷锁

最新资讯

推荐资讯

友情链接：

滨州橱柜台面胶基础模型又关键拼图，腾讯混元发布训练新范式「相」：引入记忆，破静态权重枷锁