延边橡塑胶告别VE与VAE！商汤硬核重构多模态：掉所有中间编码器

产品中心 | 2026-03-11 20:06

多模态大模型的研发范式延边橡塑胶，正在被重构。

今天，商汤科技联南洋理工大学发布了新技术成果：NEO-unify。

这是套真正实现"原生、统、端到端"的多模态模型架构，其核心的突破在于：

掉了长期以来行业依赖的视觉编码器（VE）和变分自编码器（VAE）。不再通过"组件拼凑"来实现感知与生成，回归原理，直接以近乎损的像素和文字作为原生输入。

通过创新的混变换器（Mixture-of-Transformer, MoT）架构延边橡塑胶，该模型在同个体系内通了视觉与语言的"理解 + 生成"双向能力。

技术要点览：

编码器设计：越过视觉表征争论，摆脱预训练先验与规模定律瓶颈；

MoT 架构：统实现视觉与语言的度融；

利用：在保持保真细节恢复的同时，显著提升了数据与力的利用率。

这套架构的出现，标志着多模态 AI 正在从"模态连接"进化为"原生统智能体"。

其编码器、端到端、多模态统学习的新路径，也为未来实现跨模态认知与生成体化的智能系统奠定了基础。

当前多模态智能架构困境

长期以来，多模态研究域普遍遵循着种默认范式：

视觉编码器（Vision Encoder, VE）负责感知与理解；

变分自编码器（Variational Autoencoder, VAE）用于内容生成。

这种架构虽然在初期动了域发展，但也在感知与生成之间划下了道的鸿沟。

为了弥这裂痕，近期业界涌现出系列尝试构建"共享编码器"的研究工作。然而，这种折衷案往往陷入了新的结构设计权衡。

面对这挑战，研究视角开始回归原理：能否构建个直接处理原生输入（即像素本身与文字本身）的体化模型？

基于这思考，商汤科技联南洋理工大学提出了种全新的架构范式：NEO-unify（preview）。

作为个原生、统、端到端的多模态模型架构，NEO-unify 不仅越过了当前视觉表征的争论，也摆脱了预训练先验和规模定律瓶颈的限制。

关键的是：不需要 VE，也不需要 VAE，NEO-unify 实现了多模态处理的真正归。

NEO-unify 原生体化架构新范式

NEO-unify 次迈向真正的端到端统框架，能够直接从近乎损的信息输入中学习，并由模型自身塑造内部表征空间。

先，引入近似损的视觉接口，用于统图像的输入与输出表示。

其次，采用原生混 Transformer（Mixture-of-Transformer，MoT）架构，使理解与生成能够在同体系中协同进行。

终，通过统学习框架实现跨模态训练：文本采用自回归交叉熵目标，视觉通过像素流匹配进行优化。

模型果 1、定量结果分析

2、生图果展示

技术发现 1、编码器设计能够同时保留抽象语义与细粒度表征图像重建任务

该团队先前的工作 NEO（Diao et al., ICLR 2026）表明，原生端到端模型同样能够学习到丰富的语义表征。

奥力斯泡沫板橡塑板专用胶报价联系人：王经理手机：18232851235（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

在此基础上，他们进步观察到个有趣的现象：即使在冻结理解分支的情况下，立的生成分支仍然能够从表示中抽取并恢复细粒度的视觉细节。

基于这发现，团队训练了NEO-unify（2B）。

在初步 9 万步预训练后，模型在 MS COCO 2017 上取得31.56 PSNR和0.85 SSIM，PVC管道管件粘结胶而 Flux VAE 的对应指标为32.65和0.91。

这结果表明，即使不依赖预训练 VE 或 VAE，近似损的原生输入仍能够同时支持质量的语义理解与像素细节保真。

域外图像重建（2B NEO-unify，理解分支冻结）图像编辑任务

据此，团队进步开展探索：NEO-unify 将所有全模态条件信息统输入到理解分支，而生成分支仅负责生成新的图像。

即使在冻结理解分支的情况下，NEO-unify（2B）仍展现出强大的图像编辑能力，同时显著减少了输入图像令的数量。

在使用开源生成与图像编辑数据集并进行初步 6 万步混训练后，模型在 ImgEdit 基准上取得3.32的成绩，且理解分支在整个训练过程中保持冻结。

小规模数据验证（2B NEO-unify，理解分支冻结）

ImgEdit 提示词编辑（2B NEO-unify，理解分支冻结）2、编码器架构与 MoT 主干度协同大幅降低内在冲突

借助预训练的理解分支与生成分支，NEO-unify 使用相同的中期训练（MT）与监督微调（SFT）数据进行联训练。

即使在较低的数据比例和损失权重下，理解能力依然保持稳定，而生成能力则收敛很快。二者在 MoT 主干中协同提升，整体冲突小。

3、编码器架构，展现数据训练率

此外，团队行了 web-scale 预训练，随后在多样且质量的数据语料上依次进行中期训练（MT）和监督微调（SFT）。

与 Bagel 模型相比，NEO-unify 展现出的数据训练率，在使用少训练 token的情况下取得了优的能。

迈向原生统的下代智能范式

NEO-unify 的意义不止于次模型架构的创新，它实际上预示着多模态智能正从"组件堆叠"迈向"本质统"。

这种范式的演进，正在勾勒出通往下代智能形态的清晰路径：

感知与生成交织的闭环；

全模态与层视觉理；

空间智能与世界模型的涌现。

……

这标志着条全新的技术路线图正在展开：

模型不再在模态之间进行转换，而是能够原生地跨模态思考。

在这愿景下，多模态 AI 不再只是连接不同系统，而是构建个从未被割裂的、度集成的统智能体，并让所需能力从其内部自然涌现。

据悉，目前相关的研发工作正处于规模化扩张与持续迭代的关键期。系列基于该架构的模型成果与开源贡献，将在近期陆续向业界发布。

Hugging Face 地址：

https://huggingface.co/blog/sensenova/neo-unify

官博客地址：

https://www.sensetime.com/en/news-detail/51170542?categoryId=1072

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

* 本文系量子位获授权刊载，观点仅为原作者所有。

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见

相关词条:管道保温塑料管材生产线锚索玻璃棉毡 PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：铁岭万能胶生产厂家 GDP增长为何定在4.5－5？

下一篇：湖南橡塑胶厂家吃个草莓吧吃了就是小莓女🍓

产品中心

延边橡塑胶 告别VE与VAE！商汤硬核重构多模态：掉所有中间编码器

延边橡塑胶告别VE与VAE！商汤硬核重构多模态：掉所有中间编码器