延边橡塑胶 告别VE与VAE!商汤硬核重构多模态:掉所有中间编码器

 产品中心    |      2026-03-11 20:06
万能胶厂家

多模态大模型的研发范式延边橡塑胶 ,正在被重构。

今天,商汤科技联南洋理工大学发布了新技术成果:NEO-unify。

这是套真正实现"原生、统、端到端"的多模态模型架构,其核心的突破在于:

掉了长期以来行业依赖的视觉编码器(VE)和变分自编码器(VAE)。不再通过"组件拼凑"来实现感知与生成,回归原理,直接以近乎损的像素和文字作为原生输入。

通过创新的混变换器(Mixture-of-Transformer, MoT)架构延边橡塑胶 ,该模型在同个体系内通了视觉与语言的"理解 + 生成"双向能力。

技术要点览:

编码器设计:越过视觉表征争论,摆脱预训练先验与规模定律瓶颈;

MoT 架构:统实现视觉与语言的度融;

利用:在保持保真细节恢复的同时,显著提升了数据与力的利用率。

这套架构的出现,标志着多模态 AI 正在从"模态连接"进化为"原生统智能体"。

其编码器、端到端、多模态统学习的新路径,也为未来实现跨模态认知与生成体化的智能系统奠定了基础。

当前多模态智能架构困境

长期以来,多模态研究域普遍遵循着种默认范式:

视觉编码器(Vision Encoder, VE)负责感知与理解;

变分自编码器(Variational Autoencoder, VAE)用于内容生成。

这种架构虽然在初期动了域发展,但也在感知与生成之间划下了道的鸿沟。

为了弥这裂痕,近期业界涌现出系列尝试构建"共享编码器"的研究工作。然而,这种折衷案往往陷入了新的结构设计权衡。

面对这挑战,研究视角开始回归原理:能否构建个直接处理原生输入(即像素本身与文字本身)的体化模型?

基于这思考,商汤科技联南洋理工大学提出了种全新的架构范式:NEO-unify(preview)。

作为个原生、统、端到端的多模态模型架构,NEO-unify 不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。

关键的是:不需要 VE,也不需要 VAE,NEO-unify 实现了多模态处理的真正归。

NEO-unify 原生体化架构新范式

NEO-unify 次迈向真正的端到端统框架,能够直接从近乎损的信息输入中学习,并由模型自身塑造内部表征空间。

先,引入近似损的视觉接口,用于统图像的输入与输出表示。

其次,采用原生混 Transformer(Mixture-of-Transformer,MoT)架构,使理解与生成能够在同体系中协同进行。

终,通过统学习框架实现跨模态训练:文本采用自回归交叉熵目标,视觉通过像素流匹配进行优化。

模型果 1、定量结果分析

2、生图果展示

技术发现 1、编码器设计能够同时保留抽象语义与细粒度表征图像重建任务

该团队先前的工作 NEO(Diao et al., ICLR 2026)表明,原生端到端模型同样能够学习到丰富的语义表征。

奥力斯    泡沫板橡塑板专用胶报价    联系人:王经理    手机:18232851235(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

在此基础上,他们进步观察到个有趣的现象:即使在冻结理解分支的情况下,立的生成分支仍然能够从表示中抽取并恢复细粒度的视觉细节。

基于这发现,团队训练了NEO-unify(2B)。

在初步 9 万步预训练后,模型在 MS COCO 2017 上取得31.56 PSNR和0.85 SSIM,PVC管道管件粘结胶而 Flux VAE 的对应指标为32.65和0.91。

这结果表明,即使不依赖预训练 VE 或 VAE,近似损的原生输入仍能够同时支持质量的语义理解与像素细节保真。

域外图像重建(2B NEO-unify,理解分支冻结)图像编辑任务

据此,团队进步开展探索:NEO-unify 将所有全模态条件信息统输入到理解分支,而生成分支仅负责生成新的图像。

即使在冻结理解分支的情况下,NEO-unify(2B)  仍展现出强大的图像编辑能力,同时显著减少了输入图像令的数量。

在使用开源生成与图像编辑数据集并进行初步 6 万步混训练后,模型在 ImgEdit 基准上取得3.32的成绩,且理解分支在整个训练过程中保持冻结。

小规模数据验证(2B NEO-unify,理解分支冻结)

ImgEdit 提示词编辑(2B NEO-unify,理解分支冻结)2、编码器架构与 MoT 主干度协同大幅降低内在冲突

借助预训练的理解分支与生成分支,NEO-unify 使用相同的中期训练(MT)与监督微调(SFT)数据进行联训练。

即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在 MoT 主干中协同提升,整体冲突小。

3、编码器架构,展现数据训练率

此外,团队行了 web-scale 预训练,随后在多样且质量的数据语料上依次进行中期训练(MT)  和 监督微调(SFT)。

与 Bagel 模型相比,NEO-unify 展现出的数据训练率,在使用少训练 token的情况下取得了优的能。

迈向原生统的下代智能范式

NEO-unify 的意义不止于次模型架构的创新,它实际上预示着多模态智能正从"组件堆叠"迈向"本质统"。

这种范式的演进,正在勾勒出通往下代智能形态的清晰路径:

感知与生成交织的闭环;

全模态与层视觉理;

空间智能与世界模型的涌现。

……

这标志着条全新的技术路线图正在展开:

模型不再在模态之间进行转换,而是能够原生地跨模态思考。

在这愿景下,多模态 AI 不再只是连接不同系统,而是构建个从未被割裂的、度集成的统智能体,并让所需能力从其内部自然涌现。

据悉,目前相关的研发工作正处于规模化扩张与持续迭代的关键期。系列基于该架构的模型成果与开源贡献,将在近期陆续向业界发布。

Hugging Face 地址:

https://huggingface.co/blog/sensenova/neo-unify

官博客地址:

https://www.sensetime.com/en/news-detail/51170542?categoryId=1072

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

* 本文系量子位获授权刊载,观点仅为原作者所有。

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

� � 点亮星标 � �

科技前沿进展每日见

相关词条:管道保温     塑料管材生产线     锚索    玻璃棉毡    PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。