
多模态大模型的研发范式延边橡塑胶 ,正在被重构。
今天,商汤科技联南洋理工大学发布了新技术成果:NEO-unify。
这是套真正实现"原生、统、端到端"的多模态模型架构,其核心的突破在于:
掉了长期以来行业依赖的视觉编码器(VE)和变分自编码器(VAE)。不再通过"组件拼凑"来实现感知与生成,回归原理,直接以近乎损的像素和文字作为原生输入。
通过创新的混变换器(Mixture-of-Transformer, MoT)架构延边橡塑胶 ,该模型在同个体系内通了视觉与语言的"理解 + 生成"双向能力。
技术要点览:
编码器设计:越过视觉表征争论,摆脱预训练先验与规模定律瓶颈;
MoT 架构:统实现视觉与语言的度融;
利用:在保持保真细节恢复的同时,显著提升了数据与力的利用率。
这套架构的出现,标志着多模态 AI 正在从"模态连接"进化为"原生统智能体"。
其编码器、端到端、多模态统学习的新路径,也为未来实现跨模态认知与生成体化的智能系统奠定了基础。
当前多模态智能架构困境
长期以来,多模态研究域普遍遵循着种默认范式:
视觉编码器(Vision Encoder, VE)负责感知与理解;
变分自编码器(Variational Autoencoder, VAE)用于内容生成。
这种架构虽然在初期动了域发展,但也在感知与生成之间划下了道的鸿沟。
为了弥这裂痕,近期业界涌现出系列尝试构建"共享编码器"的研究工作。然而,这种折衷案往往陷入了新的结构设计权衡。
面对这挑战,研究视角开始回归原理:能否构建个直接处理原生输入(即像素本身与文字本身)的体化模型?
基于这思考,商汤科技联南洋理工大学提出了种全新的架构范式:NEO-unify(preview)。
作为个原生、统、端到端的多模态模型架构,NEO-unify 不仅越过了当前视觉表征的争论,也摆脱了预训练先验和规模定律瓶颈的限制。
关键的是:不需要 VE,也不需要 VAE,NEO-unify 实现了多模态处理的真正归。
NEO-unify 原生体化架构新范式
NEO-unify 次迈向真正的端到端统框架,能够直接从近乎损的信息输入中学习,并由模型自身塑造内部表征空间。
先,引入近似损的视觉接口,用于统图像的输入与输出表示。
其次,采用原生混 Transformer(Mixture-of-Transformer,MoT)架构,使理解与生成能够在同体系中协同进行。
终,通过统学习框架实现跨模态训练:文本采用自回归交叉熵目标,视觉通过像素流匹配进行优化。
模型果 1、定量结果分析
2、生图果展示
技术发现 1、编码器设计能够同时保留抽象语义与细粒度表征图像重建任务
该团队先前的工作 NEO(Diao et al., ICLR 2026)表明,原生端到端模型同样能够学习到丰富的语义表征。
奥力斯 泡沫板橡塑板专用胶报价 联系人:王经理 手机:18232851235(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
在此基础上,他们进步观察到个有趣的现象:即使在冻结理解分支的情况下,立的生成分支仍然能够从表示中抽取并恢复细粒度的视觉细节。
基于这发现,团队训练了NEO-unify(2B)。
在初步 9 万步预训练后,模型在 MS COCO 2017 上取得31.56 PSNR和0.85 SSIM,PVC管道管件粘结胶而 Flux VAE 的对应指标为32.65和0.91。
这结果表明,即使不依赖预训练 VE 或 VAE,近似损的原生输入仍能够同时支持质量的语义理解与像素细节保真。
域外图像重建(2B NEO-unify,理解分支冻结)图像编辑任务
据此,团队进步开展探索:NEO-unify 将所有全模态条件信息统输入到理解分支,而生成分支仅负责生成新的图像。
即使在冻结理解分支的情况下,NEO-unify(2B) 仍展现出强大的图像编辑能力,同时显著减少了输入图像令的数量。
在使用开源生成与图像编辑数据集并进行初步 6 万步混训练后,模型在 ImgEdit 基准上取得3.32的成绩,且理解分支在整个训练过程中保持冻结。
小规模数据验证(2B NEO-unify,理解分支冻结)
ImgEdit 提示词编辑(2B NEO-unify,理解分支冻结)2、编码器架构与 MoT 主干度协同大幅降低内在冲突
借助预训练的理解分支与生成分支,NEO-unify 使用相同的中期训练(MT)与监督微调(SFT)数据进行联训练。
即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在 MoT 主干中协同提升,整体冲突小。
3、编码器架构,展现数据训练率
此外,团队行了 web-scale 预训练,随后在多样且质量的数据语料上依次进行中期训练(MT) 和 监督微调(SFT)。
与 Bagel 模型相比,NEO-unify 展现出的数据训练率,在使用少训练 token的情况下取得了优的能。
迈向原生统的下代智能范式
NEO-unify 的意义不止于次模型架构的创新,它实际上预示着多模态智能正从"组件堆叠"迈向"本质统"。
这种范式的演进,正在勾勒出通往下代智能形态的清晰路径:
感知与生成交织的闭环;
全模态与层视觉理;
空间智能与世界模型的涌现。
……
这标志着条全新的技术路线图正在展开:
模型不再在模态之间进行转换,而是能够原生地跨模态思考。
在这愿景下,多模态 AI 不再只是连接不同系统,而是构建个从未被割裂的、度集成的统智能体,并让所需能力从其内部自然涌现。
据悉,目前相关的研发工作正处于规模化扩张与持续迭代的关键期。系列基于该架构的模型成果与开源贡献,将在近期陆续向业界发布。
Hugging Face 地址:
https://huggingface.co/blog/sensenova/neo-unify
官博客地址:
https://www.sensetime.com/en/news-detail/51170542?categoryId=1072
https://www.sensetime.com/cn/news-detail/51170543?categoryId=72
* 本文系量子位获授权刊载,观点仅为原作者所有。
键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
相关词条:管道保温 塑料管材生产线 锚索 玻璃棉毡 PVC管道管件粘结胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
