大兴安岭万能胶黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR佳论文作者带队

新闻资讯 | 2026-03-11 20:08

图像界又出匹黑马！大兴安岭万能胶

刚刚，Luma AI 甩出全新模型 Uni-1，正面对标谷歌 Nano Banana Pro 和 GPT Image 1.5。

Uni-1 是个统的图像理解与生成模型。

在官展示中，Uni-1 具备角姿态迁移、故事板生成、草稿 + 材质结参考生成、草稿转漫画、多参考图场景成、草稿引的照片编辑、UV 贴图生成、带有文字的贺卡海报生成等诸多能力。

在多项任务评测中，Uni-1 不仅能对标 Nano Banana Pro、GPT Image 1.5，部分任务的表现是达到世界先水平。

例如下面这个案例，Uni-1 拿捏细节，在风格致、元素融度和细节上胜筹。

令人意外的是，能实现如此惊艳果的 Uni-1，背后并非大厂重兵投入，而是支不到 15 人的华人研究团队。

Uni-1 发布后评论片叫好，甚至引来谷歌 DeepMind 席科学、Nano Banana 项目技术负责人 Oliver Wang 点赞：

英伟达机器人主管 Jim Fan 也送上了祝福：

Uni-1 果到底有多炸？话不多说，来看多图。

解锁多元创作场景马年新春贺卡

先来个简单的测试：

生成张马年新春贺卡，要包含"新春快乐"、"马年大吉 · 万事如意"、"马年二〇二六"等中文文字。

Uni-1 生成的贺卡文字内容完整、排版理，马的形象和传统剪纸风格度致。相比之下，GPT Image 1.5 出现了文字混乱，Nano Banana Pro 的文字渲染也有明显瑕疵。

中文文字渲染直是图像生成模型的"照妖镜"—— Uni-1 交出了份相当能的答卷。

多参考图场景成

给模型 5 张参考图——两只猫、两位男士、Luma AI 的 logo ——要求成个会议场景：

只猫展示 Luma AI 幻灯片，另只猫旁听，同时融入真人照片和 logo。

Uni-1 精确了每张参考图的身份特征——猫的毛花纹、男士的五官和发型、logo 的细节——并将它们理地组织进了同个场景。

GPT Image 1.5 则把参考图片直接"贴"到了幻灯片上，而 Nano Banana Pro 连基本的参考图融都没做到。

信息图提取

给模型张地铁站实拍的" THE BEES NEED YOU "公益海报，要求提取为可直接用于生产的信息图——生成完整图片，不带占位框，准确信息图中所有可见文字。

这个任务同时考验"看"和"画"两种能力：

先要理解实拍海报里的全部信息层，再要重新生成张排版清晰的信息图。

Uni-1 准确了完整的海报布局、所有文字、正确配，以及黑草地剪影和正确的纵横比。GPT Image 1.5 部分文字颜错误，底部文字全部缺失，野花种子和蜜蜂的 logo 也出了问题。Nano Banana Pro 整体布局尚可，但底部文字同样缺失。

草稿转漫画

奥力斯 pvc管道管件胶批发联系人：王经理手机：15226765735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

再来看生成能力——把张粗糙的草稿（猫站在书架上，旁边有人说" Hey! Get down from there! "）转化为业漫画。

Uni-1 地将草稿意图转化为业漫画：分格构图、对话气泡的位置和向都，所有细节完整保留——猫耳朵、翘起的尾巴、卷烟缸、书架上的书，甚至手机屏幕显示着 911。

钢琴前的生：6 帧故事板

下面可能是能体现 Uni-1 实力的 demo 之。

要求：生成 6 帧故事板，展示同个角从童年到老年在钢琴前的生。个人从男孩到少年、到青年、到中年、到老年，后变成人在台上的大照。

6 帧画面中角身份保持致——同张脸，钢琴、透视和画风不变，仅人物形象和背景随时间变化。这种跨帧的角致和时间叙事能力，是当前图像模型的核心难题之。

UV 贴图生成

给模型个人从不同角度拍摄的三张照片（正面、左侧、右侧），要求生成张标准面部拓扑的展开 UV 贴图。

UV 贴图是 3D 建模中的核心环节，对面部对齐、左右对称和肤致要求。

Uni-1 生成的 UV 贴图在这三个维度上都明显优于 GPT Image 1.5、Nano Banana Pro：

GPT Image 1.5 的正脸和侧面贴图出现了不致，Nano Banana Pro 则没能生成符标准 UV 布局规范的结果。

能搞定这种业 3D 任务，说明 Uni-1 不只是"画图好看"，而是真正具备了对三维空间结构的层理解。

不到 15 人，凭什么？

看完果，你可能会好奇：这些通常只在大厂才能看到的结果，到底是怎么从个不到 15 人的团队手里做出来的？

答案或许就藏在这支团队的两位研究负责人身上。

宋佳铭，万能胶生产厂家清华大学本科，斯坦福大学博士。

他广为人知的贡献是发明了 DDIM（Denoising Diffusion Implicit Models）。如果你用过任何基于扩散模型的图像生成工具，从 Stable Diffusion 到 DALL · E，背后几乎都离不开 DDIM 带来的采样加速技术。

这篇论文至今被引用过万次，并获得 ICLR 2022 Outstanding Paper Award。

沈博魁，斯坦福大学本科及博士。

他的代表作获得了 CVPR 2018 Best Paper Award —— CVPR 是计机视觉域的顶会议，每年仅有少数论文能获此殊荣。此外，他还入选了 RSS 2022 Best Student Paper Finalist。

位是扩散模型加速的奠基人，位是计机视觉的顶研究者——两位华人学者联手，带支精锐小队，选择了条和大厂截然不同的路线：

不是把理解和生成分开做，而是用个统的模型把两件事起搞定。

统模型：给逻辑大脑长出"心灵之眼"

Uni-1 的核心理念，用 Luma 自己的话说，就是"给逻辑大脑长出心灵之眼"。

传统路线下，图像理解（看图说话、物体检测）和图像生成（文生图、图像编辑）是两套立的系统。但 Uni-1 采用了种 decoder-only 自回归 Transformer 架构，将文本和图像表示在同个交错序列中——既是输入，也是输出。

这意味着，Uni-1 不需要分别训练"理解模块"和"生成模块"，而是在个统框架内同时建模时间、空间和逻辑。

有意思的是，Luma 发现生成训练能显著提升理解能力。换句话说，当模型学会"画画"之后，它"看图"的能力也变强了——这和人类的认知规律竟然度致。

在理式生成任务中，Uni-1 会在成图像前进行结构化的内部理：先分解指令、规划构图，然后再渲染输出。

这种"先想后画"的能力，让它在RISEBench（评估时间理、因果理、空间理和逻辑理四个维度的基准测试）上取得了世界优成绩。

在开放词汇密集检测（ODinW-13）基准上，Uni-1 同样展现出了强劲的竞争力——要知道，这是个传统上由纯理解模型主的域。个统模型能在理解任务上也不输门的理解模型，本身就已经是个重要的信号。

为什么这很重要？

把 Uni-1 放到大的 AI 行业图景中看，有两件事值得关注：

，统模型可能是下代视觉 AI 的向。

当理解和生成不再是两个立系统，而是同个模型的两面，很多过去需要复杂 pipeline 的任务——多轮编辑、参考图成、风格迁移——都可以在个模型内优雅地完成。Uni-1 已经在这些任务上展示了这种优势。

二，顶 AI 研究不定需要万人团队和限力。

不到 15 人的华人研究团队，在个被 Google 和 OpenAI 主的赛道上做出了世界的成果。这再次证明：在正确的技术路线上，优秀的人才密度可以弥补资源的差距。

Luma 表示，Uni-1 只是步。下阶段，这个统框架将从静态图像扩展到、语音、交互式世界模拟——终目标是构建能够"看、说、理、想象"的统多模态系统。

从个不到 15 人的华人团队开始，这个目标或许并不遥远。

Luma AI 官博客：https://lumalabs.ai/uni-1

* 本文系量子位获授权刊载，观点仅为原作者所有。

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见

相关词条:罐体保温塑料挤出设备钢绞线超细玻璃棉板万能胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定大兴安岭万能胶，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：本溪海绵胶精品咖啡，难服大众

下一篇：宜昌橱柜台面胶印度的海岸线, 远看是老天爷赏饭吃, 近看却是逗你玩儿!

新闻资讯

大兴安岭万能胶 黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR佳论文作者带队

大兴安岭万能胶黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR佳论文作者带队