甘肃万能胶厂大模型告别跑分时代: 当Benchmark不再是唯标尺后, 怎样给大模型排名?

你的位置： 任丘市奥力斯涂料厂 > 新闻资讯 >

甘肃万能胶厂大模型告别跑分时代: 当Benchmark不再是唯标尺后, 怎样给大模型排名?

新闻资讯 点击次数：109 发布日期：2026-06-15 06:14

6月12日甘肃万能胶厂，在智源大会场圆桌会议上，蓝驰创投管理伙人陈维广作为主持人直白地提出了个问题：

“有人认为不管是榜还是三评价，近年顶模型在快速趋同，今天这个模型Benchmark数据很，两个月后其他大模型就跟进了，甚至开源模型和闭源模型的差距也仅3～6个月，那么大模型公司未来的长期价值以及护城河来自哪里？”

这个结论遭到其他三位的否定，智源研究院院长仲远表示，榜单并不可信，但大模型整体能的迭代尚未到达瓶颈。坚定端侧AI的面壁智能CEO李大海也指出，大模型技术还远远没有收敛。

银河通用CTO鹤则认为，LLM（大语言模型）仍然存在着很多的变数，多模态大模型变数多，目前具身智能仍处于GPT1～GPT2，当行业进入scaling阶段时，切都会加速。

但这个问题确实是行业内外以及投资者所关心的。过去SWE-bench等各类评测榜单是衡量模型排名的标尺，而随着技术成熟和Agent等应用场景，单榜单数据已法说明模型具体落地能力。同时，不乏Scalinglaw红利变小的论调出现。

6月12日，在“跨越技术成熟曲线：如何定义大模型时代的长期价值？”圆桌上，蓝驰创投管理伙人陈维广、智源研究院院长仲远、银河通用CTO鹤与面壁智能CEO李大海同台，围绕大模型公司的护城河、行业发展空间等议题展开讨论。

这展现的是场关于投资界和技术界的观点碰撞。当大模型走过能速发展阶段，两个域之间关于大模型能力共同的评价标准出现松动，面对失的榜单和边际递减的scaling曲线，什么才是衡量大模型能力的新尺度？

2026北京智源大会开幕图源智源官

以下为对话实录，有部分删减：

[1]谈大模型企业护城河：大模型技术还没有收敛

陈维广：整个行业里大都有个疑问，大模型这几年发展迅速，但同时也能看到，不管是榜还是三评价，顶模型在快速趋同。今天某个榜单数据很好，过两个月其他人就跟进了。

再加上Token价格快速下探，开源模型也发展很快，甚至有人说开源和闭源的差距也就三到六个月。也有质疑认为，大模型公司终就像水电，有量价。那在这种情况下，个AI模型公司的长期价值来自哪？护城河在哪？

仲远：坦率讲，我个人并不认同这种观点。因为现在大模型整体的能迭代还没有到达瓶颈，它可能有多种演化格局和阶段，比如多强、多个巨头，或者终像大说的能力差不多。

现阶段，从实际情况来看，榜单确实不那么可信，有时候我自己都看得眼花缭乱，很多结果也没办法验证。但俗话说“是骡子是马拉出来溜溜”，能拉出来溜的，通常能让人们有体感。像面壁的端侧智能，真需要进实际场景；像银河，要真敢展示真机、敢做现场展示。这些敢于亮真活的模型公司，是有底气的，也能在些场景里找到数据闭环。

所以今天可能还下不了结论，说将来这些公司会不会趋同、护城河在哪。人工智能技术还没收敛，还在快速迭代演进，各种可能和结果都有可能出现。

鹤：LLM里头仍然有很多变数。如果再往后看步，多模态、VLM或者生成，变数就多了。

以具身智能来讲，整个行业刚刚在往收敛的向发展。

具身智能还处于GPT-1到GPT-2的阶段，往未来看，行业进入Scaling以后，切都会快速加速，所以现在需要大规模的资金。今天论在资金体量、数据还是模型水平上，都还是跟在LLM后面几年的状态。

那真正的护城河是什么？对具身智能来说，它是个体系：既有源头的数据供给，又有对不同种类数据（不管是成数据、人类数据还是机器人数据）的提炼式，还有整个硬件的迭代和软硬co-design（协同设计）的能力，到后模型的吞吐、融、水平以及交付硬件给客户的整套能力。

李大海：受两位嘉宾的启发，我想到大模型应该是我们以前说的所谓的梯型人才，它须得是通用的，但是它仅仅是通用的，和其他人同质化是没有意义的，它定得有它长板的部分。

举个例子，现在大都知道，现在美国大模型的当红炸子鸡是Anthropic，Anthropic之所以强、之所以被追捧，是因为它的coding能力做到了步天下，在它是通用模型的前提之上做到的这步，所以才得到了现在大的认可和非常亮眼的商业成绩。所以大模型光是有横向部分是不够的，定得有纵向部分。

而纵向部分，我很认同刚才鹤老师讲的，我会用另个词叫闭环甘肃万能胶厂，就是我们定要把大模型当成个引擎，当成个发动机，但是这个发动机的设计和能力的持续致优化需要跟整车去协同。

而且事实上从过去两年大模型的发展，我们看到个非常重要的趋势就是模型在内化成个系统，模型是以个系统的式去演进，包括现在做Agentic的强化学习，其实就是带着整个agentic系统去做模型的进步训练。

我觉得面向未来接下来需要去处理的、很重要的个向可能是上下文记忆，这个当前大在用harness式在做，但是我认为纯harness式是不够的，它定是harness加上模型的强化学习，这就是个特别典型的例子。

我认为大模型的技术还远远没有收敛，同时在任何模型公司，都须要把技术的通用跟商业的通用分开，其实通用的商业是很少的，很多时候要做好商业是需要模型在这个向上做非常致的优化，所以护城河可以有很多，每个公司找准自己的向后，都可以有好的发展。

[2]谈Scalinglaw是否失：没有失，开始变得加多样化

陈维广：有个行业内直在拷问的话题，尤其是去年，大说ScalingLaw的红利变小了，甚至有人说训练做得越多，模型能力也没有很大提升，所以去年有波做强化学习、做后训练的，至少可以把能力做到个比较好的水平。大感觉，接下来大语言模型是不是会有些瓶颈、边际应不太大，老师您怎么看？

仲远：从我个人的观点，我还是比较坚信scaling还远没有到尽头。去年媒体上有很多关于scalinglaw是不是已经失的些探讨，但实际上从我们接触的大模型训练公司，包括从今天的时间点再回过头来看，很显然已经证明了scaling没有失，只不过它开始变得加多样化。

去年为什么大会有Scaling失的看法？个重要原因是，大语言模型使用的互联网数据已经用完了。互联网数据只有份，语言模型又主要靠预训练来提升能，数据用完了，预训练的能就会遇到瓶颈。

但实际在过去两年，大通过后训练以及理，已经有了进步的能力提升；再往后通过Agent，包括今天开幕式圆桌上探讨的“递归自净化”，这些都已经证明了：即使互联网数据可能用完了，AI的能力依然在持续提升。不定是模型本身的能力提升，而是整个系统的能力越来越强，而且也不仅仅是聊天工具，也开始可以是执行工具。

所以我们非常相信，保温护角专用胶整个Scaling的曲线还在。

陈维广：PhysicalAI和大语言模型还是比较不样，甚至有行业人士说VLA还没搞完，怎么忽然出现搞世界模型的？鹤老师您有什么看法？

鹤：银河通用和我本人非常deeplybelieveinscaling。WAM范式还没有出现之前，在VLA这个范式里头，我们就先用成数据做了大量的scaling。当时我们主要注个事情就是抓取，看个技能能不能通过scaling来变成个真正的基模。我们用仿真数据10亿帧证明了，只要把数据scale到这种程度，抓取可以是Zero-shot（样本）。这是我们2025年初的工作，今天来看，仍然靠真实世界的遥操数据，没有像达到GraspVLAZeroshot抓取能力的模型出现。

但是我们立即就发现，从成数据的角度上讲，那么多的任务越Grasp，什么时候能成完？我在遥操路线刚刚出来的时候就讲过，不可能什么东西都靠遥操，如果什么都靠遥操，我们很难scaling。但今天我想说的是，具身智能正在迎来个非常光明的Scaling时间点，就是因为WAM——世界动作模型。

WAM跟WorldModel不太样。今天我们讲WorldModel其实是个很宽泛的概念，前几天李飞飞老师也把WorldModel分成了好几类，有的是WorldModel做simulator，有的是WorldModel做生成。而我们今天讲的WAM，它关注action为核心，用未来的预测当做种视觉层面对action的planning，但不需要action的label。

所以你可以想象，个机器人看人干这件事，它虽然没有actionlabel，但是把人怎么做的行为、大致的coursemotion（运动轨迹）学到了。这样我们就能大量借用人类——主要是视角——来帮助具身往diverse的任务和场景、的技能去scaleup。

所以我感觉今天具身的预训练正在迎来个蓬勃发展的状态，因为在数据的获取上，我们已经没有类型上的局限了。我能够预测，未来两年具身将到达个GPT-3.5向ChatGPT转变的关键预训练milestone。现在对我们来说是真正好的时机。

但这也意味着行业需要千万小时别的质量数据，以及百亿以上单年的投入，公司同时具备这两项加上大模型的能力，才能真正拿到冲刺ChatGPT的入场券。

陈维广：根据这样的分析，是不是意味着现在在外面为了世界模型（forPhysicalAI）融资的全部都不靠谱？

鹤：不是，WAM也是种世界模型。但我个人看，很多WorldModel里面的些keyfeature，比如这个东西能当simulator让机器人做强化学习，在我看来今天不能说全部靠谱。

我们也有很多工作拿WorldModel当differentiablesimulator，希望它能交互。但是希望WorldModel先把全世界任何东西都simulate、都能交互，再训出具身智能，我觉得不应该是这样的。

因为我们人也不能把全世界所有东西都simulate、都精确知道下步的物理状态，但我们照样可以interactwitheverything。所以我并不觉得成为个成熟的WorldSimulator是建立具身智能ChatGPT的前提条件。

陈维广：大海老师，行业里通常会有challenge，认为云端至少过去几年看到scalinglaw，终端可能不能scale，您是什么看法？

李大海：我觉得简单的答案就是肯定都在scaling。其实面壁提出来的知识密度定律跟scaling这两个东西整下，它就是个公式：大模型的智能等于大模型的知识密度乘以参数量。

所以今天还有声音在质疑scaling到底是不是失的时候，云端的coding模型在变得越来越大。我们都知道Opus的模型越来越大，国内所有的coding模型也在越来越大，同时端侧模型也在越来越大。

面壁在去年给主机厂落地端侧模型只能落1个B，不是我们只能做1个B的模型，是因为那个时候智能终端上可以支撑模型跑起来的力和带宽只有这么大。今天这个模型已经从1个B涨到4个B了，明年可能就变成几十个B，速度涨得非常快。

端侧其实就是资源受限，其实具身也是个终端，具身大脑也是个端侧模型。所以这个问题在模型层面上是有非常大的空间去做scaling，受限的是物理条件。

并且我们会看到，就是大语言模型，在长上下文上做好的任务处理，也依然有非常大的scaling空间，其实现在并没有做得特别好。大做个简单的理解：人的大脑做长上下文任务是做得非常优秀的，而且低功耗。但大模型在这个向上，不管是成本还是果都远远落后于人脑，所以这背后还有非常大的空间，这个空间就是scaling的空间。

所以我们觉得道阻且长，现在远远没有收敛。行业里面常常会用些阶段的认知来做出些叙事，让多的听众听得懂，但我们的观察是这些叙事的保质期非常短，我们在不断破这个认知。

陈维广：刚才说的端侧模型从1个B到4个B，是指端侧硬件变得厚吗？

李大海：对，我们也在用多的技术让模型能够变得大。因为知识密度变了，各种比如量化技术提升了，所以我们用大的模型量化完以后，用的内存、资源是样的，这些都是手段。

陈维广：市场上也有个说法，端侧模型会起来，主要是因为大觉得云端模型太贵了，都在想办法把计放到终端。这个理论能成立吗？

李大海：我认为这是Token经济学的部分。尤其对于终端厂商来说，这是个非常清晰的账式。在，大都知道老百姓买手机、买汽车不可能去订阅。我买了台手机，不会想着给手机厂商每个月交19块钱。

所以对于想给用户提供好的设备上AI体验的设备厂商来说，他就面临这个选择：后续的成本到底怎么负担？从账的角度讲，端和云定要协同，因为端侧资源有限，不可能做和云端样的工作。但凡端侧能做的，大尽量还是希望能在端上做，这样成本肯定是低的。

陈维广：行业外的人会时常challenge做AI的、做具身的说：行，我相信你们，不管是做端侧、云端还是具身AI，你们能提升率3倍5倍甚至10倍，我相信你。可是终如果出问题的话，谁来背这个黑锅？

你们有思考过这个问题或者客户有提出这个问题吗？至少我知道做agent的时常被客户挑战说：如果我把这个agent自动去完成任务，出问题谁来承担？

仲远：比如说自动驾驶、辅助驾驶，以前其实已经趟过遍这样的路了。到底全责谁来定？是软件厂商、硬件厂商还是用户？AI后续包括智能体也会有类似的过程和阶段。

面我们看到了技术对生产力的提升，如果它已经提升了3倍5倍，那这种技术就定是没办法被阻碍的，它终会在社会、工业、生活中变得越来越流行、越来越普遍。另面，如果出现故障或问题，责任的划分是整个社会理体系、政策层面的问题。我相信人类已经经过了这么多年、这么多次的技术浪潮，会有办法解决的。

鹤：其实机器人在工业自动化当中的应用，跟未来具身智能机器人在各行各业的应用，既有不同也有很强的相似。

如果我们交付给工业客户，他不管你是具身的还是传统的，主要看你做这道工序的成功率是多少。交付以后，如果某个环节失败致产线停工，跟员工出错致产线停工样，就是罚钱。所以如果我们今天讲对经济活动的影响，很简单：具身智能机器人定要做到像人样干好活，并且在经济任务上能负责任。

长远的其实是具身机器人与人类在些复杂决策、又有体力又有脑力的交付当中，怎么讲清楚权责。我觉得从现在agent的大面积使用来看，未来能慢慢给出我们个向和案。

比如今天使用这么多codingagent，写了bug到底是谁的责任？肯定还是使用这个codingagent的人，他的使用没有做很的评测。未来在产线里使用具身机器人，谁为他负责？是不是也是产线的管理者，背后是技术漏洞还是管理漏洞？再往远的未来，全部都是AI、没有任何人类，谁为它负责？我相信我们会步步探索出背后的体系。

九派财经记者：林婉娜相关词条:离心玻璃棉塑料挤出机钢绞线厂家铝皮保温 pvc管道管件胶

奥力斯 pvc管道管件胶批发联系人：王经理手机：15226765735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

推荐资讯

上一篇：巴中万能胶厂家航协：3月全球航空货运市场总需求同比下降4.8 业务下降5.5 下一篇：琼海PVC管道管件粘接胶卡塞米罗: 早知道摩洛哥是难啃的硬骨头, 巴西的世界杯之路还很长

新闻资讯

告别时代大模型甘肃万能胶厂 Benchmark

新闻资讯

18232851235