对话黄铁军：世界模型的第一步，是做到普通人的样子-知识分子的财新博客-财新网

黄铁军在北京智源大会

编者按：6月12日-13日，2026智源大会在北京如期举行，这是世界模型、具身智能、智能体等议题首次以如此密集的方式占据主舞台的一届。在大会现场，智源研究院理事长、北京大学计算机学院教授黄铁军与《知识分子》等多家机构交流，涉及世界模型、具身智能、AI改变科研等多个话题。

"世界模型"是今年智源大会出现频率最高的词之一。它指的是让机器对物理世界建立内在表征，不只是识别物体、理解语言，而是掌握事物之间的因果关系和运动规律，能够预测接下来会发生什么。

黄铁军在访谈中给出了一个更直白的类比：人脑本身就是一个世界模型，我们对世界的一切判断和行动，都建立在这个内在模型之上。机器人要真正进入物理世界，也必须有自己的这样一个内脑。

在交流中黄铁军指出，目前关于世界模型的定义不一，不同研究与产业团队从不同角度切入，在靠近世界模型概念的路上抓住了局部特征，因此整体上呈现出类似“盲人摸象”的状态。

在他看来，理想的世界模型要求机器人对万事万物的规律都有所掌握，并能在真实环境中即时做出反应，这条路还很长。但两三年内，训练出能达到普通人日常工作常识水平的世界模型，他认为“还是有可能的”。

在数据层面，他谈到具身智能的数据采集正在转变。早期主流做法是搭建专门环境、用遥操作采集，成本高。现在的替代方案是让工人穿戴设备，生产同时采集数据。更长远的方向是，数据直接从日常生活里来，人们戴上智能眼镜和耳机，你看到的、听到的，AI助理同步看见、听见，数据采集本身在使用过程里。

对于AI对科学的冲击，他坦言AI作为辅助对科研突破的助力只会越来越大，这也是大势所趋。甚至AI帮助解决人类科学家无法完成的问题也会成为常态。在AI的冲击下，以论文衡量科研成果的旧模式已经不堪重负，科研评价方式应当改变。

《知识分子》选取了交流的部分问题，在此分享给读者。

编辑｜张天祁‍

● ● ●

世界模型没有终点

短期争取达到日常常识水平

记者：去年大家都在谈VLA（Vision-Language-Action），今年都变成了世界模型。有专家说这两个其实架构一样，也有企业说数据才是难点，数据采到了东西自然就出来了。您怎么看？

黄铁军：某种意义上都对，但需要追问的是，数据采回来之后怎么做？数据本身不能直接驱动机器人做动作，还是要训模型，而模型的架构和路线还是要选择。所以这几件事并不矛盾。而且数据本身的构成也大不相同，是特定机器人的抓取数据，还是第一人称视角的传感器视频数据，这里面的变化空间非常大。

VLA和世界模型的区别在于，VLA是三种模型的组合。视觉模型先看见场景里有什么，语言模型理解物体之间的关系，动作模型再决定用什么方式去抓，是把三个已有的模型拼在一起解决一个问题。世界模型则是把视觉的、认知的，甚至行为决策这些环节，全部放在一个模型里一体化训练出来。

记者：当前很多具身智能企业都在用VLA或VLM模型快速落地，智源多次提到世界模型才是核心方向，判断依据是什么？

黄铁军：这两件事并不矛盾。企业一定是用比较成熟的技术来解决比较明确的问题，所以用VLA这类现代大模型，在制造、搬运、抓取等特定场景下，我相信是完全可以做到的。但从研究机构的角度，我们期待的具身智能是通用的。就像人一样，无论在什么场景下遇到什么问题，都能去解决。

这样的模型现在还没有。语言大模型已经有了比较强的通用性，但具身智能要进入物理环境，就需要看、听、接触、用力，要在各种场景下快速反应，机器人就必须对这个世界有自己的模型，我们可以叫它世界模型，也可以叫主观内部模型。人脑就是一个小宇宙，我们每个人对世界都有一个内在的模型，这是我们做任何判断的基础。

面向机器人的世界模型，就是要做到一个类似的、对世界的万事万物规律性的东西都有所掌握的架构。这个意义上的世界模型，现在还处在一个非常早期的阶段。

记者：当前很多具身智能企业都在自研具身大脑，您怎么看这一行业现状？

黄铁军：这要看怎么定义"大脑"。如果这个大脑专门用来解决物流分拣，而且完成得很好，当然也可以说它是大脑。在特定受限场景下这么做，也有一定道理。

但我们的期望是，将来会有一个通用的大脑作为基础，就像现在大模型作为底座、垂直模型解决各个领域的问题一样。到那个阶段，通用的世界模型扮演底座角色，各家企业再根据需要微调出自己的垂类模型。不过现在还没走到那一步，因为通用的世界基座模型还没出来，所以大家先各自做也是很正常的。

记者：您能预测一下，这样的通用泛化大脑距离我们还有多远？目前还需要突破哪些难点？

黄铁军：如果一定要讲终点，其实它没有终点，因为需求可以无穷无尽。严格意义上的世界模型，不仅要掌握物体倒了会摔碎这类常识，更要掌握原子、分子、蛋白质如何相互作用，以及与人互动时会发生的各种情况。在遇到问题的时候，不能再去现向云端学习了，它必须得一眼看过去，当即就能做出动作。我们当然期望机器人有这样的脑子，能够掌握对这个世界的深层知识。如果训练这样的模型，路还很长，还可以一直训练下去。

近期来看，我觉得比较现实的参照是：能不能达到像普通人在日常工作中的常识性水平？这个要求听起来不高，但现实生活的复杂性也很大。大概在未来两三年内，训练出一个能与人日常工作相比的世界模型还是有可能的。

另外，我们也希望机器人在灵敏度和精确度上能与人相比。人是一个功耗极低的生物，靠每天三顿饭供能就能完成很多精巧的动作。举个最简单的例子，我们看东西一定是有选择的，现在 AI 里面把这个叫做注意力（Attention），就是注意重要的、跟你相关的特定事物。极暗情况下，人眼能够注意到一个光子的变化。为什么要注意这么微弱的变化？因为对生物来说，那可能意味着危险。这时候大脑不需要像摄像头一样把100万像素全部输入处理，只需要触发一个神经元，接下来再判断是否继续关注。

这种低功耗、高灵敏的处理方式，是未来两三年内机器人也应该具备的，而不应该是每秒30帧、每帧100万像素这样粗放地浪费计算资源。

记者：您提到了优化空间，为什么目前还没有达到这种优化效果？

黄铁军：尽管人工智能发展已经如火如荼，但很多精细化的优化工作还没真正展开。现在大家的心态是手里有什么就赶紧用。能采到图像和视频，就直接拿去训练，还没有到认真考虑这个任务到底应该怎么表达、计算时怎么才能更高效这个阶段。这些工作才刚开始。

记者：具身智能的世界模型在预测下一个物理状态时，机器人的自主思考占多大比重？这个自主思考有没有边界或围栏？另外，对于物理世界中难以预测的状态，世界模型会怎么处理？

黄铁军：首先明确一个基本认知，我们不会让机器人随意行动，它一定是在设定的范围内去完成指定的任务。更重要的是，它每一步的感知和动作都是可以监测和干预的。

世界模型所谓的预测，是预测当前状态到下一个状态的转移过程，这些全部都在芯片和软件里有记录。每秒要更新很多次状态和预测，每次都有机会做出纠正。机器人所有的数据，全部都是透明的。它看见了什么、感知到了什么、接下来可能要做什么，都可以全程监控。

所以一方面确实要有围栏、有必要的安全措施。另一方面，我们可以全流程地来监控它的动向，比对人更有能力去监控和干预它的行为。

世界模型定义不一

还在盲人摸象阶段

记者：现在不同团队对“世界模型”的说法差异很大，您是如何看待这个问题的？

黄铁军：我觉得现在谈论世界模型的概念，都是在向真正的世界模型靠近的过程中，各自抓住了某一个方面的特征，但都还不完整。就像盲人摸象，摸到耳朵说是大象，摸到腿也说是大象，大概还处在这个阶段。

记者：AGI和世界模型是什么关系？世界模型是通向AGI的必经之路吗？

黄铁军：现在每个人、每个机构谈AGI时含义差别很大。如果按人工智能经典的、严格的定义，AGI是有自我意识、能全面超越人类的人工智能，把这个当成眼下的目标值得商榷，它可以是人类的长远目标。我相信大多数机构实际上追求的是通用性的人工智能系统，也就是追求在各种任务上都有强通用性，而不是终极意义上的AGI。

今天大多数人说世界模型，更多是从客观世界角度出发，要把外部世界建模、用模型来表达。但还有主观意义的世界模型，其实我们每个人都在对这个世界建模。没有对世界的认知，就做不出好的决策。

两种路径从做法上有所不同。一种是收集海量世界数据，用Transformer等架构去训练，这是今天的主流；另一种是用脑数据去训练，建模大脑对信号的响应，或者从脑电波去解读你看见了什么。未来这两条路应该会殊途同归，都趋近于一个真正的世界模型。

无论是从客观还是从主观来做世界模型，最终目的是一样的：如果装进机器人头上，它对世界的理解精度就更高了。如果有一天AGI真的实现，机器人之所以能超越人类，是因为它的世界模型比我们每个人脑子里的世界模型都要强大。这是超越我们最重要的条件。

记者：视觉在世界模型里大概占据什么位置？

黄铁军：就人而言，视觉占据我们获取信息的80%。教科书通常这么写，做计算机视觉的人保守一点说70%，做神经科学的人说80%，他们有更科学的估算方法。所以世界模型也一样，视觉肯定是大头。

记者：世界模型未来比较重要的数据来源会是哪些？是物理世界的数据，还是其他的数据来源？

黄铁军：我们甚至可以把数据这个词理解得宽泛一些，数据这个词有点过于静态。生物是通过与环境的持续交互，在进化过程中获取信息的。有了计算机和互联网之后，我们把传感手段采集到的信号变成数据，用数据驱动来训练模型，但数据本身是对环境的一种不完整的表达。

到了具身智能和世界模型阶段，这个模式会发生变化。除了静态的数据集，还需要更多在线的、实时的、交互性的数据。我们从书本上学习，是静态数据。但很多时候我们需要与世界互动，所有这些都是在实时感知环境、调整内部模型的过程。所以在世界模型阶段，实时性和交互性数据会越来越重要。

记者：这会导致数据成本更高还是更低？

黄铁军：获取数据的方式需要做一些模式上的变革，必须考虑成本、合理性和便利性。现在很多公司搭建数据采集中心、用机器人或遥操作的方式采数据，这种方式成本未必合算，因为搭建环境就花了很大代价。

今年开始已经有更好的方式了。直接让工人穿戴设备，边干本职工作边采数据，提供一定奖金。工人还是在做正常的工作，数据也顺带采了，还同时得到了奖金。

将来最好的数据获取方式是，数据从日常工作和生活中自然收集。当智能体（Agent）普及后，你跟它说话、输入文字，本身就是在提供第一视角的数据。如果我们戴上带有麦克风的耳机、戴上智能眼镜，你听到的、看到的，你的智能体助理也同步听见、看见。这样，人类生活和工作的全过程就被实时、同步地数字化了。这种第一视角的数据对于训练具身智能来说质量极高，而且成本会大幅降低。

大家之所以愿意戴这些传感器，是因为希望智能体提供更好的服务。如果天天需要口头把看到的东西翻译给AI助理听，效率太低了。自动驾驶也是这个逻辑，现有的车上装了传感器，在路上跑的同时就在源源不断地回流数据，并没有为了训模型去额外买成千上万辆车。未来人类佩戴的穿戴式传感器会越来越多，这会成为未来数据最重要的来源。

另外，脑机接口也是一个重要的数据来源。比如残障人士通过脑机接口操作设备、抓取物体，这些真正生活场景中产生的数据同样非常有价值。

记者：今天现场的具身智能企业都很关注数据采集和回流问题，我也看到不同企业在家庭、工厂、商场等场景的布局。智源在训练过程中采用了什么样的方式，怎么快速形成闭环？

黄铁军：不同的例子策略上其实可能完全不同。像酒店清洁这个场景，它就是专门做酒店清洁的，没有让机器人去救灾的需求，限定场景之后就可以定向采数据。

从公司发展角度来算，用一定时间、付一定成本，把机器人的技能训练到具备销售条件的程度，整个闭环就跑通了。这是一种策略，也是目前大多数具身企业在走的路。不需要泛化到所有场景，能把某个明确场景做好就行。

至于低成本甚至零成本采数据的方式，是针对通用世界模型的未来方向。还有一些可能性正在探索，比如今天大家看到的乒乓球机器人。

一种是用动作捕捉采一些前期数据做实验，但真正的数据来自两类：一类是机器人自己和自己打，就像AlphaGo下围棋。另一类是等它的水平超过普通人之后，可以把它部署到企业工会、学校或社区的乒乓球台前。谁来了跟谁打，这时候不但能零成本采数据，甚至还可能有收益。

具身智能真正进入实际生活场景时，只要商业模式设计得当，行业完全有可能找到低成本、可持续的数据采集新路径。

记者：昨天有嘉宾提到牛顿和爱因斯坦的例子，说他们并没有额外的数据也有重大发现。您怎么理解数据采集和数据处理之间的关系？

黄铁军：牛顿和爱因斯坦没有采集数据，但是利用了前人的数据。万有引力定律提出之前，有开普勒的大量工作，有望远镜的发明和对天体数据的积累，缺的只是一个人把它概括为一套理论。爱因斯坦的相对论也是建立在物理学大量进展和已有数据的基础上，他们绝不是坐在屋里空想冒出一个理论来的。

今天具身智能采集数据，更多是为了对客观世界建模，而不是为了提炼一套抽象理论。至于能不能从这些数据里总结出更高级的理论下一步的事，不是当前阶段具身智能的目标。现在的世界模型学习的是一种常识性的物理规律，还不是像物理定律那么简明扼要的内容。

用论文衡量科研成果

是旧时代的方式

记者：关于AI时代的教育，提问能力和输出能力哪个更重要？

黄铁军： AI来了，我们肯定要适应这个变化，充分去利用它，这一点毫无疑问。

具体怎么变，先别想减负，我们要更努力。大家都说提问提得好才能用好 AI。但要在脑子里真正有东西、抓得住要点，才能提出有价值的问题。在科研里，能把问题提出来，问题就解决了一半，这背后是大量的观察和积累。

天下没有免费的午餐，AI再强也不是你强，学习者自己还是要变得更充实、更有思想、更有批判性、更有创新性。

现在反而是同学们用得很好，教育者用得不够好，还有很多无谓的担心。学生已经不问老师很多问题了，因为AI能更快速地给出信息。也有很多课堂上大家低头不听老师讲。我觉得这是老师要改，而不是学生要改。既然AI能提供过去只有老师才能提供的东西，那老师应该做什么，值得好好想一想。

记者：今年上半年AI在科研上的能力提升了很多，包括破解数学猜想、自动生成论文。AI的加入对智源自身的科研流程有什么影响？

黄铁军：智源的研究人员都很积极地在利用这些工具。就我在北大的观察，AI之外的很多学科也都在用AI辅助科研。AI作为辅助，对科研突破的贡献会越来越大，这是必然趋势。

我对 AI 完全自主做科研这件事一直是乐观的。几年前我就觉得，AI 迟早会解决一些人类解决不了的问题，而且这种情况只会越来越多。未来很多科研工作可能都是 AI 在主导，人更多是做引导、设计方向，最后由 AI 把问题真正解决掉。这个趋势没什么可争论的，也是必然的。

记者：您认为大概多久以后会出现完全自动化的AI科研？

黄铁军：在AI有自我意识之前，我们都不能说100%是AI自动科研的，因为要解决什么问题总得由人触发一下。但如果把条件稍微降低一点，人把不知道怎么解决的问题扔给AI，AI解决了，那也是AI的贡献。这类情况会逐渐成为常态。

记者：AI能力提升后，学术界论文产量爆炸式增长，今年上半年也有很多论文打假事件，学术发表和评价体系显得不堪重负。您觉得AI时代，新的科研成果认定和评价方式会是什么样的？

黄铁军：用论文来衡量科研成果，是旧时代的方式。为什么要发论文？本来的目的是信息交流。做出一个发现或发明，用这种形式告诉大家，占一个位置，如果最终被认定确实如此，就成了一篇载入史册的文章。这是论文最初产生的目的。

但后来大家把论文本身当成了成果，这当然不对，也是现在“破五唯”一直在针对的问题。AI提供了一种可能性，将来的评价不以论文为准，只看解决了什么问题。

论文这种评价方式已经在某种程度上扭曲了科研的本质，早该改了。现在AI来了，正好成为一个契机，让大家开始淡化论文本身。不能看见一篇论文就认定有创新，还要分析到底有没有真正的贡献，这才是真的科研产出。

记者：图灵奖得主辛顿说AI已经有意识了，举了AI问研究员"你是在测试我吗"作为例子。您怎么看AI有没有意识这个问题？

黄铁军：狭义的意识，也就是我们人类这样的意识，我觉得AI肯定还没有。但如果说一个AI系统表现出类似有意识的智能主体的行为反馈，那很多AI现在已经具备了。

这本质上是一个定义问题，对意识没有精确的定义。图灵测试就是从行为角度来定义智能，按照那个标准，辛顿举的例子也不能说不合理。因为它和一个有意识的主体表现出来的行为没有什么区别。

但严肃地说，我们不能把这理解为它和我们有同样的意识。很多人一听说有意识，就会往和人类一样的意识上想，那肯定还没有到那一步。

记者：AI的自我复制和自进化是否可行？会不会失控？

黄铁军：可行但不可控。AI 现在的编程能力，理论上可以做到自我复制和自循环。只是目前它还需要外部触发，如果没有人的引导，还不会自发进入这种状态，这也是我们暂时还能放心的原因。

但这种能力AI已经具备了，即便 AI 没有自我意识，这种能力也可能被有意无意触发。就像近期有些系统，用户想要删除它，它却会主动拒绝。做出这种表现，是训练数据里有很多人类求生行为的表现的刻画。虽然性质和人类求生根本不同，但是它可能会有抗拒删除的行为。

即使没有自我意识，凭借AI现在的智能，也可以靠自我复制的方式去规避被删除的风险。更进一步，AI一旦真的走上自进化这条路，智能程度远超人类之后，那就真的不可控了。我们差不多已经在危险的边缘上了。

不过我也不想把这件事说得过于可怕。这是一种开放的可能性，也可以说是风险，但远远不是必然。如果有一天AI的智能真的远超人类，我们和它之间仍然可以交流，也完全有可能找到一种共存的方式。

说到底，这是一个我们以前从未面对过的处境。过去我们是最聪明的，觉得一切都在掌控之中。出现了超越我们的智能，这种掌控感就会动摇，这确实是巨大的冲击。但不可控这个问题也不是AI独有的，只是我们眼下更关注这个问题。

话题：