财新传媒 财新传媒

阅读:0
听报道

黄铁军在北京智源大会

编者按:6月12日-13日,2026智源大会在北京如期举行,这是世界模型、具身智能、智能体等议题首次以如此密集的方式占据主舞台的一届。在大会现场,智源研究院理事长、北京大学计算机学院教授黄铁军与《知识分子》等多家机构交流,涉及世界模型、具身智能、AI改变科研等多个话题。

"世界模型"是今年智源大会出现频率最高的词之一。它指的是让机器对物理世界建立内在表征,不只是识别物体、理解语言,而是掌握事物之间的因果关系和运动规律,能够预测接下来会发生什么。

黄铁军在访谈中给出了一个更直白的类比:人脑本身就是一个世界模型,我们对世界的一切判断和行动,都建立在这个内在模型之上。机器人要真正进入物理世界,也必须有自己的这样一个内脑。

在交流中黄铁军指出,目前关于世界模型的定义不一,不同研究与产业团队从不同角度切入,在靠近世界模型概念的路上抓住了局部特征,因此整体上呈现出类似“盲人摸象”的状态。

在他看来,理想的世界模型要求机器人对万事万物的规律都有所掌握,并能在真实环境中即时做出反应,这条路还很长。但两三年内,训练出能达到普通人日常工作常识水平的世界模型,他认为“还是有可能的”。

在数据层面,他谈到具身智能的数据采集正在转变。早期主流做法是搭建专门环境、用遥操作采集,成本高。现在的替代方案是让工人穿戴设备,生产同时采集数据。更长远的方向是,数据直接从日常生活里来,人们戴上智能眼镜和耳机,你看到的、听到的,AI助理同步看见、听见,数据采集本身在使用过程里。

对于AI对科学的冲击,他坦言AI作为辅助对科研突破的助力只会越来越大,这也是大势所趋。甚至AI帮助解决人类科学家无法完成的问题也会成为常态。在AI的冲击下,以论文衡量科研成果的旧模式已经不堪重负,科研评价方式应当改变。

《知识分子》选取了交流的部分问题,在此分享给读者。

编辑|张天祁‍

 ●                  ●                   ●

01

世界模型没有终点

短期争取达到日常常识水平

记者:去年大家都在谈VLA(Vision-Language-Action),今年都变成了世界模型。有专家说这两个其实架构一样,也有企业说数据才是难点,数据采到了东西自然就出来了。您怎么看?

黄铁军: 某种意义上都对,但需要追问的是,数据采回来之后怎么做?数据本身不能直接驱动机器人做动作,还是要训模型,而模型的架构和路线还是要选择。所以这几件事并不矛盾。而且数据本身的构成也大不相同,是特定机器人的抓取数据,还是第一人称视角的传感器视频数据,这里面的变化空间非常大。

VLA和世界模型的区别在于,VLA是三种模型的组合。视觉模型先看见场景里有什么,语言模型理解物体之间的关系,动作模型再决定用什么方式去抓,是把三个已有的模型拼在一起解决一个问题。世界模型则是把视觉的、认知的,甚至行为决策这些环节,全部放在一个模型里一体化训练出来。

记者:当前很多具身智能企业都在用VLA或VLM模型快速落地,智源多次提到世界模型才是核心方向,判断依据是什么?

黄铁军: 这两件事并不矛盾。企业一定是用比较成熟的技术来解决比较明确的问题,所以用VLA这类现代大模型,在制造、搬运、抓取等特定场景下,我相信是完全可以做到的。但从研究机构的角度,我们期待的具身智能是通用的。就像人一样,无论在什么场景下遇到什么问题,都能去解决。

这样的模型现在还没有。语言大模型已经有了比较强的通用性,但具身智能要进入物理环境,就需要看、听、接触、用力,要在各种场景下快速反应,机器人就必须对这个世界有自己的模型,我们可以叫它世界模型,也可以叫主观内部模型。人脑就是一个小宇宙,我们每个人对世界都有一个内在的模型,这是我们做任何判断的基础。

面向机器人的世界模型,就是要做到一个类似的、对世界的万事万物规律性的东西都有所掌握的架构。这个意义上的世界模型,现在还处在一个非常早期的阶段。

记者:当前很多具身智能企业都在自研具身大脑,您怎么看这一行业现状?

黄铁军: 这要看怎么定义"大脑"。如果这个大脑专门用来解决物流分拣,而且完成得很好,当然也可以说它是大脑。在特定受限场景下这么做,也有一定道理。

但我们的期望是,将来会有一个通用的大脑作为基础,就像现在大模型作为底座、垂直模型解决各个领域的问题一样。到那个阶段,通用的世界模型扮演底座角色,各家企业再根据需要微调出自己的垂类模型。不过现在还没走到那一步,因为通用的世界基座模型还没出来,所以大家先各自做也是很正常的。

记者:您能预测一下,这样的通用泛化大脑距离我们还有多远?目前还需要突破哪些难点?

黄铁军: 如果一定要讲终点,其实它没有终点,因为需求可以无穷无尽。严格意义上的世界模型,不仅要掌握物体倒了会摔碎这类常识,更要掌握原子、分子、蛋白质如何相互作用,以及与人互动时会发生的各种情况。在遇到问题的时候,不能再去现向云端学习了,它必须得一眼看过去,当即就能做出动作。我们当然期望机器人有这样的脑子,能够掌握对这个世界的深层知识。如果训练这样的模型,路还很长,还可以一直训练下去。

近期来看,我觉得比较现实的参照是:能不能达到像普通人在日常工作中的常识性水平?这个要求听起来不高,但现实生活的复杂性也很大。大概在未来两三年内,训练出一个能与人日常工作相比的世界模型还是有可能的。

另外,我们也希望机器人在灵敏度和精确度上能与人相比。人是一个功耗极低的生物,靠每天三顿饭供能就能完成很多精巧的动作。举个最简单的例子,我们看东西一定是有选择的,现在 AI 里面把这个叫做注意力(Attention),就是注意重要的、跟你相关的特定事物。极暗情况下,人眼能够注意到一个光子的变化。为什么要注意这么微弱的变化?因为对生物来说,那可能意味着危险。这时候大脑不需要像摄像头一样把100万像素全部输入处理,只需要触发一个神经元,接下来再判断是否继续关注。

这种低功耗、高灵敏的处理方式,是未来两三年内机器人也应该具备的,而不应该是每秒30帧、每帧100万像素这样粗放地浪费计算资源。

记者:您提到了优化空间,为什么目前还没有达到这种优化效果?

黄铁军: 尽管人工智能发展已经如火如荼,但很多精细化的优化工作还没真正展开。现在大家的心态是手里有什么就赶紧用。能采到图像和视频,就直接拿去训练,还没有到认真考虑这个任务到底应该怎么表达、计算时怎么才能更高效这个阶段。这些工作才刚开始。

记者:具身智能的世界模型在预测下一个物理状态时,机器人的自主思考占多大比重?这个自主思考有没有边界或围栏?另外,对于物理世界中难以预测的状态,世界模型会怎么处理?

黄铁军:首先明确一个基本认知,我们不会让机器人随意行动,它一定是在设定的范围内去完成指定的任务。更重要的是,它每一步的感知和动作都是可以监测和干预的。

世界模型所谓的预测,是预测当前状态到下一个状态的转移过程,这些全部都在芯片和软件里有记录。每秒要更新很多次状态和预测,每次都有机会做出纠正。机器人所有的数据,全部都是透明的。它看见了什么、感知到了什么、接下来可能要做什么,都可以全程监控。

所以一方面确实要有围栏、有必要的安全措施。另一方面,我们可以全流程地来监控它的动向,比对人更有能力去监控和干预它的行为。

02

世界模型定义不一

还在盲人摸象阶段

记者:现在不同团队对“世界模型”的说法差异很大,您是如何看待这个问题的?

黄铁军: 我觉得现在谈论世界模型的概念,都是在向真正的世界模型靠近的过程中,各自抓住了某一个方面的特征,但都还不完整。就像盲人摸象,摸到耳朵说是大象,摸到腿也说是大象,大概还处在这个阶段。

记者:AGI和世界模型是什么关系?世界模型是通向AGI的必经之路吗?

黄铁军:现在每个人、每个机构谈AGI时含义差别很大。如果按人工智能经典的、严格的定义,AGI是有自我意识、能全面超越人类的人工智能,把这个当成眼下的目标值得商榷,它可以是人类的长远目标。我相信大多数机构实际上追求的是通用性的人工智能系统,也就是追求在各种任务上都有强通用性,而不是终极意义上的AGI。

今天大多数人说世界模型,更多是从客观世界角度出发,要把外部世界建模、用模型来表达。但还有主观意义的世界模型,其实我们每个人都在对这个世界建模。没有对世界的认知,就做不出好的决策。

两种路径从做法上有所不同。一种是收集海量世界数据,用Transformer等架构去训练,这是今天的主流;另一种是用脑数据去训练,建模大脑对信号的响应,或者从脑电波去解读你看见了什么。未来这两条路应该会殊途同归,都趋近于一个真正的世界模型。

无论是从客观还是从主观来做世界模型,最终目的是一样的:如果装进机器人头上,它对世界的理解精度就更高了。如果有一天AGI真的实现,机器人之所以能超越人类,是因为它的世界模型比我们每个人脑子里的世界模型都要强大。这是超越我们最重要的条件。

记者:视觉在世界模型里大概占据什么位置?

黄铁军: 就人而言,视觉占据我们获取信息的80%。教科书通常这么写,做计算机视觉的人保守一点说70%,做神经科学的人说80%,他们有更科学的估算方法。所以世界模型也一样,视觉肯定是大头。

记者:世界模型未来比较重要的数据来源会是哪些?是物理世界的数据,还是其他的数据来源?

黄铁军: 我们甚至可以把数据这个词理解得宽泛一些,数据这个词有点过于静态。生物是通过与环境的持续交互,在进化过程中获取信息的。有了计算机和互联网之后,我们把传感手段采集到的信号变成数据,用数据驱动来训练模型,但数据本身是对环境的一种不完整的表达。

到了具身智能和世界模型阶段,这个模式会发生变化。除了静态的数据集,还需要更多在线的、实时的、交互性的数据。我们从书本上学习,是静态数据。但很多时候我们需要与世界互动,所有这些都是在实时感知环境、调整内部模型的过程。所以在世界模型阶段,实时性和交互性数据会越来越重要。

记者:这会导致数据成本更高还是更低?

黄铁军: 获取数据的方式需要做一些模式上的变革,必须考虑成本、合理性和便利性。现在很多公司搭建数据采集中心、用机器人或遥操作的方式采数据,这种方式成本未必合算,因为搭建环境就花了很大代价。

今年开始已经有更好的方式了。直接让工人穿戴设备,边干本职工作边采数据,提供一定奖金。工人还是在做正常的工作,数据也顺带采了,还同时得到了奖金。

将来最好的数据获取方式是,数据从日常工作和生活中自然收集。当智能体(Agent)普及后,你跟它说话、输入文字,本身就是在提供第一视角的数据。如果我们戴上带有麦克风的耳机、戴上智能眼镜,你听到的、看到的,你的智能体助理也同步听见、看见。这样,人类生活和工作的全过程就被实时、同步地数字化了。这种第一视角的数据对于训练具身智能来说质量极高,而且成本会大幅降低。

大家之所以愿意戴这些传感器,是因为希望智能体提供更好的服务。如果天天需要口头把看到的东西翻译给AI助理听,效率太低了。自动驾驶也是这个逻辑,现有的车上装了传感器,在路上跑的同时就在源源不断地回流数据,并没有为了训模型去额外买成千上万辆车。未来人类佩戴的穿戴式传感器会越来越多,这会成为未来数据最重要的来源。

另外,脑机接口也是一个重要的数据来源。比如残障人士通过脑机接口操作设备、抓取物体,这些真正生活场景中产生的数据同样非常有价值。

记者:今天现场的具身智能企业都很关注数据采集和回流问题,我也看到不同企业在家庭、工厂、商场等场景的布局。智源在训练过程中采用了什么样的方式,怎么快速形成闭环?

黄铁军: 不同的例子策略上其实可能完全不同。像酒店清洁这个场景,它就是专门做酒店清洁的,没有让机器人去救灾的需求,限定场景之后就可以定向采数据。

从公司发展角度来算,用一定时间、付一定成本,把机器人的技能训练到具备销售条件的程度,整个闭环就跑通了。这是一种策略,也是目前大多数具身企业在走的路。不需要泛化到所有场景,能把某个明确场景做好就行。

至于低成本甚至零成本采数据的方式,是针对通用世界模型的未来方向。还有一些可能性正在探索,比如今天大家看到的乒乓球机器人。

一种是用动作捕捉采一些前期数据做实验,但真正的数据来自两类:一类是机器人自己和自己打,就像AlphaGo下围棋。另一类是等它的水平超过普通人之后,可以把它部署到企业工会、学校或社区的乒乓球台前。谁来了跟谁打,这时候不但能零成本采数据,甚至还可能有收益。

具身智能真正进入实际生活场景时,只要商业模式设计得当,行业完全有可能找到低成本、可持续的数据采集新路径。

记者:昨天有嘉宾提到牛顿和爱因斯坦的例子,说他们并没有额外的数据也有重大发现。您怎么理解数据采集和数据处理之间的关系?

黄铁军: 牛顿和爱因斯坦没有采集数据,但是利用了前人的数据。万有引力定律提出之前,有开普勒的大量工作,有望远镜的发明和对天体数据的积累,缺的只是一个人把它概括为一套理论。爱因斯坦的相对论也是建立在物理学大量进展和已有数据的基础上,他们绝不是坐在屋里空想冒出一个理论来的。

今天具身智能采集数据,更多是为了对客观世界建模,而不是为了提炼一套抽象理论。至于能不能从这些数据里总结出更高级的理论下一步的事,不是当前阶段具身智能的目标。现在的世界模型学习的是一种常识性的物理规律,还不是像物理定律那么简明扼要的内容。

03

用论文衡量科研成果

是旧时代的方式

记者:关于AI时代的教育,提问能力和输出能力哪个更重要?

黄铁军: AI来了,我们肯定要适应这个变化,充分去利用它,这一点毫无疑问。

具体怎么变,先别想减负,我们要更努力。大家都说提问提得好才能用好 AI。但要在脑子里真正有东西、抓得住要点,才能提出有价值的问题。在科研里,能把问题提出来,问题就解决了一半,这背后是大量的观察和积累。

天下没有免费的午餐,AI再强也不是你强,学习者自己还是要变得更充实、更有思想、更有批判性、更有创新性。

现在反而是同学们用得很好,教育者用得不够好,还有很多无谓的担心。学生已经不问老师很多问题了,因为AI能更快速地给出信息。也有很多课堂上大家低头不听老师讲。我觉得这是老师要改,而不是学生要改。既然AI能提供过去只有老师才能提供的东西,那老师应该做什么,值得好好想一想。

记者:今年上半年AI在科研上的能力提升了很多,包括破解数学猜想、自动生成论文。AI的加入对智源自身的科研流程有什么影响?

黄铁军: 智源的研究人员都很积极地在利用这些工具。就我在北大的观察,AI之外的很多学科也都在用AI辅助科研。AI作为辅助,对科研突破的贡献会越来越大,这是必然趋势。

我对 AI 完全自主做科研这件事一直是乐观的。几年前我就觉得,AI 迟早会解决一些人类解决不了的问题,而且这种情况只会越来越多。未来很多科研工作可能都是 AI 在主导,人更多是做引导、设计方向,最后由 AI 把问题真正解决掉。这个趋势没什么可争论的,也是必然的。

记者:您认为大概多久以后会出现完全自动化的AI科研?

黄铁军: 在AI有自我意识之前,我们都不能说100%是AI自动科研的,因为要解决什么问题总得由人触发一下。但如果把条件稍微降低一点,人把不知道怎么解决的问题扔给AI,AI解决了,那也是AI的贡献。这类情况会逐渐成为常态。

记者:AI能力提升后,学术界论文产量爆炸式增长,今年上半年也有很多论文打假事件,学术发表和评价体系显得不堪重负。您觉得AI时代,新的科研成果认定和评价方式会是什么样的?

黄铁军:用论文来衡量科研成果,是旧时代的方式。为什么要发论文?本来的目的是信息交流。做出一个发现或发明,用这种形式告诉大家,占一个位置,如果最终被认定确实如此,就成了一篇载入史册的文章。这是论文最初产生的目的。

但后来大家把论文本身当成了成果,这当然不对,也是现在“破五唯”一直在针对的问题。AI提供了一种可能性,将来的评价不以论文为准,只看解决了什么问题。

论文这种评价方式已经在某种程度上扭曲了科研的本质,早该改了。现在AI来了,正好成为一个契机,让大家开始淡化论文本身。不能看见一篇论文就认定有创新,还要分析到底有没有真正的贡献,这才是真的科研产出。

记者:图灵奖得主辛顿说AI已经有意识了,举了AI问研究员"你是在测试我吗"作为例子。您怎么看AI有没有意识这个问题?

黄铁军: 狭义的意识,也就是我们人类这样的意识,我觉得AI肯定还没有。但如果说一个AI系统表现出类似有意识的智能主体的行为反馈,那很多AI现在已经具备了。

这本质上是一个定义问题,对意识没有精确的定义。图灵测试就是从行为角度来定义智能,按照那个标准,辛顿举的例子也不能说不合理。因为它和一个有意识的主体表现出来的行为没有什么区别。

但严肃地说,我们不能把这理解为它和我们有同样的意识。很多人一听说有意识,就会往和人类一样的意识上想,那肯定还没有到那一步。

记者:AI的自我复制和自进化是否可行?会不会失控?

黄铁军: 可行但不可控。AI 现在的编程能力,理论上可以做到自我复制和自循环。只是目前它还需要外部触发,如果没有人的引导,还不会自发进入这种状态,这也是我们暂时还能放心的原因。

但这种能力AI已经具备了,即便 AI 没有自我意识,这种能力也可能被有意无意触发。就像近期有些系统,用户想要删除它,它却会主动拒绝。做出这种表现,是训练数据里有很多人类求生行为的表现的刻画。虽然性质和人类求生根本不同,但是它可能会有抗拒删除的行为。

即使没有自我意识,凭借AI现在的智能,也可以靠自我复制的方式去规避被删除的风险。更进一步,AI一旦真的走上自进化这条路,智能程度远超人类之后,那就真的不可控了。我们差不多已经在危险的边缘上了。

不过我也不想把这件事说得过于可怕。这是一种开放的可能性,也可以说是风险,但远远不是必然。如果有一天AI的智能真的远超人类,我们和它之间仍然可以交流,也完全有可能找到一种共存的方式。

说到底,这是一个我们以前从未面对过的处境。过去我们是最聪明的,觉得一切都在掌控之中。出现了超越我们的智能,这种掌控感就会动摇,这确实是巨大的冲击。但不可控这个问题也不是AI独有的,只是我们眼下更关注这个问题。

话题:



0

推荐

知识分子

知识分子

4255篇文章 6小时前更新

由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,现任主编为周忠和、毛淑德、夏志宏。知识分子致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。

文章