财新传媒 财新传媒

阅读:0
听报道

导读

今年2月,由北京智源研究院的论文"Multimodal learning with next-token prediction for large multimodal models(通过预测下一个词元进行多模态学习的多模态大模型)"在Nature上发表。这是继DeepSeek登上封面后,第二个中国大模型团队研究成果在Nature正刊发表,同时这也是国内科研机构的首次上刊。 

撰文|张天祁

 ●                  ●                   ● 

当下的多模态模型主要依赖专门化路径,文本、视频与图像的处理范式各不相同。是否存在可以统一多模态的通用路线,此前一直缺乏定论。智源研究院在Nature发表的这项研究,基于其多模态模型 Emu3表明:只需采用自回归路线,也就是像大模型处理文本一样,通过预测序列中的下一个词元(Next-token Prediction)来理解和生成数据,就可以实现多模态学习的逻辑统一。 

Emu3 在感知和生成任务上均达到了成熟特定任务模型的性能,匹配旗舰系统的表现。更重要的是,在同一套统一架构下,该模型展现了极强的通用性,能自然地扩展到机器人操作以及多模态交互内容生成等任务。 

本文通讯作者之一,智源研究院理事长、北京大学计算机学院教授黄铁军接受了《知识分子》的访谈。他详细介绍了 Emu3 如何通过自回归路线实现多模态的统一,并对当前通用人工智能(AGI)发展的技术路线发表了见解。

01

通往 AGI 的路已经找到,接下来就是把它走透 

《知识分子》:近年的AI能力进步很快。智源一直关注着AI领域的变化,如果回头看近年以来的突破,您认为真正关键的转折什么? 

黄铁军:从 2018 年到现在,人们找到了一条能走通的技术路线,就是自回归路线:基于Transformer的结构,用预测下一个词元(Token)的方式去训练模型。这是最重要的从0到1的突破,这条路通向了通用人工智能(AGI)。 

智源一直在坚持一个信念,既然Transformer 加上预测下一个词元的路线,在语言模型上彻底走通了,那它能不能拓展到所有模态的数据,无论是语言、图像、视频,还是视觉—语言—动作(VLA)等多模态数据?这件事在方法论上,我认为是完全可行的。 

大家现在谈语言、图像、视频,其实只是我们最常见、最容易理解的数据形态,实际上这个方法可以装得下任意的数据形态,包括这个世界不同层次的各种数据。 

但这还只是我们的信念,如果要真正实现,就得继续用这些数据去实践。技术创新只能靠时间去淘洗,靠结果来证明。 

《知识分子》:您把2018年视作一个转折点,2018年前后发生了什么变化? 

黄铁军:2018 年之前,人工智能主要还是由人主导的,也就是由人来设计智能。无论知识库还是专家系统,设计师像上帝一样掌控着系统背后的每一个逻辑,这是一种偏向传统科学思维的模式,认为先要把具体的原理搞清楚,再去基于原理人工设计一个系统。 

但 2018 年之后,随着第一代GPT的诞生,出现了所谓的生成式人工智能,它的方法论发生了根本变化。很多人把“生成”理解为系统能生成文本、图像或视频,但我更倾向于把生成理解为类似地球生命生成的过程,也就是一种演化生成(evolutionary generation)。 

地球上从没有生命到有生命,从简单到复杂,背后有没有激励机制?当然有。但背后的激励机制,我们到现在为止还很不清楚。生命科学、脑科学搞了这么多年,总体上还是一个“黑暗森林”,我们只是在一点点地试图发现背后的原理。

2018年后发生的变化也是这样。人们找到了走向通用人工智能的一条可行技术路线,通过数据驱动的方法训练模型,让智能涌现,但是这个技术路线下发生相互作用的过程,我们不清楚。 

《知识分子》:您说自回归路线是通向AGI的唯一路径。但对于AGI的定义争论很多,您对它的看法是? 

黄铁军:我的观点是,通用人工智能已经在一定程度上实现了。 

按照传统思维方式,大家会觉得没实现,因为还没搞清楚它的原理,怎么就算实现了呢?但现在的大模型已经表现出很强的通用能力。你可以测试它,如果从能力上讲,它比很多人还强。在这种情况下,我们还要坚持说它不是一个具有通用的智能系统,这就有点不讲道理。 

大家对 AGI 的认知变化,也和人工智能历史上概念的变化有关系。最早的通用人工智能定义,是从行为、功能、表现上看的,也就是图灵测试。如果用一个第三方测试,在互动中判断不出哪个是人、哪个是机器,那就说明这台机器通过了测试。现在大模型已经达到了这个要求。 

AGI这个词差不多是在 90 年代末出现的,至今也就二十几年的时间。大家认为 AGI 就是通用人工智能。但按照严格的定义,90 年代提出的 AGI 概念其实是更难实现的,它认为AI需要有自我意识。 

如果AGI是指有自我意识的人工智能,我认为今天还没实现,或者这至少是一个开放性问题。但如果我们不采取这种过于严格的概念,说 AGI 指的一定是有自我意识,而只是说它能像人一样完成各种不同的任务,具备这种通用性,那我认为现在是已经有了。 

《知识分子》:自回归这条路线为什么能够带来变革。 

黄铁军:这种方法抓到了智能演化的关键。“预测下一个词元”看起来简单,但实际是智能的核心问题。因为所有智能系统本质上都在做一件事:用历史推测未来。 

动物要根据过去的经验判断是否逃跑;人类根据历史推断经济走势;读书是为了提升对未来判断的能力。智能的最基本功能,就是在不确定环境中,提高做出合理预期的概率。生物智能进化过程,也就是合理选择的概率不断提升的过程。 

这条路包含两个缺一不可的部分。第一个是 Transformer。如果用生命科学类比,它就是“结构基础”。生命科学里讲“结构决定功能”,有什么样的 DNA,就决定了什么样的生理形态。在 AGI 领域,Transformer 就是那个基本结构。 

但仅有基础还不够。智能是在与周围世界互动中慢慢演化的。人类大脑也一样,它的智能不是一次性形成的,而是在环境变化中逐渐演化。这是所谓功能塑造结构,环境的压力在推动结构的改变。 

在人工智能中,这种演化依赖数据驱动。大模型通过自回归训练,也就是不断预测下一个词元来学习规律。每一次预测都是一次尝试:如果预测错了,模型就根据数据调整内部参数。预测对了,就强化这些连接。这样,模型在海量数据作用下逐渐掌握语言、逻辑,甚至多模态信息的规律。 Transformer加上自回归训练,满足了智能演化的基本条件。 

《知识分子》:预测下一个词元是如何发挥作用的? 

黄铁军:词元是自然语言处理的基本单元,可以是单词、词组或词根,也可以是标点符号或人工定义的标记,本质上只是符号。理解符号的意义有两种方式,一种是直接感受,但AI 没有身体,它只能通过符号与符号之间的关系来学习意义。 

2018年之前,早期的词向量方法通过统计词与词之间的共现关系,把每个词映射到一个高维向量空间。谁经常和谁一起出现,它们在空间中的距离就更近。 

但这一阶段的表示是“固定”的。一个词无论出现在什么语境中,其向量基本不变。模型学到的是词的平均意义,而不是语境中的动态角色。也就是说,它解决了“词是什么意思”的问题,却没有解决“词在这句话里是什么意思”的问题。 

Transformer 的出现改变了这一点。举个例子,《红楼梦》书中前后几十回的伏笔是相互关联的,理解人物不能只看名字,而是要看他与谁互动、经历过什么。Transformer 能够做的,是在给定的词元序列中,发现任意两个词元之间的关系。放到《红楼梦》里,就是能够计算出书中任意两个字的相关性。 

人的智能要理解一部小说或长文章,其实也是在上下文中建立关系、反复推敲逻辑。模型本质上就在做这件事,只不过它是在更大规模、更高维度上完成的。不仅理解了内容,甚至比我们绝大多数人读书理解得都要透彻。 

所以,当模型预测下一个词元时,它并不是简单地做词频统计。它是在调用一个高度复杂的结构,对当前上下文的全部关系进行压缩表达。预测只是它的表现,真正发生的是结构对规律的内化,并通过这种关系推演出后续的发展。 

02

让AI像预测语言一样预测物理世界

《知识分子》:人工智能现在表现出的能力已经相当强。但很多研究者认为,如果不能把模型内部机理完全解释清楚,它就不能算真正的通用人工智能。

黄铁军:说实话,这是一种典型的书呆子思维。DeepSeek引发全球震动后,DeepMind CEO哈萨比斯评论道,“DeepSeek可能是中国最好的人工智能模型,但没展示任何新的科学进展”。这种批评就是戴着科学的眼镜来看技术创新问题。

如果一定要类比,人类历史上很多伟大的技术突破都是“先有技术路径,后有科学原理”。比如飞机的发明,莱特兄弟造出飞机时,空气动力学还远未完善,飞机的飞行原理在当时也未能完全被理论界解释清楚,但这并不妨碍飞机已经成功飞上了天,并改变了世界。 

人工智能的发展目前也处于这个阶段。大模型现在更接近一项工程创新,而非传统意义上纯粹的科学探索。通过“预测下一个token”这个方法论,人类已经制造出了具备通用能力的智能系统,这种实践上的成功是无可辩驳的。

另外,我们必须明确一点:智能本身是极其复杂的,它不能被简化成一套几条规则或者公式。仅仅因为它不符合特定的原理或规则,就否定当下大模型的智能水平,这像拒绝承认飞机会飞那样可笑。 

《知识分子》:但如果一直搞不清楚大模型背后的原理,这种技术创新能算是一门严谨的科学吗? 

黄铁军:原理并不是必要的。我之所以强调“不必要”,并不是说原理没有用、不好,而是说不要以它为前提。现在的问题是,一旦讲“必要”,很多人就会认为要发明一套原理才能往下走。我觉得这种认知真的限制了一些人做出更大贡献的机会,因为他们的思维太固化了。其实我以前也是这样的,但我后来终于解放了自己。

我们发现了一套有效的方法论,能把海量数据转化为智能,这套方法已经跑通了。至于其中的机制,那是后续科学研究的任务,不能作为我们放弃技术创新的前提。我们不应因为迷信已知的科学思维方式,就去否认技术创新的客观结果。 

当下的重点是工程化、规模化,把这条路走深、走透彻。至于人工智能的科学原理,自然会有后来的研究者完成。

《知识分子》:如果不能总结成一些规则或者公式,可以有一些标准判断智能发展到什么程度了吗? 

黄铁军:可以设定一些测量指标,但随着智能的复杂化,测量它的尺子也要有变化。真正的智能的复杂性是无穷无尽的,我们不能削足适履,只拿着静态的标准去丈量智能。有限的测量只能是一个了解它的一个窗口,远远不是全部。 

《知识分子》:您此前多次提到,大模型首先是一种技术创新。但像Nature这样的顶级期刊,往往更看重基础科学和理论上的原创贡献。智源这次选择把 Emu3 这种相关的成果投给它,是出于什么考虑? 

黄铁军:我希望能纠正传统自然科学的偏见。很多自然科学背景的人,被自己的思维方式固化了。他们习惯于先有一个客观存在的对象,然后去寻找它背后的规律。 

但人工智能不是这样。人工智能这个系统本身并不存在于自然界,它是需要被创造出来的,是一个技术创新。和传统自然科学研究的内容,可以说是完全相反的两个方向,用一个方向的思维方式去套到另外一个方向,是南辕北辙的。 

很多人总在问:“人工智能背后的规律是什么?”可问题是,首先得有一个已经存在的事物,才谈得上研究它的规律。生命存在,所以可以研究生命规律。但人工智能这个系统本身还在被建造之中,还没做出来就追问它的终极原理,那等于把技术创新的过程卡死了。 

如果我们等到完全搞清楚原理才开始动手,那可能 300 年都做不出来。技术史从来不是这样走的。历史的常态,是先有技术突破,后有科学解释。先有飞机,后有空气动力学的发展。先去开发人工智能,再去研究人工智能科学。所谓“事有终始,知所先后,则近道矣”,顺序都没有弄清楚,就用自然科学的尺度去判断完全不同的方向,有什么可骄傲的呢? 

03

用自回归路线,统一多模态

《知识分子》:这篇发表在Nature的论文,核心发现是仅通过自回归路径即可实现多模态学习的统一。在您看来,目前主流多模态模型的技术局限在哪里? 

黄铁军:现在说到多模态,大家容易想到的是“多个模态”。也就是把视觉、听觉、文字这些模态简单拼在一起,就成了所谓多模态。 

例如,Transformer在文字任务上表现优秀,但没有覆盖多模态。现在图像和视频生成领域主要使用的是Diffusion模型,它的原理是通过迭代去噪实现高分辨率合成。视觉-语言感知方面,主要依赖组合式方法,利用 CLIP 编码器与大模型。 

如果只是为了解决某个特定模态的问题,针对它的特点去找一些专用的架构或算法,效果确实能做得比较好。但是,如果每一个模态都要靠特殊的补丁去缝合,那就不能叫做通用智能。我们关心的是,有没有一条通用路线,可以解决各种模态、各种数据的智能问题。 

这就是自回归路线的价值所在,也是我们认定未来构建通用人工智能的核心思路。Emu3 就是在这一思路下诞生的。通过对 Emu3 的实验验证,我们发现即使不依赖扩散模型或组合式架构,纯粹的自回归模型在感知和生成上也能达到旗舰模型水平。

《知识分子》:论文提到 Emu3 采用纯自回归路径生成视频,且性能表现足以对标目前主流的扩散模型(Diffusion Model)。纯自回归与扩散模型在本质区别上是什么? 

黄铁军:Diffusion的生成,是生成内容本身,并不是我前面提到的演化生成,这两者有根本区别。

自回归路线适合所有类型的数据,是个通用的方法。通过预测下一个词元,它能够对所有类型的数据进行建模。图像、视频,甚至是机器人的动作,这种方法都能处理。这也是我们坚持自回归路线的理由,它有很大希望能够统一所有的模态。 

Diffusion 模型在生成图像和视频时表现很出色,它的核心是模拟物理扩散过程:比如墨水滴在水中扩散,从初始状态到混合状态,然后通过逆向过程生成图像或视频。这类方法擅长生成视觉效果,画面看起来逼真,但它并不关注画面背后事物之间的真实规律。这种方法适合图像生成这个相对较窄的领域,是一个专用的方法。

当面对语言或其他抽象数据时,情况就不同了。语言中,词语之间存在复杂的语义和结构关系,小说中的角色、事件和概念相互联系,形成庞大而复杂的网络。这种复杂性远超过物理世界中分子或像素的相互作用,Diffusion 方法在这种情况下无法有效建模。它无法捕捉词语之间深层的逻辑关系,也不能推演未来的发展。

《知识分子》:后续的研究,还会进一步扩展到其他模态吗?

黄铁军:这篇论文已经给出了答案。我们把 Emu3 转化成视觉-语言-动作(VLA)模型,直接去跑机器人操作任务。在 CALVIN 这个长程操作的基准测试里,这种通用路线做出来的效果,完全不输给那些专门针对机器人开发的模型。 

有一点很重要:我们是直接做视觉、语言和动作的离散编码,不像有些路径还需要专门搞视频后训练。这再次证明了,自回归就是一个普适逻辑。它不需要针对特定任务打补丁,只要逻辑通了,就能从感知和生成自然地延伸到具身领域。 

Nature发表的这项工作,其实是我们在 2024 年基于 Emu3 的初始版本完成的。到了 2025 年,我们又推出了 Emu3.5。

围绕这个新版本,我们有了更深层的发现:随着模型参数、数据和算力的规模增长,模型对物理世界的动态、时空关系以及因果逻辑,表现出了明显的理解和预测能力的涌现。这说明大模型的 Scaling Law 不仅仅在语言上灵验,把它扩展到比语言更复杂、充满物理规律的真实世界,这条路同样是走得通的。 

《知识分子》:虽然 Emu3 证明了自回归路线在多模态上的潜力,但目前这仍然是一种路径尝试。要真正实现“世界模型”,我们还缺什么? 

黄铁军:最近很多人在讨论 Scaling Law 是不是到头了,我认为这个说法是不对的,不是这条规律到头了,而是语言相关的数据挖掘到头了。

大家现在谈“世界模型”,但什么才叫“世界”?对机器人来说,进房间不碰桌子、抓杯子知道力道,这就算认识世界了吗?远远不够。真实的客观世界有复杂的物理相互作用:你撞墙时,墙是水泥的还是木头的?如果是玻璃,你能不能直接冲过去?这些关于力学、关于物质属性的逻辑,在今天的模型训练里其实是缺失的。 

往深了说,原子与分子之间的相互作用、混凝土凝固后的硬度,难道不是世界的一部分吗?如果是,那科学实验的数据、对分子测量的各种数据,都该拿来训练。只靠今天互联网上的这点语言和图像数据,是撑不起真正的通用人工智能的。 

哪怕建模了人类已知的所有细节,我们也远没有穷尽这个世界。客观世界的复杂性是无限的,我们只能不断去逼近它。只要这种无限性还在,只要我们能引入更深层的科学数据,Scaling Law 就没有头。

《知识分子》:智源一直在支持来自高校和企业界的学者。那作为一个独立研究机构,智源做的研究和大学以及企业做的研究有什么不同。 

黄铁军:智源不做大学和企业正在做的事情。

有些事情大学做不了,不是因为没有能力,而是条件不够。想做一个有系统的、实际可操作的项目,需要团队、经费、时间去搭建。学校里,老师可以自己琢磨理论问题,但要做一个完整的系统,就必须先找经费、组团队,这个周期很长。而 AI 的迭代速度根本不等你慢慢跑经费。等你花一年时间把钱拿到手,技术风向可能早就变了。 

再说企业。企业是务实的,当一条技术路线还没有彻底跑通、还只是一种信念的时候,企业是不敢砸重金去试错的。企业愿意做的是别人已经试过了、行之有效的东西,然后迅速把它变成可预期的产品。 

智源处在大学和企业之间的中间地带。我们有相对稳定的经费和团队,我们只要达成共识,自回归路线是解决所有模态的唯一通用路线,那我们就直接动手干。工程技术的东西,对不对不是靠说服,而是要拿实际的结果来证明。 

我们要做的就是花时间把东西做出来。一旦证明这条路通了,企业自然会跟进,花更多的钱去产业化。

话题:



0

推荐

知识分子

知识分子

4191篇文章 1分钟前更新

由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,现任主编为周忠和、毛淑德、夏志宏。知识分子致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。

文章