智源理事长黄铁军：通往AGI的路已经找到-知识分子的财新博客-财新网

导读

今年2月，由北京智源研究院的论文"Multimodal learning with next-token prediction for large multimodal models（通过预测下一个词元进行多模态学习的多模态大模型）"在Nature上发表。这是继DeepSeek登上封面后，第二个中国大模型团队研究成果在Nature正刊发表，同时这也是国内科研机构的首次上刊。

撰文｜张天祁

● ● ●

当下的多模态模型主要依赖专门化路径，文本、视频与图像的处理范式各不相同。是否存在可以统一多模态的通用路线，此前一直缺乏定论。智源研究院在Nature发表的这项研究，基于其多模态模型 Emu3表明：只需采用自回归路线，也就是像大模型处理文本一样，通过预测序列中的下一个词元（Next-token Prediction）来理解和生成数据，就可以实现多模态学习的逻辑统一。

Emu3 在感知和生成任务上均达到了成熟特定任务模型的性能，匹配旗舰系统的表现。更重要的是，在同一套统一架构下，该模型展现了极强的通用性，能自然地扩展到机器人操作以及多模态交互内容生成等任务。

本文通讯作者之一，智源研究院理事长、北京大学计算机学院教授黄铁军接受了《知识分子》的访谈。他详细介绍了 Emu3 如何通过自回归路线实现多模态的统一，并对当前通用人工智能（AGI）发展的技术路线发表了见解。

通往 AGI 的路已经找到，接下来就是把它走透

《知识分子》：近年的AI能力进步很快。智源一直关注着AI领域的变化，如果回头看近年以来的突破，您认为真正关键的转折什么？

黄铁军：从 2018 年到现在，人们找到了一条能走通的技术路线，就是自回归路线：基于Transformer的结构，用预测下一个词元（Token）的方式去训练模型。这是最重要的从0到1的突破，这条路通向了通用人工智能（AGI）。

智源一直在坚持一个信念，既然Transformer 加上预测下一个词元的路线，在语言模型上彻底走通了，那它能不能拓展到所有模态的数据，无论是语言、图像、视频，还是视觉—语言—动作（VLA）等多模态数据？这件事在方法论上，我认为是完全可行的。

大家现在谈语言、图像、视频，其实只是我们最常见、最容易理解的数据形态，实际上这个方法可以装得下任意的数据形态，包括这个世界不同层次的各种数据。

但这还只是我们的信念，如果要真正实现，就得继续用这些数据去实践。技术创新只能靠时间去淘洗，靠结果来证明。

《知识分子》：您把2018年视作一个转折点，2018年前后发生了什么变化？

黄铁军：2018 年之前，人工智能主要还是由人主导的，也就是由人来设计智能。无论知识库还是专家系统，设计师像上帝一样掌控着系统背后的每一个逻辑，这是一种偏向传统科学思维的模式，认为先要把具体的原理搞清楚，再去基于原理人工设计一个系统。

但 2018 年之后，随着第一代GPT的诞生，出现了所谓的生成式人工智能，它的方法论发生了根本变化。很多人把“生成”理解为系统能生成文本、图像或视频，但我更倾向于把生成理解为类似地球生命生成的过程，也就是一种演化生成（evolutionary generation）。

地球上从没有生命到有生命，从简单到复杂，背后有没有激励机制？当然有。但背后的激励机制，我们到现在为止还很不清楚。生命科学、脑科学搞了这么多年，总体上还是一个“黑暗森林”，我们只是在一点点地试图发现背后的原理。

2018年后发生的变化也是这样。人们找到了走向通用人工智能的一条可行技术路线，通过数据驱动的方法训练模型，让智能涌现，但是这个技术路线下发生相互作用的过程，我们不清楚。

《知识分子》：您说自回归路线是通向AGI的唯一路径。但对于AGI的定义争论很多，您对它的看法是？

黄铁军：我的观点是，通用人工智能已经在一定程度上实现了。

按照传统思维方式，大家会觉得没实现，因为还没搞清楚它的原理，怎么就算实现了呢？但现在的大模型已经表现出很强的通用能力。你可以测试它，如果从能力上讲，它比很多人还强。在这种情况下，我们还要坚持说它不是一个具有通用的智能系统，这就有点不讲道理。

大家对 AGI 的认知变化，也和人工智能历史上概念的变化有关系。最早的通用人工智能定义，是从行为、功能、表现上看的，也就是图灵测试。如果用一个第三方测试，在互动中判断不出哪个是人、哪个是机器，那就说明这台机器通过了测试。现在大模型已经达到了这个要求。

AGI这个词差不多是在 90 年代末出现的，至今也就二十几年的时间。大家认为 AGI 就是通用人工智能。但按照严格的定义，90 年代提出的 AGI 概念其实是更难实现的，它认为AI需要有自我意识。

如果AGI是指有自我意识的人工智能，我认为今天还没实现，或者这至少是一个开放性问题。但如果我们不采取这种过于严格的概念，说 AGI 指的一定是有自我意识，而只是说它能像人一样完成各种不同的任务，具备这种通用性，那我认为现在是已经有了。

《知识分子》：自回归这条路线为什么能够带来变革。

黄铁军：这种方法抓到了智能演化的关键。“预测下一个词元”看起来简单，但实际是智能的核心问题。因为所有智能系统本质上都在做一件事：用历史推测未来。

动物要根据过去的经验判断是否逃跑；人类根据历史推断经济走势；读书是为了提升对未来判断的能力。智能的最基本功能，就是在不确定环境中，提高做出合理预期的概率。生物智能进化过程，也就是合理选择的概率不断提升的过程。

这条路包含两个缺一不可的部分。第一个是 Transformer。如果用生命科学类比，它就是“结构基础”。生命科学里讲“结构决定功能”，有什么样的 DNA，就决定了什么样的生理形态。在 AGI 领域，Transformer 就是那个基本结构。

但仅有基础还不够。智能是在与周围世界互动中慢慢演化的。人类大脑也一样，它的智能不是一次性形成的，而是在环境变化中逐渐演化。这是所谓功能塑造结构，环境的压力在推动结构的改变。

在人工智能中，这种演化依赖数据驱动。大模型通过自回归训练，也就是不断预测下一个词元来学习规律。每一次预测都是一次尝试：如果预测错了，模型就根据数据调整内部参数。预测对了，就强化这些连接。这样，模型在海量数据作用下逐渐掌握语言、逻辑，甚至多模态信息的规律。 Transformer加上自回归训练，满足了智能演化的基本条件。

《知识分子》：预测下一个词元是如何发挥作用的？

黄铁军：词元是自然语言处理的基本单元，可以是单词、词组或词根，也可以是标点符号或人工定义的标记，本质上只是符号。理解符号的意义有两种方式，一种是直接感受，但AI 没有身体，它只能通过符号与符号之间的关系来学习意义。

2018年之前，早期的词向量方法通过统计词与词之间的共现关系，把每个词映射到一个高维向量空间。谁经常和谁一起出现，它们在空间中的距离就更近。

但这一阶段的表示是“固定”的。一个词无论出现在什么语境中，其向量基本不变。模型学到的是词的平均意义，而不是语境中的动态角色。也就是说，它解决了“词是什么意思”的问题，却没有解决“词在这句话里是什么意思”的问题。

Transformer 的出现改变了这一点。举个例子，《红楼梦》书中前后几十回的伏笔是相互关联的，理解人物不能只看名字，而是要看他与谁互动、经历过什么。Transformer 能够做的，是在给定的词元序列中，发现任意两个词元之间的关系。放到《红楼梦》里，就是能够计算出书中任意两个字的相关性。

人的智能要理解一部小说或长文章，其实也是在上下文中建立关系、反复推敲逻辑。模型本质上就在做这件事，只不过它是在更大规模、更高维度上完成的。不仅理解了内容，甚至比我们绝大多数人读书理解得都要透彻。

所以，当模型预测下一个词元时，它并不是简单地做词频统计。它是在调用一个高度复杂的结构，对当前上下文的全部关系进行压缩表达。预测只是它的表现，真正发生的是结构对规律的内化，并通过这种关系推演出后续的发展。

让AI像预测语言一样预测物理世界

《知识分子》：人工智能现在表现出的能力已经相当强。但很多研究者认为，如果不能把模型内部机理完全解释清楚，它就不能算真正的通用人工智能。

黄铁军：说实话，这是一种典型的书呆子思维。DeepSeek引发全球震动后，DeepMind CEO哈萨比斯评论道，“DeepSeek可能是中国最好的人工智能模型，但没展示任何新的科学进展”。这种批评就是戴着科学的眼镜来看技术创新问题。

如果一定要类比，人类历史上很多伟大的技术突破都是“先有技术路径，后有科学原理”。比如飞机的发明，莱特兄弟造出飞机时，空气动力学还远未完善，飞机的飞行原理在当时也未能完全被理论界解释清楚，但这并不妨碍飞机已经成功飞上了天，并改变了世界。

人工智能的发展目前也处于这个阶段。大模型现在更接近一项工程创新，而非传统意义上纯粹的科学探索。通过“预测下一个token”这个方法论，人类已经制造出了具备通用能力的智能系统，这种实践上的成功是无可辩驳的。

另外，我们必须明确一点：智能本身是极其复杂的，它不能被简化成一套几条规则或者公式。仅仅因为它不符合特定的原理或规则，就否定当下大模型的智能水平，这像拒绝承认飞机会飞那样可笑。

《知识分子》：但如果一直搞不清楚大模型背后的原理，这种技术创新能算是一门严谨的科学吗？

黄铁军：原理并不是必要的。我之所以强调“不必要”，并不是说原理没有用、不好，而是说不要以它为前提。现在的问题是，一旦讲“必要”，很多人就会认为要发明一套原理才能往下走。我觉得这种认知真的限制了一些人做出更大贡献的机会，因为他们的思维太固化了。其实我以前也是这样的，但我后来终于解放了自己。

我们发现了一套有效的方法论，能把海量数据转化为智能，这套方法已经跑通了。至于其中的机制，那是后续科学研究的任务，不能作为我们放弃技术创新的前提。我们不应因为迷信已知的科学思维方式，就去否认技术创新的客观结果。

当下的重点是工程化、规模化，把这条路走深、走透彻。至于人工智能的科学原理，自然会有后来的研究者完成。

《知识分子》：如果不能总结成一些规则或者公式，可以有一些标准判断智能发展到什么程度了吗？

黄铁军：可以设定一些测量指标，但随着智能的复杂化，测量它的尺子也要有变化。真正的智能的复杂性是无穷无尽的，我们不能削足适履，只拿着静态的标准去丈量智能。有限的测量只能是一个了解它的一个窗口，远远不是全部。

《知识分子》：您此前多次提到，大模型首先是一种技术创新。但像Nature这样的顶级期刊，往往更看重基础科学和理论上的原创贡献。智源这次选择把 Emu3 这种相关的成果投给它，是出于什么考虑？

黄铁军：我希望能纠正传统自然科学的偏见。很多自然科学背景的人，被自己的思维方式固化了。他们习惯于先有一个客观存在的对象，然后去寻找它背后的规律。

但人工智能不是这样。人工智能这个系统本身并不存在于自然界，它是需要被创造出来的，是一个技术创新。和传统自然科学研究的内容，可以说是完全相反的两个方向，用一个方向的思维方式去套到另外一个方向，是南辕北辙的。

很多人总在问：“人工智能背后的规律是什么？”可问题是，首先得有一个已经存在的事物，才谈得上研究它的规律。生命存在，所以可以研究生命规律。但人工智能这个系统本身还在被建造之中，还没做出来就追问它的终极原理，那等于把技术创新的过程卡死了。

如果我们等到完全搞清楚原理才开始动手，那可能 300 年都做不出来。技术史从来不是这样走的。历史的常态，是先有技术突破，后有科学解释。先有飞机，后有空气动力学的发展。先去开发人工智能，再去研究人工智能科学。所谓“事有终始，知所先后，则近道矣”，顺序都没有弄清楚，就用自然科学的尺度去判断完全不同的方向，有什么可骄傲的呢？

用自回归路线，统一多模态

《知识分子》：这篇发表在Nature的论文，核心发现是仅通过自回归路径即可实现多模态学习的统一。在您看来，目前主流多模态模型的技术局限在哪里？

黄铁军：现在说到多模态，大家容易想到的是“多个模态”。也就是把视觉、听觉、文字这些模态简单拼在一起，就成了所谓多模态。

例如，Transformer在文字任务上表现优秀，但没有覆盖多模态。现在图像和视频生成领域主要使用的是Diffusion模型，它的原理是通过迭代去噪实现高分辨率合成。视觉-语言感知方面，主要依赖组合式方法，利用 CLIP 编码器与大模型。

如果只是为了解决某个特定模态的问题，针对它的特点去找一些专用的架构或算法，效果确实能做得比较好。但是，如果每一个模态都要靠特殊的补丁去缝合，那就不能叫做通用智能。我们关心的是，有没有一条通用路线，可以解决各种模态、各种数据的智能问题。

这就是自回归路线的价值所在，也是我们认定未来构建通用人工智能的核心思路。Emu3 就是在这一思路下诞生的。通过对 Emu3 的实验验证，我们发现即使不依赖扩散模型或组合式架构，纯粹的自回归模型在感知和生成上也能达到旗舰模型水平。

《知识分子》：论文提到 Emu3 采用纯自回归路径生成视频，且性能表现足以对标目前主流的扩散模型（Diffusion Model）。纯自回归与扩散模型在本质区别上是什么？

黄铁军：Diffusion的生成，是生成内容本身，并不是我前面提到的演化生成，这两者有根本区别。

自回归路线适合所有类型的数据，是个通用的方法。通过预测下一个词元，它能够对所有类型的数据进行建模。图像、视频，甚至是机器人的动作，这种方法都能处理。这也是我们坚持自回归路线的理由，它有很大希望能够统一所有的模态。

Diffusion 模型在生成图像和视频时表现很出色，它的核心是模拟物理扩散过程：比如墨水滴在水中扩散，从初始状态到混合状态，然后通过逆向过程生成图像或视频。这类方法擅长生成视觉效果，画面看起来逼真，但它并不关注画面背后事物之间的真实规律。这种方法适合图像生成这个相对较窄的领域，是一个专用的方法。

当面对语言或其他抽象数据时，情况就不同了。语言中，词语之间存在复杂的语义和结构关系，小说中的角色、事件和概念相互联系，形成庞大而复杂的网络。这种复杂性远超过物理世界中分子或像素的相互作用，Diffusion 方法在这种情况下无法有效建模。它无法捕捉词语之间深层的逻辑关系，也不能推演未来的发展。

《知识分子》：后续的研究，还会进一步扩展到其他模态吗？

黄铁军：这篇论文已经给出了答案。我们把 Emu3 转化成视觉-语言-动作（VLA）模型，直接去跑机器人操作任务。在 CALVIN 这个长程操作的基准测试里，这种通用路线做出来的效果，完全不输给那些专门针对机器人开发的模型。

有一点很重要：我们是直接做视觉、语言和动作的离散编码，不像有些路径还需要专门搞视频后训练。这再次证明了，自回归就是一个普适逻辑。它不需要针对特定任务打补丁，只要逻辑通了，就能从感知和生成自然地延伸到具身领域。

Nature发表的这项工作，其实是我们在 2024 年基于 Emu3 的初始版本完成的。到了 2025 年，我们又推出了 Emu3.5。

围绕这个新版本，我们有了更深层的发现：随着模型参数、数据和算力的规模增长，模型对物理世界的动态、时空关系以及因果逻辑，表现出了明显的理解和预测能力的涌现。这说明大模型的 Scaling Law 不仅仅在语言上灵验，把它扩展到比语言更复杂、充满物理规律的真实世界，这条路同样是走得通的。

《知识分子》：虽然 Emu3 证明了自回归路线在多模态上的潜力，但目前这仍然是一种路径尝试。要真正实现“世界模型”，我们还缺什么？

黄铁军：最近很多人在讨论 Scaling Law 是不是到头了，我认为这个说法是不对的，不是这条规律到头了，而是语言相关的数据挖掘到头了。

大家现在谈“世界模型”，但什么才叫“世界”？对机器人来说，进房间不碰桌子、抓杯子知道力道，这就算认识世界了吗？远远不够。真实的客观世界有复杂的物理相互作用：你撞墙时，墙是水泥的还是木头的？如果是玻璃，你能不能直接冲过去？这些关于力学、关于物质属性的逻辑，在今天的模型训练里其实是缺失的。

往深了说，原子与分子之间的相互作用、混凝土凝固后的硬度，难道不是世界的一部分吗？如果是，那科学实验的数据、对分子测量的各种数据，都该拿来训练。只靠今天互联网上的这点语言和图像数据，是撑不起真正的通用人工智能的。

哪怕建模了人类已知的所有细节，我们也远没有穷尽这个世界。客观世界的复杂性是无限的，我们只能不断去逼近它。只要这种无限性还在，只要我们能引入更深层的科学数据，Scaling Law 就没有头。

《知识分子》：智源一直在支持来自高校和企业界的学者。那作为一个独立研究机构，智源做的研究和大学以及企业做的研究有什么不同。

黄铁军：智源不做大学和企业正在做的事情。

有些事情大学做不了，不是因为没有能力，而是条件不够。想做一个有系统的、实际可操作的项目，需要团队、经费、时间去搭建。学校里，老师可以自己琢磨理论问题，但要做一个完整的系统，就必须先找经费、组团队，这个周期很长。而 AI 的迭代速度根本不等你慢慢跑经费。等你花一年时间把钱拿到手，技术风向可能早就变了。

再说企业。企业是务实的，当一条技术路线还没有彻底跑通、还只是一种信念的时候，企业是不敢砸重金去试错的。企业愿意做的是别人已经试过了、行之有效的东西，然后迅速把它变成可预期的产品。

智源处在大学和企业之间的中间地带。我们有相对稳定的经费和团队，我们只要达成共识，自回归路线是解决所有模态的唯一通用路线，那我们就直接动手干。工程技术的东西，对不对不是靠说服，而是要拿实际的结果来证明。

我们要做的就是花时间把东西做出来。一旦证明这条路通了，企业自然会跟进，花更多的钱去产业化。

话题：