财新传媒
位置:博客 > 知识分子 > 王立铭:人工智能预测蛋白结构再获突破,意味着什么?

王立铭:人工智能预测蛋白结构再获突破,意味着什么?

编者按
 
最近,DeepMind 开发的程序 AlphaFold 在一个蛋白质结构预测大赛中夺得冠军,并将 蛋白质结构预测做到了基本接近实用的水平。
 
这一事件对生命科学的发展意味着什么?人工智能的发展对于人类理解世界的方式有何影响?且看 “智识前沿学者”、浙江大学教授王立铭今日 “生命科学·巡山报告”。
 
 
撰文 | 王立铭
 
大家好,我是王立铭。2020年12月6日,生命科学·巡山报告又和大家见面了。
 
说起来有点惭愧,刚过去的这个月,生命科学领域值得专门拿出来讲的重大新闻似乎不多,我本来以为这期巡山能偷个小懒。结果在11月的最后一天,居然从天而降了一个可能是本年度、甚至是最近十年最重要的生命科学突破。
 
所以,今天这期巡山报告,我还是得打起12分精神,和你聊聊这个话题。
 
简单来说,2020年11月30日,谷歌旗下的人工智能公司 DeepMind 开发的程序AlphaFold2,在2020年度的蛋白质结构预测大赛CASP14中,取得了惊人的好成绩。不仅力压世界范围内参赛的100多个团队,获得冠军,还有史以来第一次把蛋白质结构预测这个任务,做到了基本接近实用的水平。
 
说起 DeepMind,你应该不陌生。你大概还记得曾经横扫棋坛、并且战胜人类排名第一的棋手柯洁的围棋程序——AlphaGo。长久以来,围棋被看作是人类发明的最复杂、最具开放性的智力游戏,很多人预测,计算机在几百年时间内都不可能在围棋上战胜人脑。但在2017年,横空出世的AlphaGo让很多人真正意识到了人工智能和深度学习的强大力量。AlphaGo也是这家叫 DeepMind 的公司开发的。
 
和AlphaGo名字类似的 AlphaFold2 又是何方神圣呢?我猜,这几天你从新闻上已经看到不少介绍了,不过我的感觉是,大部分介绍都没说到点子上,光顾着激动了。这期巡山,你不妨先把最近看到的那些信息都忘了,我们从头开始,把这件事的来龙去脉和价值说清楚。
 
1 蛋白质折叠:生物学最核心的未知问题之一
 
首先,我们看看AlphaFold2解决的到底是什么问题。
 
刚才说了,它的目标是蛋白质结构预测。在我看来,这可能是整个生命科学领域最重要的三个问题之一。其他两个,我认为分别是生命的起源问题,和人类大脑的工作原理问题。
 
“蛋白质结构预测”,听起来有点专业,外人也不那么容易理解它的意义。如果说得大一点儿,这个问题关系到遗传信息的本质是什么,遗传信息是如何流动、如何影响地球生命的各种特性的。
 
你大概听说过生物学里所谓的 “中心法则”。在充满例外的生命科学领域, “中心法则” 几乎是唯一一个被冠以 “法则” 之名的规律,重要性可想而知。
 
中心法则说的是,在地球生物世代繁衍的过程中,上一代生物会把自身携带的遗传物质,也就是DNA分子,照原样复制一份,传递到后代体内,一代代传递下去,永无止境。而在每一代生物从生到死的过程中,这套DNA分子能以自身为设计蓝图,指导生产大量的微型分子机器,也就是各种蛋白质分子,执行各种各样的生物学功能,共同支持每一代生物的生存和活动。
 
本质上说,中心法则指明了遗传信息的两个流动方向:
 
一个方向是在世代之间,DNA通过DNA-->DNA的自我复制,持续一代代传递,保证上一代和下一代之间携带的遗传物质非常接近,因此也呈现出高度的相似性。在这个过程中,随机出现的基因突变,会让每一代生物出现微小的差异,自然选择和生物进化也得以实现。另一个方向是在同一个生物体内的每一个细胞中,DNA通过RNA分子指导蛋白质生产(DNA-->RNA-->蛋白质),让各种具体的生物活动得以开展。
 
从上个世纪五六十年代至今,中心法则的很多技术细节都得到了深入研究。我大概数了下,在半个多世纪中,至少有二三十个诺贝尔奖和中心法则相关。DNA分子如何实现自我复制和自我修复,DNA如何指导RNA的生产,RNA如何被剪切和拼接,RNA如何指导蛋白质的组装,蛋白质分子如何被降解等等。有意思的是,搞清楚中心法则的技术细节能得奖,找到中心法则的反例也能得奖。这样的例子也挺不少。
 
但是,在中心法则的完整图景里,有一个最大的空白、一个最关键的遗留问题,就是蛋白质分子机器到底是怎么组装完成、开展工作的。
 
我们现在知道,DNA分子指导蛋白质分子生产的原则很简单,DNA链条上三个相邻的碱基分子,对应蛋白质分子中一个特定的氨基酸分子。比如,ATG三个碱基对应的就是甲硫氨酸,GAG对应的就是谷氨酸,等等。忽略掉所有技术细节,你可以这么想象:在细胞内部,一条300个碱基长度的DNA链条,能指导生产出一个蛋白质分子,也就是由100个氨基酸首尾相连组成的链条。
 
DNA分子作为遗传信息的载体,它的物理结构可以认为是无关紧要的,是拉成一条直线、团成一团毛线球,还是干脆抄写下来存在笔记本里,只要这300个碱基的名称和先后顺序不乱,它记载的信息就始终是完整的、不变的。但蛋白质分子则不然。这个由100个氨基酸组成的链条,一定要在细胞中折叠、扭曲、缠绕成某个特殊的三维结构,才能开始工作。
 
我类比一下你就明白了。比如你要生产小轿车,设计图纸是打印出来还是存在电脑里,是摊平放还是卷成卷,是红色墨水写还是蓝色墨水写,其实都无关紧要。但是在生产过程中,每一个零件,从发动机到雨刷器,都必须被严格的放置在特定的位置,按照特定的方式组装起来,小轿车才能正常工作。
 
那真正的问题就变成了,蛋白质分子怎么知道如何形成某个特定的三维结构呢?我们还是说那个由100个氨基酸组成的链条,在形成三维结构的过程里,它怎么知道每个氨基酸应该出现在什么位置,需要和哪几个氨基酸靠近呢?
 
早在上个世纪,人们就做出了正确的猜测。简单来说,这些空间位置信息,就蕴含在蛋白质分子自身当中。说得更具体一点,组成蛋白质的氨基酸分子一共有20种,它们有的带正电荷,有的带负电荷,有的大一点,有的小一点,有的喜欢结合水分子,有的讨厌水分子。因此,蛋白质一旦被生产出来,组成它的氨基酸就会根据上面这些不同属性,开始移动和组合。
 
这个过程有点像磁铁组装玩具,拿一堆零件放一起晃一晃,它们就能自己吸附在一起形成一大坨。当然,蛋白质分子里那些氨基酸分子的顺序和特性,保证它在大多数时候能扭曲折叠得一模一样,批量生产出好用的蛋白质分子机器。
 
这个猜测在1950年代被美国科学家 Christian Anfinsen 用实验手段证明。Anfinsen发现,即便用化学方法人为破坏蛋白质分子的三维结构,但只要洗掉这些干扰,蛋白质分子就能自己重新扭曲折叠成完全一样的三维结构。DNA分子的碱基顺序,决定了蛋白质分子的氨基酸顺序,也决定了蛋白质分子的三维结构和生物学功能,因此成为共识。
 
但是,这么说并没有解决全部的问题。理论上我们已经知道,蛋白质分子能自己决定扭曲折叠成什么样子,但是我们实际上并不知道蛋白质分子是如何做到这一点的。要知道,一个100个氨基酸的蛋白质分子,这100个氨基酸在三维空间上的排列组合方式几乎是无穷无尽,一种一种尝试的话,可能试到宇宙尽头也找不到正确的那一种。真实世界里的蛋白质,怎么做到几乎是瞬间就能扭曲折叠到最合适的位置的呢?
 
说到这里,我想你应该能明白为什么我说蛋白质折叠是生物学最大的三个未知问题之一了。
 
首先,它关系到代代相传的遗传信息,到底是怎么指导生命活动的。其次,它有很强的应用价值。因为绝大多数药物都是通过结合特定的蛋白质来起作用的,如果能搞清楚蛋白质分子怎么折叠、三维结构长什么样,我们就能更方便的设计出专门结合它的药物来治疗疾病。最后,当然是因为这个问题非常非常非常非常的难。
 
2 解决蛋白质折叠问题的传统思路
 
如此重要的问题,当然吸引了大量科学家的注意,在过去几十年时间里,也取得了一些不错的进展。这里简单回顾一下。
 
一个最容易想到、也最早取得突破的思路,是干脆通过实验的手段 “看到” 蛋白质分子的三维结构——不管这个结构是怎么来的,先搞清楚它长什么样子再说。
 
1959年,英国科学家 Max Perutz 利用X射线衍射的方法——你可以通俗理解成用X射线照射蛋白质分子,然后根据射线被散射的角度推测电子的位置——解析了肌红蛋白分子的三维结构。这是人类历史上第一次彻底看清蛋白质分子机器的细节。
 
在那里之后直到今天,有超过17万个蛋白质分子的结构被解析出来。除了X射线衍射之外,核磁共振以及最近火热的冷冻电子显微镜技术也发挥了重要作用。半个多世纪以来,研究蛋白质结构的相关工作也已经拿过20多项诺贝尔奖。
 
这个“眼见为实”的思路,好处是一锤定音,看到什么就是什么,但这个思路的问题也显而易见——技术上太麻烦。历史上,动辄有科学家耗费几年、几十年时间才能得到一个清晰的蛋白质三维结构,这就导致蛋白质三维结构成了生物学领域非常要命的瓶颈。比如,因为基因测序技术的高速进步,人类掌握的基因序列已经有1.8亿条,换句话说,我们已经知道氨基酸顺序的蛋白质分子已经有1.8亿个,其中三维结构信息被彻底看清的只有17万个,还不到0.1%。
 
这也因此催生了一个反其道而行的思路:既然我们知道氨基酸的顺序决定了蛋白质的三维结构,有没有可能不做实验,直接从氨基酸的顺序出发,推测蛋白质分子的三维结构呢?
 
沿着这个思路,人们也取得了一些值得一提的进展。技术上最容易实现的方法,是从已知结构出发推测未知结构。
 
比如所谓的 “同源建模” 的方法。这个方法的逻辑很简单,既然氨基酸顺序决定了蛋白质三维结构,可想而知,如果两个蛋白质的氨基酸顺序非常接近,那它们的三维结构也应该接近。打个比方,猪的胰岛素分子和人的胰岛素分子都是由51个氨基酸组成,其中只差了1个氨基酸,那两个分子的三维结构肯定可以互相参照。如果前者的三维结构已经被解析出来了,推测后者的三维结构就比较容易了。
 
如果两个蛋白质的氨基酸序列并不是那么接近,同源建模就不太管用了。人们也发展出了所谓 “蛋白质穿线” 或者叫 “折叠识别” 的方法。和同源建模类似,穿线的逻辑也是把未知蛋白质的结构往已知的结构模式上套。它的默认逻辑是,不管蛋白质分子多么千变万化,基本的折叠类型是有限的,大概就是1500种。所以只要试的足够多,总能套上一种比较靠谱的。
 
除此之外,还有人开发出了一类抛开已知结构,直接通过计算推测蛋白质结构的思路。代表人物包括华盛顿大学的 David Baker 教授,他开发了一套名为 “Rosetta”(罗塞塔石碑)的计算机程序来预测蛋白质结构。
 
这个方法摆脱了对已知结构的依赖,直接从 “蛋白质氨基酸顺序决定了其三维结构” 这个结论出发。它的工作逻辑是这样的:在蛋白质折叠的过程中,氨基酸分子会自发地寻找让自己呆着最稳定、最舒服,也就是能量状态最低的位置。比如,带正电的氨基酸就会倾向于找带负电的;讨厌水分子的就倾向于被包裹到蛋白质内部,离水远一点;两个大号氨基酸相邻的缝隙里可能能塞进去一个小号氨基酸,等等。因此,如果能够穷尽两两氨基酸分子之间所有可能的位置及其对应的能量状态,就能计算出一个整体能量最低、最稳定的空间组合,蛋白质的三维结构就有了。
 
这个逻辑从理论上说没毛病,但真要落实是很困难的。因为计算能力的局限,我们不可能在有限时间内把所有氨基酸分子两两组合的所有位置都穷举一遍;因为物理学基础理论的限制,我们实际上也不知道如何精确计算每一个位置对应的能量状态。举个例子你就明白了。你大概看过刘慈欣的《三体》,三个物体遵循牛顿定律在空间中的运动,实际上已经无法预测了,要预测几百上千个氨基酸分子在各种约束条件下的相互作用,物理学都不允许。
 
因此,这套Rosetta的办法实际上也做了很多妥协,不追求穷尽所有氨基酸之间的两两组合,而是把蛋白质分子分割成一个一个小片段,考虑片段之间的相互作用,然后再进一步考虑原子之间的精细作用和位置。如果用来处理氨基酸数量很小、排列比较规则的蛋白质,效果往往还不错。但稍微复杂一点的蛋白质,预测能力就不怎么值得相信了,大概只能说是聊胜于无。
 
这里简单小结一下:
 
解决蛋白质折叠问题,搞清楚蛋白质分子的三维结构,是生物学里悬而未决的几大终极难题之一。但是截至目前,这个难题最主要的解法还是费时费力的用X射线衍射、冷冻电镜等方法直接观察。想要直接计算和预测出蛋白质结构,这些传统的思路效果并不好。
 
3 人工智能的解题思路:AlphaFold1和2
 
有了这些铺垫,我们终于要说到这次的主角,AlphaFold了。
 
如果你熟悉AlphaGo的故事,可能大概明白人工智能,特别是深度学习方法解决问题的基本逻辑是什么。简单来说,这是个指望大力出奇迹的思路。
 
传统上,人类学围棋,讲究的是学习棋谱,是反复练习,是各种只能意会不能言传的 “悟性”。而AlphaGo根本不管那么多,它要做的是,尽可能穷举所有可能的下法,再看这些下法分别可能产生什么后果,接下来自己还有哪些可能的下法,又会带来什么后果…… 通过反复训练,AlphaGo能积累足够的 “经验”,知道在某个时候哪个下法最终获胜的概率更大。通过这样的暴力训练,后期的 AlphaGo Zero 甚至可以做到,只需要知道围棋的基本规则,比如怎么吃子、怎么判断胜负,就可以在完全无视人类所有经验的条件下学成绝技,笑傲棋坛。
 
2018年,DeepMind的第一代蛋白质折叠算法——AlphaFold1——参加了第13届CASP比赛,就已经拿了第一名的成绩,也在业界震动不小。但它在大众当中引起的水花并不很大。我猜,原因主要有两个,首先,AlphaFold1虽然拿了第一,但是比第二名的优势并不明显,也没有表现出比传统思路,有什么革命性的差异。但更重要的是,AlphaFold1并不能算是人工智能完全体,它还借鉴了不少学术研究的成果,特别是David Baker教授的Rosetta程序和芝加哥大学徐锦波教授的 RaptorX-Contact 程序。顺便我还多说一句,在CASP13结束后,南开大学的杨建益教授和 David Baker 教授合作,开发了新一代的trRosetta程序并且公布了全部核心代码,这个程序的性能已经超越了AlphaFold1,还被今年参加CASP 14的很多队伍所借鉴。
 
但是,今年的AlphaFold2就完全不同了。它并不是1代的升级版,可以说是一个全新的蛋白质折叠算法。
 
尽管目前DeepMind还没有公布AlphaFold2的技术细节,但是大致原理已经公开。AlphaFold2的工作原理非常接近刚刚讨论过的大力出奇迹的AlphaGo。我来粗糙地解释一下这套算法的训练过程:
 
从17万个已经知道三维结构的蛋白质分子中,科学家们挑一个,把它的氨基酸序列信息 “喂” 给算法,算法大致 “猜测” 出一个三维结构。然后,算法把它的猜测和已知的三维结构进行对比,并且根据猜测的结果是不是靠谱,继续调整猜测的策略。这样反复用17万个三维结构训练,算法逐渐就获得了直接从氨基酸序列预测蛋白质三维结构的能力。
 
当然,我这个说法肯定是过度简化了。要是没有任何抓手,算法压根不知道从何猜起,那也是不行的。比如,我们从DeepMind的介绍里也能看到,算法需要一种所谓 “多序列比对” 的信息。顺便强调一句,这个思路可不是DeepMind首创的,它是1993年由德国科学家 Chris Sander 提出的技术路线。
 
简单来说就是,对任何一个蛋白质分子来说,数据库里应该都有大量和它序列非常类似的蛋白质分子。比如我们说过的胰岛素蛋白,人的、猪的、牛的、鸡的、牛的,彼此之间都只有一些细微的差别。当我们把这些接近但不同的序列放在一起看,就能发现某些位置的氨基酸特别保守,几乎不变,有些位置的氨基酸总变来变去,还有些位置的氨基酸要么都不变,要么一起变。
 
而这些信息,其实也能反映出在蛋白质三维结构里,氨基酸之间的关系。比如有两个氨基酸,要么总是都不变,要么总是同步变,我们大概可以猜测,这两个氨基酸在三维空间里很近,必须彼此配合。AlphaFold2也需要这些信息帮助它完成初始的猜测和训练过程。
 
最后的结果怎么样呢?
 
我们可以从两个维度看看AlphaFold2的表现。
 
首先横向比较一下。
 
CASP大赛的规则大概是这样的,组织者给参赛选手提供了一批蛋白质分子的氨基酸序列,这些蛋白质分子的三维结构要么正在被实验解析过程中,要么已经被实验解析出来了,但是没有公开给参赛者。参赛者完成蛋白质结构预测之后,把他们的结果和真实结构进行对比,评分,然后排名。
 
在2020年的第十四届CASP大赛中,AlphaFold2高居第一,而且得分远远超过排名第二的 David Baker 教授实验室。第一名和第二名的差距,甚至比第二名到最后一名的差距还大。
 
接着再纵向比较一下。
 
从1994年CASP大赛开始,人类预测蛋白质结构的能力一直在缓慢但持续提高。对于很小、结构简单的蛋白质,利用刚才讲的传统方法,准确率已经非常高了。但是对于尺寸比较大、结构复杂、也没有太多已知结构可以参照的蛋白质,一直到2018年AlphaFold1参赛的时候,表现还乏善可陈。
 
但是,AlphaFold2改变了一切!对于所有90几个蛋白质,它预测的结构得到了92.4的中位数得分,即便对于最难的那部分蛋白质,它也得到了87分。这个分数怎么理解呢?首先,90分的得分被认为是个门槛,得分到了90,就说明预测结果已经和真实结构基本一致。
 
也就是说,AlphaFold2实现了人类在蛋白质结构预测领域史无前例的巨大进步。有史以来第一次,人类可以说,我们不用做实验,也能从氨基酸序列直接推测出蛋白质的三维结构。中心法则的最后缺环,眼看着就要被填补了。
 
当然,和所有科技进步一样,AlphaFold2也不是十全十美的。
 
比如,它的表现并不是非常稳定。我们刚说了,得分超过90就意味着正确,AlphaFold2的得分中位数已经是92.4,但是在其中几个蛋白质的结构预测里,它的得分并不高——关于具体原因人们有一些猜测,但是还需要更多研究看看它是不是可以避免的技术问题。这样一来,它的实用性当然就会受到影响,毕竟要是放一个全新蛋白质进去预测,你也不知道这一次AlphaFold2到底是做对了还是抽风了。
 
还有,AlphaFold2对于那种超级巨型的蛋白质复合体,对于蛋白质和DNA/RNA/小分子结合形成的复合物,预测能力还有待检验。
 
但我倒是觉得,这些技术方面的优化很快就能得到解决。打个比方,人类想飞的历史足有上千年,但从1903年莱特兄弟的飞机跌跌撞撞飞了36.5米之后,人类只用了十几年就造出了能够飞跃大西洋的飞机。在从0到1的原始突破完成之后,在从1到100,到10000的路上,人类往往能迸发出惊人的战斗力。
 
4 这项成就意味着什么?
 
最后,我们花点时间展望一下这项突破意味着什么。
 
有些前景很容易想到。我想,可能在几年之后,AlphaFold就将具备替代实验研究、直接从蛋白质氨基酸序列大批量生产蛋白质三维结构的能力。刚才说过,在人类已知的1.8亿条基因序列中,只有不到0.1%的获得了三维结构信息。可想而知,随着AlphaFold的成熟,人类关于蛋白质分子的理解将会有一次革命性的升级。
 
也许,这些海量的结构信息,能让我们把对生命现象的理解往前大大推进一步:也许有一天,我们只需要测定一个物种的基因组DNA序列信息,就能相应地预测这个物种生产的全部蛋白质分子机器的三维结构,然后再猜测出这些分子机器到底是执行什么生物学功能的。到那个时候,我们不光能根据DNA信息凭空想象出一种生物的样貌和生物学特征,甚至还能反过来,根据我们想要的生物学特性,设计出需要的蛋白质分子,再到一个物种的遗传物质,真正做到从无到有的人造生命。
 
当然,在这种比较科幻的场景到来之前,AlphaFold也有很多实际的应用价值。
 
比如,我们完全可以设想这样的场景:一名癌症患者找到医生,医生测定了他体内肿瘤细胞的基因序列,发现他体内某一个特殊蛋白质发生了变异,因此导致了癌症。同时,医生还能对这种特殊蛋白质进行结构预测,有针对性地设计一个药物与之结合,破坏其功能,从而治疗癌症。所有这一切只需要几天时间。到那个时候,疾病的诊断和治疗将变得高度个性化,疾病-基因-蛋白质结构-药物设计会形成一个完整的闭环。
 
生物学范畴的价值可能已经让你心潮澎湃了?干脆,我们再彻底放飞一下。
 
从同源建模到Rosetta再到AlphaFold2,在蛋白质结构预测这个领域,我们能看到一个有意思的历史趋势——问题的解决方案越来越不依赖于人类的先验知识,也越来越无法被人类理解了。
 
同源建模的场景里,对一个蛋白质进行结构预测,需要非常具体的先验知识——得有一个氨基酸序列高度接近、而且结构已经被人类解析的样本作为参考比对才行。从已知到未知的脚步,迈得非常小。
 
Rosetta软件已经能够摆脱对已知蛋白质结构的依赖,处理全新的蛋白质结构信息了,但是它同样依赖于人类关于蛋白质的物理化学知识的积累——我们得知道哪些氨基酸彼此靠近会更稳定,哪些氨基酸天然排斥等等。
 
反过来,这些传统方法的结果,我们看了也能大概知道它是根据什么逻辑得出的。比如说,是根据氨基酸序列接近的蛋白质三维结构也比较接近,或者,是根据氨基酸分子之间的能量状态变化等等。
 
到了AlphaFold2这里,在完成初始的训练之后,它已经可以做到,不依赖任何先验知识做结构预测了。实际上,在AlphaFold2的运算过程里,它根本不需要知道自己处理的是蛋白质分子的三维结构。在它看来——如果它能看的话——自己处理的无非是大量节点在三维空间中的彼此距离,以及哪个组合方式得分比较高,至于处理的是氨基酸分子的排布,还是广场上一群人的运动,根本没有任何差别。
 
这也就导致了一个问题:我们知道AlphaFold2表现很好,但我们无从理解AlphaFold2到底是根据什么规则、什么原理得到了这样的表现。就算AlphaFold2具备了自我意识,能够和我们对话,它充其量也就是告诉我们,在人工智能算法里使用到的成百上千个参数分别是多大,而已。至于为什么会有这些参数,为什么这些参数的数值是这样的,它不理解,我们也不理解。
 
在我看来,这意味着在人工智能时代,人类获取知识的逻辑将要发生一次地动山摇的变革。
 
人类认识世界、获取知识的办法,无外乎是对小样本数据的归纳和演绎。我花了几天功夫观察绵羊,发现它们都是白色的,因此提出 “绵羊都是白色的” 这个命题——这是归纳法;我认为绵羊都是白色的,而我面前有一只黑色的动物,因此我判断它不是绵羊——这是演绎法。归纳和演绎得到的结果并不总是正确的,我刚刚这个例子就是错的,但它是人类认知世界的起点。
 
反复利用归纳和演绎的方法,人类对世界的认知过程大概是这个样子的:对有限的小样本进行观察和分析,试图提炼出一般性的法则,再对这个法则进行更多的检验,进一步证明或者推翻它。
 
比如,通过观察部分星体的运行轨迹,人们总结出了开普勒三定律和牛顿定律,并在这些定律的指导下预测和发现了海王星,而在这些定律出现问题的场合,人们找到了全新的规律——广义相对论。要是脑子里没有这些定律,我们在夜晚抬头望向星空的时候,看到的只是随机运动的一团乱麻。
 
但是在人工智能这里,这套认知方法论可能是无效的、至少是不必要的。大力出奇迹的做法,让算法知其然的同时完全不需要知其所以然。今天,算法可以在不懂围棋精神也不看人类棋谱的条件下,战胜围棋世界冠军;可以在完全不知道什么是人脸、什么是眼睛鼻子嘴的条件下,做到精确的面孔识别;可以在不知道什么叫语法、什么是主谓宾、什么是名词形容词的条件下,做到人类语言处理;可以在不借助任何蛋白质化学理论的条件下,预测蛋白质结构……所有这一切,只需要大量数据的训练。必须承认,这是一种全新的、人类并不习惯也无法真正理解、但是非常管用的认知方法论。
 
这对于人类来说意味着什么呢?
 
想要推测是很困难的,毕竟人的推测依靠的也仅仅是归纳和演绎。但我想,有一点是肯定的,我们不得不习惯和大量的 “异类” 新知识相处,我们确实知道它们是对的、是有用的,但就不知道它是怎么来的。
 
要知道,对于曾经的人类来说,所有的知识都来自归纳和演绎这种能够理解的认知方式,用归纳和演绎也应该能得到所有我们需要的知识,这是一种无以伦比的智力骄傲。希尔伯特说,“我们必将知道,我们必须知道”,背后的精神支持正是如此。
 
但慢慢的,我们会不会干脆放弃自己寻求新的知识,放弃归纳和演绎的方法,完全依赖于算法为我们提供的新知识?打个比方,我们小时候大概都通过摆弄小石子知道了为什么一加一等于二,二加三等于五。如果一个人从出生起就只能通过计算器了解数字,他当然也会掌握一加一等于二,二加三等于五,但是会不会从头开始就完全不理解、也不想理解这些算式背后的意义是什么?我们会不会慢慢地也像算法一样,习惯于知其然而不知其所以然?
 
在AI快速进步的时代,太多人担忧AI取代人类工作,甚至是战胜和消灭人类。相比这些猜测,我倒是更担心AI对人类认知的冲击。生活在一个答案显而易见、唾手可得、但推导过程完全隐藏在黑暗之中的时代,对我们到底意味着什么呢?
 
哦,在故事的最后,也请允许我吐槽一下。
 
最近这段时间,互联网行业最热门的话题就是巨头纷纷砸下重金,加入社区团购的赛场。利用数据,利用算法,利用手里的钞票,巨头们苦苦研究的话题是怎么把瓜果生鲜便宜、快速、精准地送到每一个消费者手中。在购物、打车、外卖这些热点之后,买菜成了互联网最时髦的话题。
 
这当然是个好生意。但我总是忍不住想,我们能不能干点别的?掌握着海量的数据和牛叉的人工智能算法,互联网巨头们能搞出类似AlphaGo和AlphaFold这样可能改变人类世界面貌的东西吗?
 
有两句话我特别喜欢。一句话来自PayPal的创始人彼得·蒂尔(Peter Thiel),他说,“We wanted flying cars, instead we got 140 characters”,我们需要能飞的汽车,但结果却得到了140个字符。一句话来自登月英雄巴兹·奥尔德林(Buzz Aldrain),他说 “You promised me Mars colonies. Instead, I got Facebook”。你答应带我们殖民火星,可我们最后只得到了 Facebook。两句话其实都在表达,对掌握海量资源和先进科技的互联网巨头的失望之情。
 
我想也许我也能吐槽一句:咱们能不能别光惦记着几捆青菜、几斤水果,说好的星辰大海呢?
 
好了,这就是本期的巡山报告。下个月6号,我继续为你巡山。
 
关于智识前沿学者计划
 
“智识前沿学者计划”,由公益组织 “智识学研社” 在今年7月推出,在影响人类未来生活的若干前沿科技领域,选拔出一批为科学进步或其应用做出努力的杰出青年学者,资助和鼓励他们持续追踪和分析前沿科技领域的新发现、新动向和新机会,并积极分享他们的专业判断,促进前沿科技信息的交流和公共讨论,为正在快速进展的前沿科技留影、存档,为读者提供重要的文献式的科学指路牌,记录参考消息式的科学当代史。
 
首批入选 “智识前沿学者计划” 的青年学者,生物学家、浙江大学教授王立铭将为大家带来生命科学领域的 “巡山报告”, 他计划深入挖掘生命科学领域新发现、新思想背后的来龙去脉,全面探讨生命科学领域的发展方向和未来影响,将这一项目打造成中国生命科学研究瞭望未来的灯塔, 为各个利益相关方,包括科学家、政策制定者、科研资助者、媒体和公众,提供公共议事的基础和意见交锋的平台,见证生命健康领域的长期健康发展。



推荐 9