为什么只多看你一眼，就再也没能忘掉你容颜？-知识分子的财新博客-财新网

编者按：

为什么你见过一个人便会记得他的容颜？你的大脑在那一刻发生了什么？人工智能面部识别技术的日渐成熟，开启了“刷脸时代”。那么人类又是如何识别面孔的呢？和机器面部识别原理一样吗？

加州理工学院的几位博士生创办的微信公众号《科考夫瞭望》（ID：BioBurst），立足加州理工，介绍了许多有趣的研究，比如水母会不会睡觉、为什么碱蝇在水里身子不湿、小鼠怎么学会分辨雌雄等等。而本篇文章则详细介绍了加州理工学院Doris Y. Tsao教授实验室的一项工作，阐明了我们大脑的最高级视觉区域究竟是用何种方式奇迹般地记录下成千上万张人脸的。

撰文 | 石悦琳

责编 | 程莉蒋海宇

1963年的某一天，Woody Bledsoe先生坐在一台古怪的仪器前，测试着他新发明的人脸识别系统。他拿着触控笔在一张照片上点点画画，记录到的电信号被传入了电脑，几分钟后，电脑显示出一行小字：照片中的人是怀特先生。

这是人脸识别任务第一次在计算机上实现，虽然整个过程既不迅速也不自动，但却无疑是人工智能历史上重要的一笔。历经短短数十年的发展，人脸已经代替指纹、虹膜等传统的生物识别体征广泛应用在了商界乃至政府部门。从引领革命的iPhoneX刷脸解锁到逐渐兴起的刷脸签到、直播特效，人脸识别俨然已经成为了新的大众日常。

但是，人类自身是如何识别人脸的？尽管人脸识别技术日新月异，科学家们对这一问题的研究却进展缓慢。机器面部识别的巨大成功，为神经科学家们带来了新的思路——人脑的面部识别机制或许会与机器面部识别原理殊途同归。

毕竟，我们的大脑和“硅基生物”计算机还是有几分相似之处的：计算机眼中的人脸是由0和1组成的矩阵，我们使用的编码符简单来说也只有神经元放电或不放电两种。和计算机一样，我们进行人像识别也必然需要从图像中进行特征提取、将提取到的特征放到一个名叫“记忆”的数据库中进行比对、最终调取身份信息、输出判断结果等。

也正是顺着这样的思路，加州理工学院Doris Y. Tsao教授实验室的一项工作踏出了探寻人脸识别生物学原理的第一步。他们想搞清我们大脑的最高级视觉区域究竟是用何种方式奇迹般地记录下成千上万张人脸的。

►Doris Y.Tsao, 加州理工学院生物学教授。来源：http://www.bbe.caltech.edu/content/doris-y-tsao

“一天早晨，我醒来看着自己的房间，想到空间是无限的吗？如果是，这听起来简直让人后怕；如果不是，那空间的外面又是什么呢？”

“然而，比这个问题本身更让我觉得不可思议的，是我如何在脑海中想象出空间这个概念的？”

——11岁的Doris的这番疑问驱使她日后走进了神经科学领域

难辨真伪的“祖母细胞”理论

这世上的脸庞千千万，脑子里的细胞也有千千万。长期以来科学家们提出过的可能的人脸神经编码模型更是不胜枚举。在这些模型的两极，屹立着两派截然相反的经典编码理论：“稀疏编码”和“密集编码”。

我们可以用颜色的编码来类比理解：假设现在我们需要用神经信号来表征世界上所有的颜色，一种方法是我用一两个细胞表示红色，用另一两个细胞表示蓝色，等等，这样哪个细胞响应就意味着看到了哪种颜色，由于这种情况下活跃的细胞总是非常稀少，因此被称为“稀疏编码”（下图左）；而生活中大多数电子设备使用的RGB系统则是“密集编码”，因为不管看到什么颜色，这群（当然这里只需要三个，分别负责R、G、B频道）细胞都需要同时被点亮，我们总是需要通过这一群细胞的激活强度，综合推断出看到的是什么颜色（下图右）。

稀疏编码中最极端的情形，叫做“祖母细胞”模型。根据这种假说，人脑中存在一个神经细胞，当一个特定的概念如你的祖母头像出现时，这个细胞就会激活。在2005年，这种祖母细胞竟然当真在一个与记忆相关的脑区被发现（注：是加州理工的研究者发现的，见注1，不过这个实验还存在很多争议），引起了不小轰动。

目前科学家们已经比较确定，“记人”过程的主要机制的确是稀疏编码，但是对“看脸”的过程中究竟是稀疏模型还是密集模型还不清楚。虽然此前的若干证据都提示，“看脸”可能使用的也是稀疏编码，但很多科学家还是将信将疑：“看脸”毕竟和“记脸”不同，我们这一生能看到的脸是没有上限的，用稀疏编码把神经元用完了怎么办？

在猴脑中找到“看脸区”

要解决这个大问题，无的放矢可不行。为了进一步的研究，首先得找出我们的人脸识别系统潜伏在大脑的什么地方。

科学家们很早就用fMRI在人脑中找到了一块喜欢“看脸”的脑区：梭状回面孔区（Fusiform Face Area，FFA），这块区域里的细胞在看脸的时候会突然兴奋，而看到其他物体的时候则一脸冷漠。可惜由于伦理上能利用人类进行的实验有限，这项工作也就此停滞。

直到2003年，博士期间的Doris第一次在恒河猴的脑中找到了一些类似的“看脸区”（Face Patches）：在猴子们认真观看小电视上闪过的人脸或猴脸的时候，有若干脑区也会像在人脑中一样开始活跃。紧接着2006年，他们设计好轨道，将一根电极准确插入猴脑的看脸区，真正聆听到了单个神经元的声音，的确，看脸区里97%的细胞都对脸情有独钟。虽然它们放电的波形、频率和强度都各不相同，但对脸的反应强度都显著高于其他各类物体。

►A）fMRI实验中亮起的“看脸区”

B）观看不同类别物体时的fMRI信号对比

C）观看不同类别物体时的单细胞信号对比来源：[2]

猴脑中6个大大小小的看脸区都坐落在一个叫做下颞叶（Inferior Temporal，IT）的脑区。下颞叶是视觉腹侧通路的终点站，也就是负责日常处理“我们看到的是什么”信息的最高级脑区。在这里，我们眼中的物体作为一个整体被下颞叶区的神经元识别，而且不因物体的位置、观察角度、光照条件等而改变。

而了解下颞叶区细胞的工作原理一直困难重重，一个重要的原因，是世界上物体种类太多而模样繁杂，很难定量研究。这时，一块专为识别脸而特化的脑区就显得尤为珍贵。

人脸识别的RGB

找到看脸区后，我们迎来了最重要的问题：人脸是如何在看脸区表征的呢？

要证明某一个脑区确实编码了某个事物，至少需要正反两个方面的验证：

1. 给定一张人脸，可以预测出看到这张脸时该脑区神经元群体的发放（电脉冲信号）

2. 给定一群神经元产生的发放，可以反推出他看到的脸

也就是我们要证明人脸图像和神经元兴奋之间存在着一定的映射关系。

此前Doris实验室在看脸区中发现了一些只稀疏地对某几张脸兴奋的细胞[4]，这就是之前提到的使许多科学家相信人脸识别使用的也是稀疏模型的证据之一。但这些个例无法解释剩下那些对大量脸都兴奋的细胞的工作机制。因此更有可能的是，看脸区使用的是密集编码，而那些稀疏细胞则是特例。

根据前面介绍的稀疏编码的思想，我们如果能找出每个细胞负责编码的是面部的哪些特征，就可以理解看脸系统的运作原理。简单的理解，就像在游戏中捏脸一样：

如果每个神经元代表上图中的一个参数条（一个特征维度），我们就能轻易根据这群神经元的发放“捏”出人脸。

不过，现实与游戏的不同之处在于，这些参数条并不能构成一个数学上完备的脸空间，如果失去了事先设定的母版，仅靠这些参数其实是无法确定出脸的模样的。

为了更科学地找出所需要的面部特征维度，研究人员将人脸信息分为了形状和外观两部分，再分别对200张人脸图像的形状和外观数据通过主成分分析（PCA）降维至25维，并共同拼成了一个50维的脸空间。

形状示意：

外观示意：

经过这种处理，这50个维度将代表着“用数据说话”的脸部重要特征，而不是眼睛大小、鼻子高低这种人为预设的特征。更重要的是，世界上的每一张脸都会成为这个脸空间中一个独一无二的一点，任意在这个脸空间中取一点就能根据其坐标还原出原始图像，我们于是有了一个完备的对人脸的数学表述。

现在让我们来看看，看脸时，每个神经元究竟在干什么。

我们沿着脸空间里的任意一个方向（一条从原点延伸出去的轴）等距离的取一些点，把这些点翻译成人脸图像播放给猴子，同时记录一个神经元见到这些脸时的激活强度。我们得到了这样的一条线段：

几乎所有被记录的细胞的激活程度都会随着脸的排布按这样一条线段变化，这说明脸区神经元的活跃程度与脸的每个特征都是线性关系！

用数学语言来说，这说明每个神经元的活动强度等于它看到的脸的50维坐标的某种线性组合。而只要把这个线性关系逆推一下，就可以通过这群细胞的发放强度求得一张脸的坐标。所以，如果我们设法拟合出这个线性关系的系数，就等于找到了从人脸图像到神经元群体发放的映射关系式，证明看脸区的确在用这种方式编码人脸。

结果如我们所料，这个线性模型近乎完美地诠释了神经活动与人脸的映射关系。当我们画出从神经活动反推出的人脸，已经很难分辨出哪些是预测结果，哪些是原始图片。

来源：[3]

至此，问题的答案终于水落石出，人脸识别使用的是密集编码。看脸区每个神经元代表的特征都是脸空间里沿某个方向的一条轴，它的发放强度取决于空间中一张脸投射在这根轴上的长度。我们可以把这个模型叫做人脸识别的轴模型。

给“祖母细胞”模型的最后一击

一个好的理论，除了做到自身无懈可击，还要有“落井下石”的功力——证明其他模型是错误的。

沿着“细胞是一条轴”的结论，可以想到一种巧妙的检测方法：用一个细胞所代表的“轴”的某个垂直面上远近不同的一些“脸”来测试这个细胞的反应强度。

轴模型和“祖母细胞”模型会对实验结果给出两种截然不同的预测。根据轴模型，神经元应当会对这些垂直面上的“脸”都给出相同强度的响应，因为这些垂直面上的脸所对应的向量投射在这根轴上的长度都是相同的；而如果是祖母细胞模型成立，那么细胞对垂直面上不同的“脸”应当会有不同强度的响应，此时决定细胞响应强度的将是这张“输入脸”与细胞自身对应的“祖母脸”相似程度有多高，也即“输入脸”与“祖母脸”在脸空间的距离。

不仅如此，轴模型甚至还可以解释曾误导了科学家们的稀疏细胞的存在：它们只是一些特别挑剔的细胞，也就是说只有当一张脸投影在细胞轴上非常短的一段区间里时它才兴奋，这使得只有少数正好投影在那个区间的脸可以被感知。实验结果一一证实了这些猜想。

至此，研究人员终于成功解释了人脸在灵长类动物中的编码机制，并至少在人脸识别（“看脸”）领域推翻了科学家们长期以来认为正确的稀疏编码理论。当然，这还只是万里长征的第一步，要真正弄懂人脸识别的原理，还有太多问题等待被解答：我们如何将每张脸的编码存储下来？当前的人脸如何与记忆中的信息进行比对？如何将脸的信息与一个人的其他身份信息整合在一起？……

相信轴模型的诞生，会是这场漫漫征途的一把利剑。

目前世界上最完美的人像识别系统：

感谢陈欣泓、丁霄哲两位同学对本文修改提供的帮助。

参考资料：

[1] Invariant visual representation by single neurons in the human brain R. Quian Quiroga et al. Nature, 435. 1102 - 1107, 2005.

[2] A dedicated system for processing faces Tsao DY. Science, 314, 72-73, 2006.

[3] The code for facial identity in the primate brain Chang L, Tsao DY. Cell, 169, 1013-1028, 2017.

[4] Functional compartmentalization and viewpoint generalization within the macaque face-processing system Freiwald WA, Tsao DY, Science, 330, 845-851, 2010.

话题：