酷科技！美学者精准解析人类发音，使失语者恢复“原音”-知识分子的财新博客-财新网

撰文 | 计永胜责编 | 叶水送

语言是人类最基本的交流方式。遗憾的是，世界上有很多人并不能正常地进行语言表达，如神经功能失调（Neurological Disorder）患者最严重的后果之一就是语言能力丧失。

据世界卫生组织统计，全球60岁及以上人群约有20%受精神神经失调的困扰 [1]。让语言功能丧失者发声是科学家一直追求的目标。

借助特殊仪器设备可弥补一些人的语言能力缺失。最熟悉的例子就是霍金的轮椅。霍金因患有肌肉萎缩性侧索硬化症（又名“渐冻症”）而失去语言表达能力，只能通过选择轮椅显示器上的单词拼成句子，经由语音合成器发出声音来传达自己的观点。

但这类设备最主要的问题就是过程繁琐，说话太慢，远不及正常人的交流速度。那么，能否将人的脑部活动直接转换为声音信息呢？

答案是可以的。脑-机接口技术（brain-computer interface，BCI）可获取人大脑的电波信号。2014年，美国西北大学Marc W. Slutzky 团队通过该技术同时记录人的发音信号和脑电波信号，将美式英语中的音素（Phoneme，区分单词的最小语音单位）与脑电波做了一一对应 [2]。

但言语表达不只是一个简单的声波传递过程，更需要人精确地控制气流以及多个发声器官的完美配合。

2018年，加州大学旧金山分校神经外科学系教授 Edward F. Chang 的研究团队记录了人说话时的脑部信号和声道不同部位（舌头、嘴唇、下颚和喉部）的动作，并对二者进行了对应，获得了一系列发音运动轨迹（Articulatory Kinematic Trajectories，AKTs）数据 [3]。

那么，能否再进一步把脑活动、声道动作变化和语言进行整合，将脑电波解码为语音信息呢？

最近，Chang的研究团队开发了一套“两步法”人工语音合成系统，可将大脑神经活动解码合成为言语声音。相关研究于2019年4月25日发表于《自然》杂志 [4]。

所谓“两步法”，就是科研人员首先将受试者的脑部活动转录为发声动作信息，然后将发声动作信息解码为声音信息进行语言合成。

研究具体是怎么进行的呢？科研人员请参与研究的五名志愿者大声地朗读几百个句子，同时记录下他们大脑皮层的活动信号。随后，研究人员将大脑活动信号转码为发声部位（舌头、嘴唇、下颌和喉部）的动作变化信号。最后，科研人员将动作变化信号进一步解码为声音信号传出。

研究发现，解码声音与原声音的声谱特征具有很高的相似性。科研人员还对合成语音的清晰度进行了检测。结果显示，听者在聆听101段合成语音后，能比较轻松准确的辨识其中的单词和句子。同时，与将神经信号直接一步转码为语音（还原原音）相比，“两步法”解码系统对语音内容的保真度更高，这种优势随着转码语音时间的延长而更加明显。

随后研究人员请一名志愿者朗读了58个句子，结束后紧接着对原句进行了默读，只有动作，没有声音。有趣的是，“两步法”解码系统合成的默读声谱与合成的朗读声谱特征相似。

虽然默读的整体语音合成效果逊色于有声阅读，但论文作者认为“两步法”系统可以对无声言语的重要特征进行解码。换句话说，“两步法”解码系统可以识别发声者的唇语，做到“你张张嘴，我就知道你要说什么”。

同期《自然》杂志还刊发了埃默里大学教授 Chethan Pandarinath 和佐治亚理工学院教授Yahia Ali关于该论文的新闻与观点文章。他们表示，Chang 的团队“两步法”解码系统从语音合成精确度和听众辨识度两方面对脑电波解码为语言的概念进行了有力的验证，但“如果语言环境比较复杂的话，（通过神经信号）直接合成语音的效果可能会和‘两步法’平分秋色，甚至优于‘两步法’”，而且当前合成语言的清晰度与正常对话差距还是比较大，脑-机接口技术实际应用于临床仍面临很多挑战。

两位评论者最后指出，“随着不断努力，我们希望有语言障碍的人能重新获得自由表达想法的能力，与周围的世界重新链接”。

主要参考文献：

[1] Mental health of older adults, https://www.who.int/en/news-room/fact-sheets/detail/mental-health-of-older-adults.

[2] Emily M. Mugler, James L. Patton, Robert D. Flint. et al, Direct classification of all American English phonemes using signals from functional speech motor cortex. J Neural Eng. 2014 June; 11(3):035015. doi:10.1088/1741-2560/11/3/035015.

[3] Chartier, J., Anumanchipalli, G. K., Johnson, K. & Chang, E. F. Encoding of articulatory kinematic trajectories in human speech sensorimotor cortex. Neuron98, 1042–1054 (2018).

[4] Anumanchipalli, G. K., Chartier, J. & Chang, E. F. Speech synthesis from neural decoding of spoken sentences. Nature 568, 493–498 (2019).

▼▼▼点击“阅读原文”，与知识分子一起悦读2019。

话题：