撰文 | 邸利会(《知识分子》主笔)
责编 | 李晓明
6月25日,在德国法兰克福举行的2018国际超算大会上,最新一期Top500全球超算排行榜即将正式发布,美国橡树岭国家实验室的超级计算机Summit,不出意外将以峰值计算性能每秒20亿亿次(200 PFlops)的速度登顶全球最快超级计算机。
中国的天河二号和神威太湖之光让出了已经占据5年的第一的位置。不过,在业内人士看来,Summit已经比预计的日期延后了一年,而中国并非不能造出200PFlops的机器,只不过各有自己的既定发展节奏。争夺世界最强计算机固然重要,但超算的真正较量,绝不止是看谁是第一那么简单。
虽然过去了很多年,付昊桓还记得这么一个故事。那是在2010年的11月,天河1A首次成为世界上最快的计算机。中国超算界的专家都很高兴,毕竟“最快”这个荣誉,几十年来由美、日垄断,其他国家未曾染指。
不过,在天河1A摘取世界第一桂冠的美国超算大会现场,就有美国专家发问,中国现在有实力构建全球最快的超级计算机,但是否能用最快的机器来解决最顶尖的科学或者工程问题?在这位专家的眼中,这台庞然大物,也许是“中看不中用”。
这位专家的指摘虽然尖锐刺耳,但是的确反映了一个事实:造出最快的计算机固然不错,能否真正发挥作用才是根本。
也差不多那个时候,付昊桓从斯坦福回到了清华,加入到刚成立不久的地球系统科学系。也是从参会回来的同事口中,付昊桓听说了这段故事。当时,天河1A采用的是英特尔的处理器和英伟达的GPU加速器,在上面跑大型的应用程序也才刚刚起步。
“我回到清华后的第二年,2011年的时候,比较凑巧,我们几个人在那一年中慢慢地结识。我先是认识了薛巍老师,然后经薛老师介绍,又认识了杨超老师。”付昊桓说。
在清华大学计算机系的薛巍教授此前从事电力电网研究,之后又扩展到气候模拟等其他应用领域。中国科学院软件研究所杨超研究员则从事计算数学的研究。付昊桓那时正对新的计算架构着迷。“因为天河1A是CPU加GPU,主要的计算力由GPU加速器来提供。所以要把它高效用起来,就得把GPU用好了。我们当时就组了一个团队,想把这个机器用起来,解决大气模拟的问题。” 付昊桓告诉《知识分子》。
从天河1A开始,短短几年内,中国先后推出一系列超级计算机,不断刷新“最快”纪录。2011年10月,落户济南的“神威蓝光”,全部采用国产处理器和系统软硬件,峰值计算超千万亿次。2013年6月,由国防科学技术大学研制的“天河二号” 以每秒5.49亿亿次的峰值计算速度,成为“全球最快”。2016年6月,由国家并行计算机工程技术研究中心研制的“神威·太湖之光”,峰值计算速度达到每秒12.5亿亿次,性能也更加稳定。从2013年6月算起,来自中国的超级计算机已占据TOP500榜单第一位置达五年之久。
六年间,变化的不仅是越来越强悍的机器。
2016年11月,在美国盐湖城举行的国际超算大会上,由杨超、薛巍、付昊桓等人联合北京师范大学组成的研究团队获得了“戈登·贝尔”奖。这一高性能计算应用领域的最高奖,几十年也由美、日等超算大国垄断。中国不仅打破了这一纪录,而且在入围的6项应用中占了3席。2017年11月,由付昊桓领衔的交叉团队再次获得该奖项。付昊桓现为清华大学地球系统科学系副教授,国家超级计算无锡中心副主任。
蓦然回首,世界超算的格局已然改变。
2016年,在一份有关高性能计算的报告中,美国国家安全局和能源部认为,中国超算已经和美国接近并跑(near-peer),对其国家安全、经济社会、超算行业等造成威胁,若再不加大投资,寻求改变,美国将失去其领导地位。
而今,再不会有人认为,中国的超级计算机只是个庞然大物。“太湖之光对中国来说是重要的进展,确实,其每秒93Pflops的速度比美国能源部所有的计算机总和还要高;更重要的是,此前中国的超算系统除了在跑标准(比如LINPACK测试)外没有太多大规模应用,可这次在太湖之光上面大型程序是能很好的运行的。” 该报告说。
如今,超算这一领域的最强争夺,已经成了中国、美国、日本等少数几个国家之间的竞争。6月25日,美国橡树岭国家实验室的Summit正式发布,重回第一。不过,业内都清楚,谁拥有第一强的机器,仅仅只是超算较量的其中一步。
利用太湖之光强大的计算能力,付昊桓目前所做的工作,希望为科学家研究地震发生的机制提供更为准确的模拟平台,同时为抗震防震提供量化评估工具。自去年模拟唐山大地震获得“戈登·贝尔”奖之后,他的团队把目标瞄向下一个更艰巨的目标,模拟汶川地震。
十年之前的5月12日,发生在四川汶川的地震造成近7万人死亡,37多万人受伤,17多万人失踪,震惊世界。可与预报天气不同,面对无法直接探测的地壳深部结构,地震的数值预报目前还是不可解的难题。退而求其次,付的团队打算运用超级计算机模拟地震的震源产生、地震波传播过程,针对特定区域完成基于地震过程情景模拟的震害预测,量化评估地震强度及震害分布。精确的模拟,对于降低与预防地震灾害所带来的巨大损失,以及开展地震高发区的合理规划与设计,均可发挥重大作用。
在汶川地震中,大量的山体崩塌、滑坡掩埋村镇,形成堰塞湖,危及成千上万人的生命。付的团队打算与成都理工大学研究山体滑坡的团队合作,研究地震会不会触发山体滑坡,会触发什么样的山体滑坡。此外,他们也与建筑防震专家合作,将地震的模型与建筑的模型连接起来,研究发生地震后会对建筑造成怎样的损害。“像美国的加州地区也是地震频发,那里人们买房子都要购买地震的保险。而每栋房子保险的定价,背后依靠的就是是基于地震模拟的量化风险评估。” 付昊桓介绍说,地震相关的产业服务离不开精确的模拟。
从地震模拟、大气模拟、海洋模拟,到钛合金微结构模拟、托克马克逃逸电流模拟、蛋白质冷冻电镜三维电子结构计算,科学家正利用超级计算机解决重要的科学问题。除了科学方面的用户,各个超算平台也接纳了不少企业的用户——他们想设计新型的飞机发动机,船舶,还有风力发电的涡轮机叶片。超算已成为支撑智能制造、提升经济质量不可或缺的重要一环。
超算平台大量投资的背后希望换回的是更大的社会经济效益。以神威太湖之光为例,18亿元的投资,除了中央财政的投入,江苏省和无锡市各出资6亿。此外,无锡市还负责日常的运营费用,包括负担15兆瓦的功耗(大概相当于3个清华大学的耗电量)。无锡市希望通过超算平台吸引从事人工智能、智能制造、工业大数据的企业和研究人员,其建立的超算产业园,也希望能惠及当地经济发展。
作为国家超级计算无锡中心主任,杨广文利用一切机会推介神威太湖之光。在去年6月的一个论坛上,在介绍完神威后,他恳切地对观众说,希望大家能把这个国家重大装备用好,解决重要的科学问题,促进产业升级。“我想说,超算大家听上去是高大上的,也是国家战略,但是否会把它做成一个可持续发展的(产业)?超算人也想成功。” 他说。
在前述的美国国家安全局和能源部的报告中,也认为中国超算的发展将威胁美国的经济:“高性能计算领导地位的损失潜在地威胁到已经重度使用高性能计算的行业内的美国公司。这些行业包括汽车、航空航天、先进制造、石油勘探、制药研究、金融等。这些行业在全球范围内已经具有强的竞争性,因此美国竞争力的些许损伤(例如,如果中国用其高性能计算领导地位为其国内产业提供廉价甚至免费的计算能力)就会转化成更大的经济效应。同样也会带来重大的知识产权风险:如果一家制药公司的药品开发在海外进行,那么IP泄漏在多大程度上会阻碍美国的竞争力?”
而对于中国而言,有些行业的发展(如飞机发动机的设计)也到了一定的程度,必须自行开发软件,而不可能像过去那样,直接拿国外的商业软件使用。“包括飞机也好,高铁也好,还主要是依赖国外的商用软件在进行设计和仿真,下一步我们希望基于神威的平台,特别是和这些应用单位深入合作去做我们自主工业仿真和设计的软件平台。” 付昊桓说。
从采用国产的处理器,到编译器,操作系统,各种计算库,开发框架,中国的超级计算机试图构建一套自己的生态系统,而要真正进入良性的发展还依赖于用户的使用和反馈,他们是超算社群至关重要的一环。
2015年4月9日,美国商务部发布公告,禁止向中国的4家国家超级计算中心出售英特尔“至强”芯片。有外界评论认为,此番禁运可能和天河二号多次占据超级计算机高性能榜首有关。紧接着2015年年底,中国推出神威太湖之光,取代天河二号,继续成为最快的计算机,且使用的是全国产芯片。
不过,这两件事情之间仅仅是一种“巧合”,二者并没有直接的联系。此前的“神威蓝光”就已经采用了全国产芯片,神威太湖之光从开始设计之初就是全国产,只不过按照预期的进度推出而已。
这恰如此次美国Summit的推出(其实已比预期延后了一年),对于超算界来说,都是意料中的事。“200P,300P我们能不能造出来?其实是可以造出来的,只是说大家规划的节奏不一样。” 付昊桓解释道。
目前,世界各国正准备建造下一代E级计算机(100亿亿次),将计算能力推向一个新的高度。关于为何建造E级计算机,TOP500发起人、橡树岭国家实验室及田纳西大学Jack Dongarra教授在上个月南昌举办的ASC会议期间告诉《知识分子》:“不是我们要造下一代计算机,而是科学家提出了更困难的挑战,更难的问题(需要这样的计算机),E级的计算机只是我们发展中间跨越的一个障碍物,以后还会有更高量级的计算机出现。”
《知识分子》了解到,E级计算机,中国目前有三家机构正在独立研发,预计将于2020年推出。而对于中国的超算来说,更为重要,也更为长远的任务,也许是整个生态系统的建设。
“单纯从超算而言,无论是硬件系统,还是部分领域的软件应用,中国都已经有和美国、日本比肩的突破性成果。但要能够对超算背后的诸多产业都能形成一个正面的反馈,还需要较长的时间。比如基于超算的天气及气候预测、工业设计和仿真、新材料的制备、新药研发等等,任何一个行业与超算硬件及软件的融合,都能产生巨大的产业提升。我们现在有了超算技术的突破,下一步应该期待如何实现对产业的辐射和支撑。”付昊桓说。
对于中国的超算来说,现在有了一个珠穆朗玛峰,下一步或许应该期待整个青藏高原。
参考文献:
1. U.S. Leadership in High Performance Computing (HPC): A Report from the NSA-DOE Technical Meeting on High Performance Computing, December 1, 2016.
2. Haohuan Fu, Conghui He, Bingwei Chen, Zekun Yin, Zhenguo Zhang, Wenqiang Zhang, Tingjian Zhang, Wei Xue, Weiguo Liu, Wanwang Yin, Guangwen Yang, Xiaofei Chen: 18.9-Pflops Nonlinear Earthquake Simulation on Sunway TaihuLight: Enabling Depiction of 18-Hz and 8-Meter Scenarios, the International Conference for High Performance Computing, Networking, Storage and Analysis (SC 2017), Denver, USA, November, 2017. (ACM Gordon Bell Prize)
0
推荐