中国超级计算机的自主创新之路还任重而道远 | 图源:pixabay.com
导 读
2022年5月30日,第59届全球超算前500强榜单(TOP500)发布,美国巨型计算机系统 “前沿(Frontier)” 以每秒110.2亿亿次的运算速度登顶。TOP500官网写道:“前沿” 不仅是有史以来最强大的超级计算机,而且是第一台真正的E级计算机器。
在超算系统这个领域,中美是最重要的玩家。中美超级计算机占据TOP500排行榜的一半以上,相比上一届,中国保持在173台不变,拥有列表中最多的超算系统(34.6%),美国从150台下降到126台(25.4%)。然而,细究起来,中国超级计算机的自主创新之路还任重而道远,面临着原创能力不足、人才匮乏及应用较少等问题。
撰文 | 宋安娜
责编 | 钱炜
备受关注的下一代超级计算机——E级超算系统终于问世。这个进展标志着超级计算新时代的到来,也让美国在计算速度上重新夺回了世界第一。
这台只需要一秒钟就能计算百亿亿次的机器,是位于美国田纳西州橡树岭国家实验室的巨型计算机系统 “前沿(Frontier)”。当地时间5月30日,全球超算盛会ISC22在德国汉堡市开幕,会上发布了第59届全球超算前500强榜单(TOP500)。TOP500官网写道:“前沿” 不仅是有史以来最强大的超级计算机,而且是第一台真正的E级计算机器。
图1 2022年6月公布的第59版Top500超级计算机排名(前5名列表)| 图源:Top500官网
在运算速度上,“前沿” 有着非常显著的优势,比榜单上第二名的日本“富岳”在算力上拉开两倍以上的差距。不过,还不光是如此,美国加州大学计算机工程博士刘少山指出,超级计算机是一个极其复杂的系统工程,任何一个短板都可能成为算力的瓶颈,因此 “前沿” 超级计算机的突破背后,是在多项技术上的领先。
图2 美国田纳西州橡树岭国家实验室的巨型计算机系统 “前沿(Frontier)” | 图源:olcf.ornl.gov/
E级计算机问世
过去,关于如何衡量超级计算机的进展,学界没有公认的最佳标准。1990年代初期,美国田纳西大学电气工程和计算机科学杰出教授杰克·唐加拉(Jack J. Dongarra)使用Linpack代码,创造出衡量超级计算机能力的测试。有了Linpack,科学家可以知道超级计算机每一秒运行多少次计算,进而可以比较哪台机器是地球上运行最快的。
在唐加拉等人的主持下,从1993年开始,全球超级计算机500强榜单TOP500开始发布,每半年公布一次。不同以往的是,今年这次的榜单很有看头。美国超算系统 “前沿” 以1.102 Exaflop/s(每秒110.2亿亿次)的Linpack峰值性能登顶TOP500,实测性能成功突破1 Exaflop的障碍,E级超算终于到来。
“前沿” 由美国能源部负责运营。这个庞大的超级计算机系统由74个机柜组成,可容纳9408个节点。它配备AMD公司的处理器,共有超过873万个内核,系统能效比为52.23GFlops/W,依靠千兆以太网进行数据传输。数据显示,榜单第二名超算系统,亦即日本 “富岳” 的Linpack基准测试峰值性能为每秒44.2亿亿次,不到 “前沿” 的一半。
图3 “前沿” 节点图 | 图源:olcf.ornl.gov/
E级超算此前被认为是超级计算机领域的 “下一顶皇冠”。所谓E级超算,是指能在一秒钟实现百亿亿次数学运算的超级计算机。一般情况下,要能够被称为E级计算机,双精度浮点运算能力峰值或超算TOP500的HPL(High Performance Linpack)实测性能要达到E级,并要满足系统能耗比、内存容量、存储容量等方面的要求。
早在2008年,国际高性能计算界就提出了E级计算机的议题,并开始了研讨和预研工作。近年来,世界各国纷纷设立E级超算相关研究专项,包括美国的ECP、欧洲的EuroHPC、中国的 “高性能计算专项” 等。
“前沿” 是美国ECP计划(美国能源部E级计算计划,Exascale Computing Project)重点资助的项目。2016年,美国能源部公布ECP计划,投入18亿美元用于研制三台E级计算机,又投资18亿美元用于应用研发。
根据当初的计划,英特尔和阿尔贡国家实验室主导研制的“Aurora”原本预计2021年交付,在性能上突破1EFlops。AMD公司主导其余两台E级超算的研制,“前沿(Frontier)” 预计峰值性能达1.5EFlops,于2021年交付;另一台 “El Capitan” 会融合 “前沿” 的技术,在2023年初交付,实现超过2EFlops的峰值性能,并采用针对高性能计算和AI工作负载而优化的新型架构。
现在看来,“前沿” 的交付时间虽然比预计晚了一些,但早于ECP布局的 “Aurora” 先跨越了这一里程碑。据报道,因英特尔供应链受影响,Aurora所需的处理器和GPU延期交付,而导致了落后,该E级计算机预计于今年晚些时候推出。
2020年~2021年的四届TOP500榜单,均由日本超算 “富岳” 霸占榜首。 “前沿” 问世后,“富岳” 滑至第二。芬兰新超算LUMI夺得第三,美国IBM的Summit和Sierra分列第四、第五;曾经在2016~2017年在该榜单上位列第一的中国的 “神威·太湖之光” 现在排名第六;中国的 “天河二号A” 排名第九。
图4 “神威·太湖之光” | 图源:china.com.cn/
虽然 “富岳” 前两年表现出色,不过,在超算系统这个领域,中美才是最主导的玩家。中美超级计算机仍占据TOP500排行榜的一半以上,相比上一届,中国保持在173台不变,拥有列表中最多的超算系统(34.6%),美国从150台下降到126台(25.4%)。
在 “富岳” 被 “前沿” 超越后,《日经亚洲评论》写道,日本面临的问题是如何制定 “后富岳” 时代的战略,开发大型超算需要近8亿美元预算,而日本的公共财政状况正不断恶化。在全球超算竞赛中,日本正努力跟上领先者的步伐。在此次榜单中,来自日本的超算系统占比为6.8%,排在中、美后面。
今年3月,中山大学国家超算广州中心主任卢宇彤在接受媒体采访时总结了各国竞争态势。她说,美国仍是超算领域最具竞争力的国家。日本研制和应用的水平比较高而且有特色;欧洲虽然投入比较少,但他们的超算应用能力比较强。中国近年来超算系统和应用都取得了快速发展,进入世界领先行列。
最快,也最环保
北京航空航天大学计算机学院教授钱德沛与副教授王锐在2020年发表的评述文章《E级计算的几个问题》中指出,自从TOP500发布以来,世界最快计算机的性能大约每10~11年会提高1000倍, 高于摩尔定律所预测的性能提高速度,这既得益于处理器速度的提高,也来源于系统规模的不断扩大。
但是,从2013年开始,榜单冠军的性能曲线变得平缓了。而且,2019年11月发布TOP500的前10名与同年6月的前10名相比较,系统和性能完全没有变化。作者们指出,超级计算机的发展遇到了瓶颈,包括四个方面的挑战:功耗、应用性能、可编程性和可靠性。
每个大型的超级计算机都会消耗大量能源,对当地的供电系统造成很大的压力,并会产生大量热量,因此,能耗与散热也是一个核心竞争点。能耗问题与超级计算机的体系结构、工艺水平和制冷技术等密切相关。清华大学科学史系博士后司宏伟在2021年底发表的一篇文章中指出, 若以国内目前传统技术方法构建一台运E级的超级计算机,年能耗将会超过三峡水库发电量的1/3。
根据美国能源部的指标,E级机的功耗不得超过20兆瓦。钱德沛等人写道,这意味着不能单纯靠扩大系统规模提高系统的性能,E级机可采用的技术手段受到很大限制。
“前沿” 的能耗是21兆瓦。国内一位研究超算领域的学者告诉《知识分子》,从此次榜单中的这些超级计算机中来看,“前沿” 不仅是运算速度最快的,而且能耗比也应该是最优的。“前沿” 持续计算性能约是 “富岳” 的2.5倍,但是功耗却只有富岳的71%。能耗成为与计算速度同等重要的度量指标后,国际科学家从2007年起与TOP500同步公布Green500排行榜,来评价超级计算机能耗水平。在这个同期发布的榜单上,“前沿” 系统同样排名第一。
刘少山补充说,“前沿” 使用了当前最先进的水冷系统,把整个系统的峰值温度控制在了85度以内,这使得它不仅是现在世界上最快的超算,也是最环保的超算。
此外,在网络架构上,“前沿” 系统也有领先之处。传统企业级服务器,是单一机器完成独立的任务。比如,如果淘宝要响应1000万个用户,可以交给1万台服务器,每个服务器响应1000个用户。但是,超级计算机是许多台计算机(被称为 “节点”)协同完成一件任务,随着规模越来越庞大,不同节点间如何 “通信”,告知彼此计算运行状态和步骤,就变得关键。如果节点间网络性能不够好,就很容易成为整个计算系统的瓶颈。
“前沿” 节点间的连接使用了最先进的基于以太网的 HPE Cray Slingshot-11 网络结构,能达到很高的带宽,让计算单元之间的数据交互更快,进而保证整体系统的运算速度更快。
超算领域一直在不断争逐越来越快的运算速度,这一切是否有尽头?答案可能是否定的。据报道,10E级超算也已在业界规划之中。
长期以来,超级计算机一直是国际竞争的焦点。当美国超级计算机Cray-1在1976年问世时,首先被军方用于战略核弹头。如今,它已经在科研与应用的很多方面产生影响,包括疫苗研发、测试汽车设计和模拟气候变化等等。
着眼当下,前述国内超算学者表示,现实中有很多应用还需要比现在的E级计算机更强大的算力,超算还需要不断发展。比如,在航空领域,需要进行流体力学模拟,如果要对部件甚至整机进行全三维模拟,实际算力可能需要比现在的E级计算机高两个数量级才能模拟得比较精准。更强大的计算能力,还能通过对气流粒度的分析越来越精准,而获得更准确的天气预报。
经过大约三年的研发之后,“前沿” 将于今年年底准备好投入科研用途,包括模拟恒星如何爆炸,研究基本粒子的性质与核聚变,以及利用人工智能来改善疾病的诊断和预防等等许多课题。
中国超算硬件领先,然后呢?
中山大学国家超算广州中心主任卢宇彤曾表示,中国超算之所以能在短短30年内,实现跨越式发展,首先是巨大的需求推动。中国第一台超级计算机是国防科学技术大学于1983年12月研制成功的 “银河-I”,中国也成为当时世界上少数几个能够研制超级计算机的国家之一。此后,国防科大、国家并行计算中心、中科院计算所联合曙光公司、联想集团等单位相继推出了 “银河” “神威” “曙光” “深腾” 等一系列国产超级计算机系统。
此外,根据之江实验室微信公号的通报,2021年11月19日,来自该实验室等机构的14名学者的一篇论文获得了国际计算机协会的戈登·贝尔奖。研究者们基于新一代神威超级计算机,研发量子计算模拟器SWQSIM,实现了每秒4.4百亿亿次的持续计算性能,是超算领域全世界当时已知的最高混合精度浮点计算性能。
2010年~2019年,中国在20届TOP500榜单上11次排名第一,足以显示在超级计算机硬件上的实力。不过,清华大学科学史系博士后司宏伟在2021年发表的文章《中国超级计算机研制反思》一文中指出,中国超级计算机的自主创新之路还任重而道远,面临着原创能力不足、人才匮乏及应用较少等问题。
文章写道,2010年11月,“天河一号” 首次在TOP500榜单上问鼎冠军,成为当时世界上最快的超级计算机,然而,其核心部件CPU和GPU,90%以上采用的是美国英特尔和AMD公司最先进的产品。“神威·太湖之光” 开始探索完全原始创新的研发模式,不过,其使用的国产 “申威26010” 众核处理器与当今国际最先进的芯片相比,仍然有不小差距。
相比之下,刘少山分析说,“前沿” 系统所涉及的超过6000万个部件基本都可以由美国本土企业提供。“前沿” 建造期间,核心零件获得了国防优先权和分配权,这可能是美国在搭建超级计算上的最大优势。
另一方面,刘少山指出,国内超算软件人才与美国相比还有很大差距,目前绝大多数超算底层软件库都是由美国的科研人员所研发。中国还很缺能够利用超算解决应用问题的高素质人才。国家超级计算无锡中心并行优化部主管刘钊在接受媒体采访时谈到,近年来在互联网公司的冲击之下,无锡(超算)中心的人手一直吃紧,特别是应用领域人才偏少,大约只占研发团队人员的三分之一。
前述国内学者也认为,应用方面的确是个问题。有的国产超算系统,其硬件对很多现在使用的软件兼容性并不好,要在该超级计算机上进行计算,需要先进行软件移植,工作量比较大。
针对此前媒体报道提到的超算中心存在一定程度的闲置的现象,他表示,国内对超算的客观需求是存在的,机器的数量也并没有供过于求,从本质来看,还是因为国内的应用开发能力不足,从而限制了对机器的利用水平。
0
推荐