财新传媒 财新传媒

阅读:0
听报道

撰文 | 李珊珊

●                  ●                   ●

杰克·唐加拉让人印象深刻的是他在2022年世界超算大会(SC22)上的表现。

在他的同行提到,唐加拉刚刚获得的图灵奖是颁给整个超级计算领域(HPC)之后,他大笑着走上讲台,全场一片欢腾,到处是放肆的笑声和挥舞的手臂,几乎有半分钟的时间,这个一直小众、不温不火的超级计算年度大会变成了摇滚现场。

笑声平缓些之后,唐加拉说:“我从未预想过今天”。

与更为热门和应用场景几乎无处不在的AI等计算机科学领域的分支相比,超级计算更像一个不怎么喜欢抛头露面的“幕后英雄”。因为过于“小众”和“专业化”,它的公众知名度和曝光率远低于如AI,然而正是它,在支撑着人类最尖端科技的发展。HPC的应用从天气预报、新药研发到高能物理、宇宙学、材料科学、流体力学模拟、经济学模拟等等,它正在帮助人类解决普通计算机无法解决的难题或大型问题。而这一点,在AI时代尤显重要。因为人工智能模型,尤其是用于语音识别和自动驾驶汽车等领域的模型,需要海量的计算能力进行训练,而这正是最需要也更适合交给高性能计算系统的工作。

2021年,唐加拉获得了图灵奖,在颁发图灵奖的计算机协会(ACM)官网上,曾对获奖原因做出了详细的解释:“近四十年来,摩尔定律推动着硬件性能呈指数级增长。与此同时,尽管大多数软件未能跟上硬件的进步,但高性能数值软件却做到了——这在很大程度上得益于 Dongarra 的算法、优化技术和生产级质量的软件实现。”而唐加拉的图灵奖讲座的标题便叫:“软件并非如此简单”。

在那个讲座中,唐加拉提到了自己作为算法和软件科学家的疲于奔命:“我感觉我们一直处于一种追赶模式……硬件架构在变化,算法和软件只能努力跟上这种架构。我脑海中经常浮现出这样的画面:硬件人员把机器丢过来,(我们这些)算法人员和软件人员则忙着想办法把要处理的问题放到那台机器上,以便更有效地处理,完成这一切大概需要10年的时间。然后,一台新的机器又来了,我们又重新开始这个循环……”

唐加拉的故事常被描述成一个出身贫寒,早期志向不那么高远的理工男的逆袭故事。他来自一个意大利移民家庭,近百年前,当他的祖父带着他的父亲去到美国时,口袋里只有25美元。等到唐加拉这一代,这个意大利血统男孩的数学和科学成绩还不错,但阅读和拼写却很吃力,成年后,唐加拉才发现自己有阅读障碍(dyslexic)。

1972年,唐加拉进入了芝加哥州立大学数学系,这不是著名的芝加哥大学,而是伊利诺伊州的一所著名的以黑人学生为主体的大学,根据学校官网发布的数据,芝加哥州立大学的学费大约只有全美平均水平的1/3,2023年,非裔美国学生占这所大学总学生人数的65%以上。直到2015年,该校仍未被《美国新闻与世界报道》的大学排名收录。

大学期间,唐加拉最大的梦想是成为一名高中老师,然而,大学的最后一个学期他获得机会去申请了美国的阿贡国家实验室的一个职位,然后他与大约30几个本科生一起在阿贡实验室工作,开发数学软件,这让他意识到自己对“软件开发、数学软件以及线性代数”的热爱,他留在了阿贡国家实验室,直到1989年。然后,他加入了美国的橡树岭国家实验室和田纳西大学,并一直在那里工作。

在田纳西大学,唐加拉和同事们提供了高效、标准并具有可移植性的“计算工具箱”(开源软件库);构建了计算平台协同工作的“沟通桥梁”(MPI),并建立了能够衡量和推动发展的高性能计算机“基准测试”(benchmark),并在此基础上设立了全球最快超级计算机的榜单TOP500。一度,来自中国的超级计算机神威·太湖之光超级计算机曾排在该榜单的第一位。

对于近年来汹涌而至的AI大潮,唐加拉认为:人工智能和高性能计算如今正紧密合作,相互促进,然而,高性能计算却面临着自己的挑战。就在数日前,他撰文历数了一些挑战:内存的限制,能耗飙升的问题,以及,在这个商业世界中,高性能计算可能会遇到的一个独有的挑战:高性能计算需要更高精度(64位)的芯片,而AI计算只需要低精度(16位,甚至低于16位)的芯片就已经足够,他开始担心,在AI领域汹涌的投资和盈利前景下,那些昂贵、复杂、盈利前景却不够确定的高精度芯片会被芯片公司们忽视,而这将阻碍高性能计算,以及很多科研领域的进展。

总体上,这是一个聚焦于艰深的计算机领域基础问题,聚焦于更本质的屠龙术而非商业目标的奇技淫巧的纯粹的科学家,但在商业界,人们对他同样给予了极高的评价。谷歌高级研究员兼谷歌健康高级副总裁 Jeff Dean 就曾表示:“唐加拉的工作从根本上改变并推动了科学计算的发展……他在全球使用最广泛的数值库核心领域所做的深入而重要的工作,奠定了科学计算的各个领域的基础,推动了从药物研发到天气预报、航空航天工程等数十个领域的发展。他专注于表征各种计算机的性能,并推动了适用于数值计算的计算机架构的重大进步。”

在高性能计算这个有点“孤独”的小众领域,唐加拉一直很关注中国的进展,尤其是这里那些活跃的年轻人。从10年前开始,唐加拉一直担任在中国举办的世界大学生超级计算机竞赛(ASC)大赛的专家委员会主席,并在数年来一直坚持亲临现场与参赛的年轻人沟通。他介绍,这是世界上规模最大的大学生超算竞赛,学生们会在限定时间内搭建起自己的小型超算集群,并解决大赛规定的问题。他津津乐道于这里那些充满热忱的年轻人、充满噪音的赛场(通常是体育馆)、以及别出心裁的降温方法,比如:冰块或是风扇。

在中国青海举行的ASC25结束后,《知识分子》得到了一个访谈唐家拉的机会,与他畅谈了他对高能计算的过去与未来,高性能计算与AI的结合,以及对于中国的高性能计算现状的看法。下面是对话的实录。

唐加拉演讲视频截图

01

我们不仅需要适合AI的低精度芯片,也需要能做高性能计算的高精度芯片

知识分子:我阅读了您近期的文章,您提到人工智能与高性能计算在争夺资源的情况。您提到,因为人工智能只需低精度的计算,但如果芯片公司只为人工智能制造这种低精度的芯片,那么适合科学计算的高精度(64位)芯片的发展就会被拖后,情况是这样吗?我们有什么办法可以解决这个问题?

Dongarra:没错,人工智能的一个趋势是朝着优化低精度格式硬件的方向发展,就是它不需要很高的精度。如果你用更低的精度,你可以运行得更快,并且占用更少的空间。这是我们在人工智能领域可以优化的两个重要方面。

我们能够看到有一些硬件支持16位甚至低于16位的浮点运算,这对于许多人工智能任务来说已经足够了。然而,对于科学计算,如气候模型、量子力学以及其他研究领域,我们通常需要64位精度才能进行具有可重复性和数值稳定性的模拟。

而在今天,人工智能如此重要,吸引了非常多的投资,以至于我们开始担心计算机供应商会忽视科学计算领域,而只专注于人工智能。如果他们这样做,那就不再有高精度,只有低精度了。所以,我们需要保持平衡,我们需要一种能够提供高精度和低精度的架构,以便我们能够充分解决科学问题以及另一些(需要低精度的)人工智能的问题。

目前,我认为重要的是,在急于填补人工智能硬件缺口的同时,我们不能失去高精度,人类需要保持进行64位计算的能力,这可能需要政府去投资开发那些能够进行64位计算的芯片。在美国,我们有所谓的协同设计(co-design),欧洲和日本也有类似的概念。我们正在尝试协同设计下一代机器,并确保这些下一代机器同时支持高精度和低精度,因为我们不想失去高精度。这是一个重要的方面。这可能需要(政府或是其他机构)向工业界提供额外资金,以帮助鼓励或激励在架构中开发这些功能。再强调一下,协同设计需要我们直接参与架构的设计过程,而不是等待某一方交付架构。

我认为保持这种高精度水平很重要。我们在许多领域都看到,拥有标准和基准始终是好的。我们可以了解性能以及存在的一些问题。并且我们能够跟踪和监控我们所拥有的基本硬件的性能和准确性。

知识分子:您当前的研究兴趣,现在关注的重点是什么?

Dongarra:我有很多事情在做。我可以举例讲一个我们今天正在关注的一个问题,那就是:如果未来的计算机不再有高精度性能,也就是说,我们没有64位的精度,我们能做些什么来(从低精度芯片上)获得64位精度。

有很多数学技巧可以使用,当然,这些都是想法,但也许能够在将来,(尤其是在高精度芯片缺乏的未来),它们会发挥重要作用。从科学的角度来看,这是一个我认为今天很有趣的研究领域。目前在日本、中国和美国有很多这方面的工作正在进行,我也在关注这个领域。

知识分子:能否请您用简单的语言告诉我们,您的研究工作如何与当今的人工智能相关联?

Dongarra:人工智能有许多方面,但其中一个核心的问题是线性代数问题。

我们可以思考在人工智能领域最重要的计算是什么。最简单的描述就是矩阵乘法。如果我们能高效地进行矩阵乘法,那么就可以提高人工智能应用的性能。因此,在架构上实现一套良好的、稳健的线性代数程序可以使事情运行得更快。

知识分子:在最近的文章,您还强调了超级计算机的能耗,并指出更多的电力通常只是意味着更多的能源。现在,有什么方法可以解决这个问题吗?

Dongarra:确实存在巨大的能源消耗,我们需要一些方法来节约能源。如今的人工智能系统消耗的能源巨大,超级计算机也一样。我们目前最大的超级计算机耗电超过30兆瓦。这是什么概念,我可以举个例子,如果我在田纳西州的家中使用1兆瓦的电力,我将收到一张100万美元的账单,这就是能源成本。

如果您有一台超级计算机,打开它,它消耗30兆瓦的电力,那么一年的能源使用费用大约是3,000万美元。如今的人工智能系统更是如此,它们使用数百兆瓦的电力,鉴于人工智能的重要性,这可能是值得的,但必须找到减少计算能耗的方法。

我们正在探索几个途径,其中之一是光通信,在机器内部和之间使用光子而不是铜来传输数据。光通信速度更快,能耗更低。我们预计这将成为我们在计算机中传输信息的标准方法,取代今天用于在机器各部分之间移动数据的铜缆。通过采用这些方法,我们希望减少能源使用。

此外,在自动调整我们的数值库方面也有很多工作,不仅要优化性能,还要优化能源效率。我们正在研究它们在节省电力的同时仍能成功完成操作的方法。这些是我们试图解决这种情况的一些方法。

知识分子:谈到改进,量子计算算不算?您对该项技术有什么看法?它会是高性能计算的未来吗?

Dongarra:我们刚开始了解量子计算,它还处于婴儿期。还有很多研究要做。但我认为这是一个非常值得研究的领域,研究它的局限性和应用潜力。

我不认为在不久的将来会有量子笔记本电脑——在我的有生之年,这都不会发生。但我期望看到量子计算将与传统计算设备一起发挥作用,量子计算机将作为特定计算任务的加速器。

在未来,我们仍然会有CPU和GPU,但我们可能还会有量子设备、神经形态计算机、光计算机和其他计算设备。它们无法单独地去解决整个问题,但可以加速特定的计算。目前,我们真正基于量子的算法数量很少,也许未来这一领域会扩展。我不认为每个问题都能通过量子算法解决,但进一步的研究可能会显示出更多的希望,我们可能会看到更多可以从量子计算中受益的应用。

02

AI也需要一个TOP500吗?

知识分子:您在高性能计算的基准测试(Benchmark)方面的工作获得了很高的评价,尤其是您的TOP500榜单,几十年来一直是全球超级计算机的兵家必争之地,也极大地促进了这个领域的发展。您认为人工智能领域可以从Top500这样的标准基准测试中学到什么经验,在AI领域是否也需要一个全面的衡量标准,以及一个类似TOP500的榜单?

Dongarra:Top500基准测试始于20世纪90年代初。它的开发目标非常简单。我们希望提供一种客观且一致的方式来跟踪和比较世界上最快的超级计算机的性能。当时,对于系统和性能,没有标准的基准测试,这使得不同的机器很难进行验证和比较。我们引入了一个非常简单的基准测试,即LINPACK基准测试,作为一个通用的标尺,以便我们可以用一种统一的方式来测量它们的性能。

LINPACK基准测试有许多优点,但也有一些缺点。优点是它易于理解、易于运行且易于查看性能。但缺点就是:它解决的只是一个曾经重要但现在已经变得不再重要的问题。

在20世纪90年代初,浮点运算非常昂贵。今天,我们的硬件在这方面的能力已经过剩了。在这个基础上,LINPACK基准测试解决的是一个基于密集矩阵的问题,当时的大多数科学应用并不能解决这个问题。但现在,科学计算需要解决的问题是稀疏矩阵问题。在这种情况下,我们需要调整基准测试。因此,我们新增了一个基准测试,叫做HPCG(高性能共轭梯度),它旨在考察那些真正在今天的高性能计算机上运行的、科学领域实际问题的性能。

LINPACK是一个例子,(没有什么衡量标准是永远正确的)。而在人工智能方面,我们需要一个基准测试,但不可能只有一个基准测试。我们需要的可能是一组可以轻松实施的基准测试,提供对AI在不同重要性能方面的洞察。一种可以反映计算机实际运行情况的基准测试非常重要,但我们应该意识到这些基准测试不会是一成不变的,它们会随着时间的推移而变化,然后,我们就得在集合中添加新的基准测试。

知识分子:高性能计算和人工智能的融合。您如何看待这种融合?它为科学带来了哪些新的视角?

Dongarra:如我刚才所言,人工智能正成为科学计算中日益重要的一部分。我们用于高性能科学计算的计算机应该有能够进行基于人工智能计算的组件。未来,我设想的计算机能够处理传统的高精度科学计算以及人工智能和机器学习所需的数据分析中的低精度计算。这两种能力将在一台机器中共存。

下一代超级计算机,甚至当前一代,都被设计成能够进行高精度的大规模计算和人工智能及机器学习所需的快速低精度计算。这种集成对于计算的进行方式至关重要,我们需要能够执行这两种任务的系统。

知识分子:那么在未来,您认为高性能计算在接下来的几十年中能够独特地解决哪些科学或社会问题?

Dongarra:我们使用高性能计算机来处理许多应用,包括气候建模、核反应堆、聚变反应堆、材料设计和药物设计——所有这些今天都在高性能计算机上进行。所有这些领域都可以从人工智能的集成中受益,通过将人工智能纳入传统模型,可以加快计算速度,更快地解决问题,并提高准确性。传统模型依赖于我们现有的物理定律,但现在它们将通过人工智能得到补充,人工智能将加速这些过程。因此,我们将继续进行气候建模、燃烧研究、核聚变、材料设计等工作,同时使用传统方法和人工智能来提高计算效率。

03

从年轻人开始,培养能够超越国界思考的科研人员

知识分子:中国的超级计算做得如何,您怎么看?

Dongarra:在我们的TOP500榜单上,中国的神威·太湖之光超级计算机曾经一度排名第一,当然,这几年中国的超级计算机整体排名有所下降,但这种下降并不代表着中国超算的能力下降,而是有其客观因素。

Top500榜单的运作方式是通过基准测试收集信息。我们要求人们在他们的计算机上运行基准测试,并遵守某些基本规则。当他们运行基准测试时,它产生的输出需要提交给Top500列表。我们检查其正确性,然后将其输入Top500表格。如果未能提交结果,我们就没有关于该计算机的信息。最近,来自中国的提交已经降为零,所以缺乏基准测试结果进行比较,这样的情况,我希望也相信有一天会改变的。

知识分子:您多年来一直在支持中国举办ASC世界大学生超级计算机竞赛,为什么?今年的ASC有什么让您印象深刻的地方吗?

Dongarra:ASC为年轻人提供了一个绝佳的竞争和挑战自我的机会,提供了一个能够运行真实应用程序的硬件平台,并考验硬件在一些具有挑战性的问题上的工作表现。

这些年轻的学生需要在现场构建他们的小型超算集群,组装硬件,配置软件环境,并在其机器上运行应用程序,试图获得最高水平的计算性能。这个过程中,他们要处理很多东西,比如每个团队有固定的能耗限制,他们必须进行机器的功率测算,对能量的消耗精打细算,甚至用于降温的风扇的功率也要被考虑在内。

今年,我们有25个团队进入总决赛,他们来自中国以及世界各地。看到他们竞争并讨论他们的机器表现如何总是令人兴奋的。一些多次参赛的团队在构建应用程序和计算机方面具有深刻的见解,他们的总体表现远优于首次参赛的团队。

(作为一个评委),在短时间内看到所有这些发生是很有趣的——看年轻人们如何竞争,如何较量,以及他们如何在明年回来做得更好。

知识分子:今年,我看到一些ASC的任务或问题与如何利用DeepSeek有关。DeepSeek背后的团队在如何利用硬件和软件方面做了很多工作,您对他们的工作是否关注过,有什么看法?

Dongarra:DeepSeek能够开发一个比传统方法消耗更少资源的系统,这是一个非常了不起的成就。我认为这让每个人都开始重新审视我们自身,并试图更好地理解他们是如何完成的。这些偶尔出现的变化促使人们重新审视一切并可能改变我们的思维方式,这对每个人都有益处。而且,DeepSeek对此持开放态度,我们能够看到这是如何完成的,我认为这对于我们重现、扩展和改进它都是有益的,它相当了不起。

知识分子:您对当今的世界有什么想法吗?比如美国的科学和国际合作?

Dongarra:今天,美国正处于一个对科学不像过去那样重视的困难时期,资金不再那样充足了,如果这种情况持续下去,将会导致许多问题。我希望我们正在经历的只是暂时的阶段,我们将很快回到一个科学可以蓬勃发展并获得所需资金以促进新发现的时代,因为科学发现对于推进我们的世界至关重要。它能够为人类带来新的工作方式,生活方式。

国际合作方面,我想说的是:不同的国家拥有不同的优势。比如:中国硬件发展迅速。欧洲关注与能源相关的事务和软件的可持续性,日本注重架构创新,而美国在软件和应用程序方面有长期优势。我们如果可以携起手来,能力将远远超过各自为战的工作。

我完全支持跨国界的科学合作。我们都生活在地球上,同样面临着一些巨大的挑战,比如:流行疾病的应对、气候变化或天体物理,这些挑战本质上是全球性的,也需要我们全球携手共同处理和应对。因此,我觉得,我们需要能够共享数据,进行联合建模,并从这些交流中受益。另外,我们还需要能够一起培训下一代面向全球的科学家。这就是像ASC竞赛这样的活动的重要性和意义之所在。

如果,我们能够从年轻人开始,培养能够超越国界思考的科研人员,一切就有了韧性和可持续性。为国际合作减少障碍,开放源码软件、共享基准测试、标准架构的联合开发,这一切都是应有之义。

因此,我认为可以通过设立联合研究计划来实现全球合作,通过开放标准和交互操作,允许共享不同系统和基于云的访问,以及能够进行科学外交。高性能计算可以帮助弥合科学和外交之间的差距,即便存在政治差异,研究人员也可以一起合作,以达成一些建设性的、中立的、共享的科学目标。 

话题:



0

推荐

知识分子

知识分子

4008篇文章 2小时前更新

由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,现任主编为周忠和、毛淑德、夏志宏。知识分子致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。

文章