《科学四十人》系列座谈(左起,杨富强、李勇、陈云霁、丁肇豪、张永平)
无论是否支持人工智能(AI)的发展,我们都难以忽视一个重要的问题,那就是AI的能耗。
关于AI的能耗,一篇广为流传的报道称,ChatGPT 每日耗电量或超 50 万千瓦时,相当于1.7万个美国家庭的能耗。还有研究估算,在最糟糕的场景下,未来谷歌AI的能耗将与像爱尔兰这样的国家相当。然而另一方面,也有观点认为媒体和大众选择性关注估算结论较为夸张的研究,并将对AI能耗的担忧视为社会对新技术惯有的反应。
人工智能日新月异、能源领域错综复杂,二者关系的都是人类未来。大模型的高速发展对电力系统的冲击究竟有多大?大模型时代,如何提升AI系统的能效?AI基础设施和电力基础设施有哪些需要协调的地方?具体面临哪些挑战?
围绕这些问题,《知识分子·科学四十人》系列座谈邀请到清华大学电子工程系教授、城市科学与计算研究中心负责人李勇,中国科学院计算技术研究所副所长、处理器芯片全国重点实验室主任陈云霁,华北电力大学电气与电子工程学院教授丁肇豪,能源基金会清洁电力项目主任张永平参与讨论,主持人为北京大学气候变化与能源转型项目高级顾问杨富强。威廉与佛洛拉·休利特基金会Edit Ruano致辞。
以下为论坛实录。
● ● ●
杨富强:今天我们探讨人工智能(AI)与能源之间的关系。AI这个概念对大家来说已经耳熟能详,我们几乎每天都在讨论。然而,要深入全面理解AI,可能许多人还难以做到。我们有幸邀请到了四位专家,他们将为我们阐释AI与能源之间的联系。我们相信,AI不仅会推动工业革命,还会对能源革命、经济发展、政治和文化等多个领域产生深远的影响。这既是一个巨大的挑战,也是一个巨大的机遇。
今天我们将讨论的焦点放在能源与AI的结合上,探讨AI能为能源行业带来什么,以及能源如何反过来促进AI的发展。先请各位嘉宾介绍一下各自研究应用。
北京大学气候变化与能源转型项目高级顾问杨富强
李勇:我来自清华大学电子工程系,我们系在电子芯片算力等领域有着深厚的基础,研究工作涵盖了从芯片架构设计到电子光子基本原理,再到工艺流程等多个层面。在人工智能迅速发展的今天,这些研究方向显得尤为重要。
虽然我在电子工程系工作,但我的研究并不涉及芯片硬件,而是聚焦于如何有效利用芯片算力。过去十多年的研究,我逐渐将研究重点放在了城市领域,因为城市是一个数据的宝库,拥有大量的视频和其他模态数据。王坚院士曾提出,城市可能是世界上最“吃”算力的地方。因此,我选择城市科学与计算作为我的研究方向。为此,我们系成立了城市科学计算研究中心,专注于处理和分析城市数据,以期实现城市智能化。
目前,城市发展正面临两个重要机遇:智能化和能源转型。智能化是我所在的研究所的主要研究领域,而能源领域则对城市变革产生深远影响。随着清洁能源在能源结构中所占比例的增加,它已成为全球实现碳中和目标的关键路径。
从信息的角度来看,物理世界的构成包括时间、空间、物质、能量和信息。能量与信息之间的转换关系与我们今天讨论的能源和智能紧密相关。因此,在进行产业转换时,我们考虑的是如何利用智能技术帮助能源行业更有效地利用能源。基于这一理念,我们也孵化了一家名为清鹏智能的产业公司,主要关注如何运用人工智能技术,将清洁能源与现有的电能、水能等主流能源形式整合,形成一个统一的能源系统。
清华大学电子工程系教授、城市科学与计算研究中心负责人李勇
陈云霁:今天讨论的两个主题——电力能源和电子层面的芯片——实际上和我的前半生、后半生似乎有着紧密的联系。我的父亲曾在江西省电力局下属的事业单位江西电力试验研究所工作,现在这个单位叫江西省电科院。我从出生直到上大学之前,都生活在江西省电力局的院子里。
小时候,我爸常带我去电厂,有时我们会在那里住上两周。我一直认为电厂是人类历史上最伟大的创造之一。作为能源的中心,电厂也可以被看成是世界的中心。就像心脏通过血管将能量送往人的全身,电厂通过铁塔将能源输送到世界各地四面八方。
虽然没有机会从事电力行业,但我从2002年开始涉足了一个与电力有一点点关联的研究领域:如何减少芯片耗电量。包括后来我们开发了国际上首个专门用于深度学习的处理器芯片,初衷就是寻找更节能的方式来执行深度学习任务。从那时起过去了二十多年,包括芯片设计、计算机科学、电子工程和算法研究等多个领域的专家共同努力,今天的芯片在处理神经网络操作时所需的能耗已经降低了100倍甚至更多。然而,随着大型模型的出现,对算力的需求增长速度远远超过了我们降低能耗的速度。
中国科学院计算技术研究所副所长、处理器芯片全国重点实验室主任陈云霁
丁肇豪:我所在的单位是华北电力大学新能源电力系统全国重点实验室,主要研究的是新能源为主体的新型电力系统。我的工作主要是从电力系统的角度出发,探讨算力基础设施与电力系统之间的关系,我们将其总结为“算电协同”。2017年我们就开始讨论这个概念,那么具体是如何协同的呢?
我的工作分为两个方面。从算力角度来看,我们研究如何让算力基础设施,也就是AI的基础,更多地利用新能源,尤其是那些波动性的可再生能源。简单来说,我们探讨的是如何让一些可以中断或者可以改变地理位置的算力任务,根据新能源的时间和空间分布调整,从而更多地使用新能源。这相当于重新塑造算力负载的时空布局,使其能够更好地利用新能源。
从电力系统的角度来看,随着AI技术的发展,其电力负荷可能会占据全社会负荷中的很大比例。那么,电力系统需要灵活性和调节能力,让这些AI基础设施的电力负荷跟随电力系统的需要而调整。比如一天之中,电力系统需要调峰、调频。我们的工作是让算力基础设施通过调整计算任务来改变它们的电力负荷特性,将这些原本可能给电力系统平衡带来挑战的AI负荷,转变为对电力系统平衡产生积极支撑作用的灵活负荷。
华北电力大学电气与电子工程学院教授丁肇豪
张永平:我的专业背景是电力系统,读书时在电机系学习。与电子系、计算机系和自动化系这些所谓的弱电专业有所不同,我们专注于强电领域。当时计算机、电子这些专业是热门专业,我们常开玩笑说,你们再怎么发展,只要我们把电断了,你们啥也干不了。毕业后,我一直在电力系统和电力市场领域工作。
我在能源基金会工作负责清洁电力项目。我们的使命是推动可再生能源的发展,以取代化石能源,以应对气候危机。这是一个复杂的挑战,不仅仅是建造风电场和光伏电站,然后关闭煤电厂那么简单。首先,我们需要关注中国电力系统需求的变化,尤其是电力负荷的增长,每年以5-10%的速度快速增长。数据中心目前已经占到2-3%的用电量,而AI智算中心用电增长可能更快。
这不仅是用电量的问题,更重要的是用电的负荷特性。数据中心的用电曲线相对平稳,这对电力系统来说是理想的,而且传统的火电等电源相对容易调节,去满足数据中心的用电需求。但我们希望使用波动性的可再生能源,如风能和太阳能,来满足未来数据中心的能源需求,这就带来了挑战:如果用电需求不能调节,而供给又是波动的,我们该怎么办?我们正在研究如何利用波动性的可再生能源满足不同类型的用电需求,特别是数据中心的需求;探讨是否能够让数据中心的用电也变得可调,这是个有趣的话题。
能源基金会清洁电力项目主任张永平
AI能耗是一种真实的“威胁”吗?
杨富强:国际能源署(IEA)最近发布了2024版的全球电力报告,发现2022年的全球数据中心和人工智能大约消耗了全球总用电量的1.6%,而且增长迅速。各位老师怎么看,将来会如何?
陈云霁:我先分享一个的观点,这个观点是从科学院的于海斌院士那里听来的。他提出了一个关于当前人工智能领域的不等式,就是从重要性来说,AI杀手级应用大于大模型,大模型大于算力,算力又大于电力。这个不等式反映了人工智能的现状。
尽管AI很热,已经能帮我们改个稿子,但在实体空间中,尤其是在工业、生产和生活服务等领域,我们对于真正杀手级的应用还是非常非常迫切需要的。所以应用的重要性最高,同时也是最缺乏的。接下来是大模型。然后是芯片。最后是电力。今天我们还没有听说过有哪个很好的大模型应用因为电力不足而关门不干的。
再过十年,这种重要性可能会发生逆转。我们可以预见,十年后,人工智能深入到实体经济和我们生活的各个角落,杀手级应用非常普遍。随着应用数量的增长,对电力的需求将远远超过现在。人工智能应用目前主要局限于数字空间,但如果它们进一步渗透到工厂、家庭、医疗和农业等社会各个方面,电力消耗的占比可能不再是1.6%,而是16%甚至更多。到那时,重要性的顺序可能会颠倒过来:电力将成为最关键的因素,其次是算力,然后是模型,最后才是应用本身。
杨富强:我们经常讲说,AI的尽头是能源。
陈云霁:当然今天AI最重要的还是做出杀手级的应用,但在未来十年或二十年后,AI的尽头一定是能源。到那个时候,我们可能需要一些调整,以数据中心为例,根据新能源供应来调整我们的操作频率。比如,我们现在使用大模型,提出一个问题,它咔咔咔给我们回一堆。那么,在新能源供应充足时,我们可以让它更快地响应;而在新能源供应不足时,我们可以让它稍微慢一些。
此外,大模型的使用实际上分为两个阶段:训练和推理。训练是将大量数据输入模型,使其变得更加聪明;推理则是我们真正向大模型提问,得到答案。
杨富强:现在哪一个阶段更耗电?
陈云霁:训练现在花的电很多,但是以后推理会更多。推理对响应时间的要求是实时性的,我们向AI提一个问题,希望它能立即给出答案。相比之下,训练虽然同样重要,但并不需要马上完成。OpenAI训练一个模型可能要花好几个月,我们可以在新能源供应充足时多跑一跑。
杨富强:AI的能耗可以随着可再生能源的供应变化而调整,或者根据能源供应情况来安排算法的运行顺序,比如决定何时进行训练。
李勇:目前人工智能技术的能耗在整个社会能源消耗中占比并不大,数据中心只占全社会能源消耗的1-2%。人工智能替我们人类每天做的事,也还不到1%。但随着技术的进步,我们预计在未来十到二十年,这个比例可能会提高到40-50%。相应地,能源消耗的比重也可能增加到社会总能源消耗的20-30%。随着时间的推移,这个比例可能会继续增长。因此,虽然能源问题目前尚未成为危机,但未来肯定会成为一个重大问题。我想补充一些证据来说明我们这个讨论的重要性。
我们刚才提到了一个关键问题,即人工智能中的“能”与能源中的“能”之间的关系。这种关系涉及到我们如何在芯片和能源角度实现节能。能源角度的“能”是指能量,而人工智能的“智能”实际上是关于能力。这对应于物质世界构成中的两个重要概念:能量和信息。人工智能的能力本质上是提供信息。为了更好地节能,我们需要将能量更好地服务于能力的产生,这就需要打通能量和信息之间的联系。
从物理学的角度来看,物质可以转化为能量,再转化为信息。我们已经有一个完整的体系来描述时空、物质和能量,但与信息,即与我们今天讨论的人工智能能力之间,还存在很大的差距。我们今天讨论的话题就是探索信息和能量之间是否可能产生更大的联系,形成一个整体。从物理学的基本概念来看,能耗问题涉及的是瓦特(功率单位),而人工智能的涉及的是比特(信息单位)。为了实现节能,我们需要在这两个方向上努力。
“追涨杀跌”?
在电网最脆弱的时候,万卡集群不仅救不了它,
反而雪上加霜
丁肇豪:从电力行业的角度来看,人工智能和数据中心的能耗其实经历了许多变化。在2022年底ChatGPT出现之前,尽管数字经济和人工智能发展迅速,但在心底里,电力行业对数据中心带来的电力负荷增长还是持有相对平稳的观点。突然,ChatGPT的出现让人们意识到这可能是一次改变人类社会的工业革命。从我们电力人来看,未来可能会出现许多杀手级应用,即使是尚未出现,许多企业也已经开始跑马圈地,为这些潜在的应用准备数据中心。
大量的数据中心,或者说智算中心,开始涌现。这对电力行业带来了显著的变化。从电力供应总量的角度来看,电力行业需要调整电力电量平衡模型。今年夏天,在IEEE电力与能源协会年会(PES GM:IEEE Power & Energy Society General Meeting)上,PJM电力规划负责人分享了他们的经历。由于PJM涵盖了美国主要数据中心的富集区,他们突然发现需要对电力规划做出重大调整,因为许多新的数据中心需要接入电网,而现有的输电能力和电能供应能力无法满足这些新的需求。同样的问题也出现在美国德州,许多大型数据中心希望接入电网,却发现电网没有预留足够的输电通道能力,也没有足够或稳定的电源供应。
然而,我想进一步讨论的是,人工智能的发展对电力系统的影响远不止于此。在实时电力平衡方面,数据中心的发展也产生了重大影响。我举一个例子,许多新的数据中心规划已经达到单个数据中心百兆瓦,甚至超过百兆瓦的规模。这些万卡、十万卡集群预训练时的功耗非常大。
杨富强:相当于一个中小城市了。
丁肇豪:相当于一个小城市级别。与其他类型的负荷相比,数据中心的能耗还有一个显著特点:比如Meta在训练自己的模型时可能会因为各种原因暂停多次,每次暂停都可能导致瞬间百兆瓦级别的电力负荷波动。在配电网层面上,这种波动是前所未有的,以前电网并没有足够的能力来应对这种问题,这是一个全新的挑战。这种波动不仅关系到电力供应是否充足,还可能对电网安全造成冲击。再比如,GPU集群有可能不具备电压/频率穿越能力,在电网出故障的时候不仅不能支撑电网,反而可能给电网造成更大的问题。
陈云霁:股市里面叫“追涨杀跌”,对吧?
丁肇豪:确实是。这些因素叠加起来对我们电力系统的瞬时平衡产生了重大影响。数据中心在增长,我们电力和能源行业需要进行中长期的预测和规划。这涉及到:首先,从总量上评估,包括电源的供应和输电通道的建设是否能够满足需求;其次,考虑数据中心在电力系统中占比增大后对系统的影响,以及是否拥有足够多的手段来平衡。
陈云霁:既然数据中心的能耗如此之大,未来数据中心的运营者是否可以自己建立电站或者发电机组?就像我小时候,我爸经常参与建设30万千瓦的发电机组。那以后,每个AI数据中心是否都可以自己建立一个电厂?
丁肇豪:自从当年比特币挖矿流行以来,就有人提出了类似想法,比如自己搞个小水电站,降低挖矿成本。但数据中心的情况有所不同,因为需要稳定可靠的电力供应。即便数据中心自己建立了发电厂,最终还是需要至少一条线路或两个回路接入大电网。自建的风光发电厂不是非常稳定,其产生的电力波动最终还是会映射回大电网。无论自己建还是别人建,只要存在波动性,大电网就必须做出反应。
吃两三碗饭的人脑
和“吃”很多很多电的AI
杨富强:在数据中心的整个能源消耗过程中,哪个环节的电力消耗最多?又有哪些环节是比较容易实现节电的?
陈云霁:从信息处理的角度,我们可以将能源消耗分为两大类:信息传输和信息计算与处理。目前,大模型的信息处理能耗相对较高,远超信息传输的能耗。但是,未来随着计算芯片性能和功耗比的提升,这种状况是可能发生变化的,信息传输成为核心问题。目前,计算能耗占据了主导地位,这引发了一个疑问:为什么计算机的能耗总是远高于人脑?人脑仅消耗约20瓦的功率,每天吃两三碗饭就能干很多事情,而计算机则需要更多。
我想引用杰弗里·辛顿(Geoffrey Hinton)的观点,他是一位获得过图灵奖的科学家,最近也拿到诺贝尔奖。辛顿提出了一个有趣的观点,即“凡人计算”(mortal computation),涉及到物质与信息之间的关系。人脑中的物质与信息是强耦合的,软件和硬件是绑定在一起的。人脑中的思想和信息都附着在物质上,如果一个人去世,这些信息就会随之消散。而计算机则不同,软件和硬件是分离的,信息可以从一个硬件拷贝到另一个硬件,但我们不能把一个人大脑里的东西拷贝到另一个人的大脑里。
辛顿认为,软硬件的分离是导致计算机在处理神经网络时能耗特别高的一个重要原因。顺着他的思路我再往下想,如果未来我们能够开发出一种计算机,其软件和硬件完全一体化,可能只能处理特定的模型,不具备通用性,类似于人脑中物质与信息的紧密结合,那么能耗可能会大幅降低。总之,我想从人脑中汲取灵感,可能会帮助我们进一步提高计算效率。
李勇:从产业生态的角度来看,当前以大模型为代表的人工智能技术的整体能耗主要涉及两个阶段:训练和推理。目前,主要的能耗集中在训练阶段,而推理阶段的能耗预计将在未来有显著增长。从芯片使用的角度来看,无论是训练还是推理,都需要大量的算力,也就是GPU/DPU卡。
两者之间有一个重要区别:训练的时效性是可控制的,可以今天进行,也可以推迟到明天,甚至一个月后完成,时间上的灵活性较大。相比之下,推理阶段与业务实时绑定,对响应时间有严格要求。因此,推理对底层硬件的要求更高。这也意味着在训练阶段,算力和能耗的协同优化有更大的空间,东数西算的策略在这里可以发挥作用。例如,在西北地区有丰富的风能和太阳能,可以在能源充足时计算,能源不足时则减少计算。
对于训练阶段,根据能源供应情况调整计算量的做法是可行的。但对于推理阶段,这种场景可能并不适用,实现算电协同的挑战更大。我的初步想法是,风、太有不确定性,是否可以利用核能来弥补,长远解决这个问题。
陈云霁:此外,我们的计算可以变得更专用化。过去十年来,芯片设计领域有一个明显的趋势,就是专用体系结构变得越来越重要。回想二三十年前,我们几乎所有的计算任务都是通过通用CPU来完成的,就像瑞士军刀,什么都能干,但每一样都不是最好的。到了人工智能时代,专门为人工智能设计的芯片,如GPU、NPU等,已经成为处理AI任务的主流选择。
未来,我们可能会进一步专用化。为大模型设计专门的芯片,甚至为某个特定大模型定制芯片,如果能够实现,越是专用芯片,能效一定越高。举一个极端的例子,假设我们未来训练出了一个非常好的大模型,这个模型本身就具有足够的通用性,能够处理各种任务。那么,我们是否可以为这个特定的大模型定制一个芯片,让它只能跑这一个大模型。如果是这样,它的能效可能比现在的GPU还要高出100倍甚至1000倍,从而可能解决我们未来长远的问题。
但是现在我们还不能这么干,因为大模型的演进速度太快了。今天是GPT-4,明天是GPT-4o,后天是Sora……大模型的发展仍然处于一个快速变化的阶段。如果未来大模型的发展逐渐稳定,出现了一个主导性的、基本收敛的大模型,那么我们芯片设计者就可以为它专门定制芯片了。
从源随荷动到源荷互动
张永平:我们支持了一些数据中心相关的项目,出发点是将数据中心视为一个重要的电力负荷,并关注如何用绿色、清洁的可再生能源来满足这些负荷需求。
首先,从需求层面来看,数据中心,尤其是提供AI算力的智算中心,已经成为了高耗能产业,其能耗问题也备受关注。数据中心的能耗涵盖了芯片、IT设备、空调制冷、备用柴油发电机、不间断电源等多个方面。目前,数据中心的能效已经相对较高,领先的数据中心的PUE指标已经接近1.1,这意味着进一步提高能效的难度很大。但我们不能因为高耗能就抑制数据中心的发展,就像不能因为电动汽车充电多就不让它充电,不是这个逻辑。
其次,从供给层面来看,我们如何从能源,特别是电力的角度来满足数据中心的用电需求,特别是绿色需求。数据中心的用电需求量大,且在某些时段用电量非常高,这与核电,尤其是中小型、模块化核电的供电特性非常匹配。在美国,OpenAI、Google、Meta等公司已经在投资核电,以满足未来的AI数据中心的用电需求。在中国,我们也在探索如何利用可再生能源来满足数据中心的绿色用电需求。例如,许多数据中心的屋顶上都装有光伏板,但这只能满足一小部分电力需求,杯水车薪。为了使用更多的绿色能源,可以考虑建立大型园区,或者利用附近的风电和太阳能,这就需要配置储能系统来平衡可再生能源的波动性。同时大电网的兜底保障也还是必需的。
此外,如果数据中心附近没有可再生能源,可以通过购买绿色电力凭证或者通过金融手段来满足需求。还有一个趋势是,国家鼓励将数据中心迁移到可再生能源丰富的地区,如西北地区,这样可以减少电网传输的需求,使得用电需求与清洁电力供给更加接近,用电成本更低,也助力可再生能源就地利用。
第三,数据中心与电网之间的互动。AI大模型的训练阶段和推理阶段,用电特性是不同的。包括数据处理方面,冷数据和热数据的处理需求也有所区别。通过智能调度算力,我们可以决定何时进行计算,这样就能在一定程度上减轻电网的负担,甚至在某些时候还能帮上电网的忙,产生互动效应。这种互动不仅能提高电网的安全性,而且可能更加经济。
数据中心的电价属于工商业电价。目前,工商业电价的激励机制还不够完善,但未来可能会有更多的电价激励措施。通过与电网的互动,数据中心不仅能出售余热,还可能通过响应电网需求再赚点钱,对运营效率提升也有好处。
丁肇豪:电力行业看待数据中心的方式很朴素,就是一个负荷。电力系统,特别是新型电力系统,随着可再生能源比例的增加,电源侧的波动性和不确定性也在增加。过去,我们依赖火力发电,美国则是天然气电厂,来平衡这种波动。但在碳排放目标的约束下,调节性电源,特别是火力发电,正在减少,这意味着旧的解决方案行不通了。
新的解决方案是实现源荷互动,即不再是单向的源随荷动,而是负荷也能根据电源变化而变化。数据中心作为未来电力负荷的主要部分,我们希望它能跟随可再生能源的变化而动。怎么做?
对于大模型训练这样的离线负载,就像我们给学生布置任务,要求他们在第二天早晨9点前提交,具体是在凌晨2点还是6点完成计算,并不重要。这些计算任务可以由阿里云等云服务提供商来处理,根据风力发电的时段以及碳排放强度来灵活调整和调度算力资源。这类任务通常规模较大,对截止时间不敏感。但许多任务需要大量数据,通常在特定数据中心完成。我们希望将这些任务放在新能源基地附近的数据中心来算,比如沙戈荒基地。
对于在线轻量级任务,如大模型推理,只要满足时延要求,我们可以在空间上调度这些任务。我们与阿里巴巴以及国家电网华北分部合作过一个算力-电力协同调度实验。当电网出现新能源消纳困难,弃风弃光现象时,我们能否将其他地区的负载调度过去?实验中,我们将阿里南通数据中心的一些计算任务转移到张北数据中心,通过算力任务的转移,南通的负荷降低,而张北的负荷增加,正好消纳了当地的新能源。
我们希望这种做法能成为常态,电网能够向云服务和数据中心企业提供信号,数据中心企业在算力调度时能及时响应,将能源和碳排放作为调度系统的一部分。
杨富强:将碳排放纳入考量,使用煤电会产生相应的碳排放,而使用可再生能源则没有。此外,还可以通过排队机制来调整电价。例如,在太阳能最佳的中午时分,如果数据中心能够利用这些“垃圾电”(即过剩的可再生能源),电价可能只有1分钱。而在电力需求高峰时期,电价可能会高达1毛钱。未来可以通过价格机制、市场手段、行政措施以及调度手段来优化能源使用。
工艺节点短期无法突破
杨富强:我们在不断追求更先进的芯片技术,7纳米、5纳米、3纳米、1纳米……那么,能源消耗是否会成为一个考量因素或者关键的设计指标?
陈云霁:对于我们芯片人来说,有两个最核心的指标:速度和能效。速度大家都知道,都希望芯片跑得快。而能效,尽管在上个世纪没有得到太多关注,但从2000年以后,它已经成为了一个焦点。我们特别关注每次计算所消耗的能量,比特运算与瓦特之间的关系是我们非常重视的。
之所以大家追求更先进的工艺,7纳米不够,还要3纳米、1纳米的,一方面是因为这样可以在芯片上集成更多的晶体管,从而提高速度。但更重要的是,使用更先进的工艺可以显著降低每次计算的能量消耗。例如,5纳米工艺相比于7纳米工艺,每次计算消耗的能量可以减少几十个百分点。这也正是为什么半导体技术不断向更小的纳米尺度发展的原因。
李勇:未来,芯片的能耗肯定将变得越来越重要。这与我们今天讨论的整体趋势是一致的。人工智能在社会中所占的工作量比例越来越大,能耗也随之增长。而能耗的增加,本质上主要是由于计算需求的增长,计算的核心依赖于芯片来处理比特、信息和数据。最终,这个账要算到芯片上。因此,从能耗角度评估芯片的计算效率,会越来越受大家重视。
杨富强:那我们跟国外相比,处在什么水平?
陈云霁:这个问题大家都非常关注。半导体工艺中的一个重要参数是工艺节点,也就是我们熟知的12纳米、7纳米、3纳米等。目前,国际上如台积电已经开始量产3纳米工艺,并走向1.8纳米,甚至1纳米的技术路径也是通的。而国内由于国际形势的影响,短期内可能还需停留在7纳米工艺节点上。但这并不意味着我们就在这里“躺平”了。
中国科学家和美国科学家面临的挑战本质上是相似的。我们可能在7纳米暂时停一段时间,而美国可能在1.8纳米或1纳米节点上停留。因此,全球的芯片设计者都在探索同一个问题:在工艺节点无法进一步缩小的情况下,如何通过体系结构的创新来提升性能,尤其是降低能耗。
在这种情况下,一个有前景的技术趋势是为特定任务定制专用芯片,即走向专用化。依靠通用CPU,这种像瑞士军刀一样的多功能但非最优设计,已经越来越难以满足需求。相反,为特定的大模型、手机或AR/VR设备等定制专用芯片,可能成为在工艺节点不变的情况下降低能耗的重要手段。
杨富强:对于成熟的芯片技术,我们与国际先进水平相比处在什么位置?
陈云霁:在成熟的工艺节点上,中国的芯片设计水平在国际上已经达到了非常先进的水平。虽然不便断言是排名第一或第二,但绝对位于第一梯队之中。我举一个数字,以集成电路领域的重要国际会议国际固态电路会议(ISSCC)为例,这个会议是衡量芯片设计领域研究成果的重要平台。据我所知,清华大学在该会议上发表的论文数量已经位居世界前列。
这个数字其实变化非常大,十多年前,我们大陆每年在ISSCC上只能发表一篇文章,我记得十多年前我发表了两篇,在国内已经算是最多的之一了。现在,仅仅是清华大学的一个课题组,一年就能在ISSCC上发表三到五篇论文。从设计角度来看,中国无疑已经进入了国际第一方阵。在成熟工艺节点上,中国的芯片设计工作非常不错,也有大量出口。
杨富强:中国在很多领域实现了从依赖进口到自给自足的转变。以空调行业为例,二三十年前,市场上主要是日本、美国的空调品牌,以节能技术领先,但现在,中国的品牌已经超越。我们同样期待在芯片领域中国也能扮演越来越重要的角色。
更快还是更省?非技术层面的矛盾
杨富强:现在,我们换个角度来讨论芯片。虽然芯片常常被贴上高耗能的标签,但我们也要看到芯片技术的进步对整个电力系统,尤其是在节能和可再生能源消纳方面产生了巨大的正面冲击。
张永平:首先,关于用电量,我们讨论了数据中心的能耗占比,不论1%还是2%,即使达到10%,只要都是清洁能源,也是可以接受的。因此,核心问题在于如何满足数据中心的高能耗需求,同时确保这些能源是清洁的。
其次,能源的使用特性也非常重要。传统上,我们喜欢稳定的能源供应,但随着风能和太阳能的波动性,这种偏好受到了挑战。我们希望数据中心和其他能源负荷能够与可再生能源的波动相协同,这样就能最大限度地利用可再生能源。目前,许多工作都在朝着这个方向努力。
核心问题在于需要有一个激励机制来鼓励。例如,对于数据中心,目前它们可能不考虑响应电网的需求,但如果我们能提供足够的经济激励,让它们通过调整算力调度来节省成本或赚取利润,那么它们可能会更愿意采取行动。
陈云霁:比如,中午开机计算,不要钱。
张永平:对的。许多人可能不太了解电力现货市场。在电力现货市场中,电力价格主要影响工商业用户比较多,普通家庭用户感受不到,但工商业是敏感的。在一些地区,在可再生能源发电量过剩的时段,比如中午时分,甚至会出现负电价。如果你在这些时段购买电力,理论上不仅不需要花钱,还能赚钱。
如果有设计良好的市场机制和足够的激励,就能引导数据中心调整其用电行为。当然,这种激励需要足够大,就像电动汽车的V2G(Vehicle to Grid),电动汽车可以充电,还能将电能反馈给电网赚钱。但如果放电一次只能赚8块、10块,又给自己带来很大不便,人们可能就不会去做。我相信,未来如果数据中心的用电量巨大,且其用电特性对电网产生显著影响,这种矛盾可能会倒逼市场改革,给出更多激励信号。
丁肇豪:这个问题我们其实深有体会。虽然今天我们讨论的数据中心与电网互动、算力调度以及与新能源平衡的概念听起来都很好,但实际操作中,从最早2004年就有人提出这些概念。然而,即使过去了二十年,实际落地的项目在全球范围内仍然寥寥无几,没有太多可持续应用的案例。
这其中一个很大的问题,是需要电力现货市场的价格信号来激励数据中心调整用电行为。但我认为这只是一个方面,因为在算力领域,相关团队可能更关心产品的交付和服务的可靠性,而不是带来电费和排放的降低。
陈云霁:我认为目前的情况可能是时机未到。虽然现在人工智能算力只占全球电力消耗的1.6%,但如果有一天这一比例达到20-30%,即便是资金雄厚的互联网公司可能也付不起如此巨额的电费。以OpenAI为例,尽管其技术领先,但实际上一直在亏损。因为目前OpenAI通过大模型挣到的钱无法补贴其电力成本,因此它一直在亏损。不过,我相信它总有一天要挣钱。
目前,无论是互联网公司还是大模型创业公司,还没有真正考虑如何盈利。他们现在的重点不在于考虑成本问题,包括电力成本。但当他们开始真正思考如何挣钱,AI的算力消耗和电力成本就是他们必须面对和解决的问题。
李勇:不是不报,时间未到。在互联网行业,投资现在主要集中在算力,而电力成本尚未显著上升。算力基础设施一旦建成,就会持续运行,其成本实际上是一个相对平稳或逐渐下降的趋势。相比之下,电力成本却有可能持续上升。因此,当电力成本变得足够高,以至于在经济上成为一个不可忽视的因素时,企业将会发现降低电力消耗是划算的。
张永平:时间点是一个很有趣的话题。据我了解,至少在美国,像OpenAI这样的公司,未来的商业模式如果能够成功并实现盈利,无非两个:一是AI应用的驱动,特别是使用量和调用量的增加,这是收入的来源;二是降低成本。一方面,他们会切入芯片生产上游的晶圆;另一方面,他们正在投资电力领域,包括核电和其他直接电力供应方式,以省去中间环节,直接获取电力供应,能节省超过40%的能源成本。他们正在投资未来。
杨富强:我们刚才讨论了AI的能源消耗,同时我们也应该看到AI在提高能源效率和减少碳排放方面的潜力。以智能电网为例,我们担心可再生能源的不稳定性可能导致电网事故。这类事故很少见,可能一年只有一两次,或者几年才发生一次,但一旦发生,后果严重。有了AI之后,我们可以通过模拟和计算帮助我们预防和解决电网事故。现在,当我们谈到AI时,经常提到“AI向善”。人们对AI既感到惊喜,又有些害怕。我们对AI的担忧是什么,怎样去克服?
李勇:我们经常讨论AI带来的威胁,比如最初的数据威胁,指的是大语言模型消耗了人类产生的所有文本语料,让我们面临数据枯竭的问题。然而,AI虽然消耗了大量数据,但它也能产生更多的数据,比如在视频创作等领域创造新的内容。今天,我们讨论的是AI快速发展可能带来的能源危机,但讨论后我们发现,AI虽然增加了能源消耗,但它也能帮助我们更有效地利用新能源,比如风能和太阳能。这实际上是为我们打开了另一扇窗。
杨富强:传统上,电网调度需要几十名工作人员来管理。如果我们引入AI技术,有人提出可以设计一个软件,让AI来接管电网调度工作,这样效率会更高,可能只需要一两个人来监督。然而,这也带来了风险。如果AI软件遭到入侵或者出现故障,可能会导致整个国家电网系统的崩溃。我们应该怎么做?
丁肇豪:在电力系统中,我们经常需要进行方式计算,这是一种考虑各种可能性以确保电力系统安全的方法。过去,国家调度中心进行方式计算需要从各省抽调大量人员,花费数月时间。但随着电力系统越来越复杂,尤其是风能和太阳能的增加,这种方式计算变得更加困难。这时,人工智能可能提供了一个解决方案。
然而,使用人工智能也带来了不可靠性和安全隐患。例如,数据投毒、代码后门等攻击手段,或者即使没有恶意攻击,AI计算出的结果也可能出错,因为大型模型本质上是概率模型。如果出现问题,谁来负责?在电力调度中的决策都是有人负责。但如果决策是由AI做出的,责任归属就变得模糊。这是在使用AI时,尤其是电力行业这样相对保守的领域,需要特别考虑的问题。我们希望在AI的可解释性、安全性和效率提升之间找到平衡点。
张永平:之前在电力领域,尤其是在电力调度这个技术含量最高的领域,人工智能更多还是辅助决策的作用,比如更精准地预测电力负荷,比如应用语音、视觉、自然语言处理等技术,帮助调度员做交互,降本增效,这些场景已经变得很常见。
现在,人工智能的应用正越来越多地探索电力系统最核心的领域。例如,因为电网变得越来越复杂,支持电网运行方式的制定;还有实时监控电网运行情况,调度员需要关注大屏幕上的电网状态,并在出现问题时迅速采取应对措施,以往这些工作依赖于计算机辅助和人的经验,而人工智能的辅助可以使决策更加精准。
但核心问题在于,人工智能存在不可解释性。虽然智能涌现带来了一些好处,但在传统领域,不可解释性可能导致安全责任难以界定。以往人做决策时责任明确,而AI做决策时责任归属变得模糊。这类似于自动驾驶面临的社会伦理问题,不仅仅是技术问题,而是涉及到如何在不同情况下做出伦理判断。随着技术的进步,我们不仅需要改变技术层面的东西,还需要改变安全文化、社会责任、伦理和法律法规等方面。这些问题可能需要长期解决。
观众提问
观众1:陈云霁老师提到一个观点,未来AI的大模型可能会收敛到一个相对特定的大模型,我们将为其提供专用的硬件支持。我自己的研究也与大模型相关,想请教李勇老师,您对AI,包括大模型未来的展望是怎样的?它应该具备哪些能力?如何融入人类社会?
李勇:大模型发展到今天,已经展示出了许多可能性,特别是在虚拟世界中解决问题的能力,超出了我们的预期。目前,许多研究工作正在进一步探索如何让大模型在现实世界中发挥作用,比如通过具身智能等研究,让大模型的能力在现实世界中得到应用,帮助我们解决实际问题。
总体来看,大模型是目前人类探索通用智能的一个可能方向,尽管它可能不是唯一的方向。对于未来,我认为一方面,既然我们已经看到了大模型的潜力,就应该继续努力探索。但从国内外的发展形势来看,美国在这一领域的引领作用仍然很明显,我们还需要认识到跟随的现状。另一方面,随着智能水平的进一步提升,我们也需要探索一些目前尚未被充分开发的、有潜力的新路径。这样,我们就能为未来人工智能的安全性和可持续性做出贡献。
观众2:我想问李老师,芯片和大模型的能耗中,有多少是理论上必要的,又有多少是可以通过优化减少的?丁老师,于数据中心来说,电力波动的承受范围有多大,是否存在一个理论上限?如果数据需要根据新能源的出力不断调整,客户可能会担心多次传输带来的风险,这种风险如何评估和控制?张老师,高可再生能源占比的算力中心是如何实现的?如果我们想建立一个以可再生能源为主的微电网,技术上的突破点和背后的成本可能是什么?
张永平:我们观察到数据中心目前有两个发展趋势:一方面是大型集中式数据中心,另一方面是分布式小型算力中心。这些小型算力中心通常建在需要智能算力的地方,以满足当地的需求。
目前,完全依赖绿色能源的集中式数据中心相对较少,因为这类数据中心对可靠性的要求非常高。可再生能源,尤其是风能和太阳能,具有较大的波动性。要保证大规模能源供应的稳定性,就需要有调节手段,比如水电(如果有的话),因为它是绿色的。或者配备储能设施,但从能量密度和成本角度来看,储能设施可能并不是一个技术、成本效益上划算的解决方案。因此,大多数大型数据中心至少需要有大电网作为备用,完全离网运行可能比较困难。
对于小型数据中心,靠近智算需求的地方,实现绿色电力供应是可能的。它们可以利用绿色电力加上一些储能设施,在某些时段满足供应需求。虽然可能无法保证一天24小时或一周七天都能百分之百使用绿电,但在某些时段是可以实现的。
从企业运营的角度来看,为了满足绿色能源的需求,如果没有物理资源,它们可以通过购买绿色电力凭证等方式来实现。虽然这会带来一些绿色电力的溢价,但这种方式可以被视为消耗绿电的一种方法。这些是目前我们观察到的一些趋势。
丁肇豪:关于独立运行的绿色微电网,这个话题在电力领域已经讨论很久了。但如果要将高可靠性结合进来,难度就增加了许多。尤其是对于大型数据中心,比如拥有万卡或十万卡集群的数据中心,要实现独立运行并且保证可靠性,难度就更大了。这种难度既包括技术上的挑战,也包括经济实现上的挑战,比如投入储能、氢能等的成本和安全问题。虽然技术上不惜代价可能是可行的,但一旦考虑到经济成本,可能就变得不可行了。
关于数据中心响应速度的问题。我们做过一些模拟实验,发现数据中心实际上可以提供2秒或4秒的电力系统调频服务。数据中心的计算速度或控制速度远高于电网的频率,因此有很大的操作空间。
关于数据中心负荷与电力消耗是否线性相关。我只能说它们是正相关的,但并非线性关系。在实际测试中,我们明显看到算力调度的时候,最终展现出的电力负荷波动是一种非线性映射关系。这其中有很多原因,包括任务执行与能耗在服务器层面、机房层面或整个机群层面的非线性映射,以及制冷等的时间常数差异。这些因素共同作用,导致最终的非线性关系。这也是AI可以解决的问题之一,只要我们有足够的数据,就可以进行优化。
关于数据中心的控制范围,即上限和下限问题,这并没有一个统一的答案。它取决于数据中心运行的计算任务类型。如果是大模型的预训练,那么如果完全停止,变化范围可能非常大。但如果是一般性的算力中心,运行的是均衡后的负载业务,那么变化范围会小一些,具体取决于运行的业务类型。因此,这个问题的答案主要取决于我们关注的是什么样的数据中心以及它运行的业务类型。
李勇:关于芯片能耗的问题,从目前的情况来看,芯片在运行时产生的能耗在一定程度上都是合理的,但确实存在一些可以优化的空间。硬件的能耗主要由几个部分组成:电源模块、模数转换模块以及核心的数字电路处理模块。在不同的芯片中,这些模块的功耗比重各不相同,因此在芯片设计中,优化这些模块的能耗是一个核心问题。
除了优化现有设计,另一个层面的考虑是芯片架构的创新。我们是否可以从现有的软硬件分离模式转变为模仿人脑的工作机制,设计出一种新型的芯片架构。此外,工艺技术的进步也是提升芯片能效的一个重要方向。
观众3:丁老师,您刚才提到算力中心的灵活调节需求与其处理的具体任务相关。那么,对于未来的不同应用场景,我们是否能够做出估计,并据此反推出未来增长曲线的可能形状?例如,未来的任务将如何增长,其中有多少是可调节的?考虑到未来高比例的可再生能源系统和算力中心所占的比重,它的调节能力将决定我们需要配置多少灵活能源,如储能等。同时,我也注意到腾讯等公司通过辅助服务市场的价格来指导其算力中心的调节。这种市场机制在未来是否仍然适用?或者当AI消耗了高比例的能源后,辅助服务的价格信号是否不足以进行调节,我们是否需要新的市场或市场机制来应对这种情况。
张老师,我的问题是关于碳中和路径和能源转型的。虽然我们已经有了这些路径,但在设计时并未考虑到新型技术,尤其是像AI算力中心这样的高耗能技术。现在我们意识到,未来这些技术可能占用20%到30%甚至更高的能源比例,是否有项目在研究这种新技术对未来碳中和路径的影响?影响范围会有多大?还是说目前大家仍然认为能源前端的问题,如可再生能源的替代,更为关键,而耗能问题相对来说不是主要因素?
丁肇豪:我先来谈谈算力中心调节能力的问题。这个调节能力实际上取决于我们对业务时延的敏感性和对服务质量的认知。换句话说,这取决于我们对算力需求的紧迫性。例如,如果您使用ChatGPT,并且您是一个非常注重环保的人,您是否愿意让ChatGPT在回答问题时比别人多花50%的时间?如果您愿意,那么推理任务的灵活性就会增加。如果您更愿意等待,比如增加到100%的时间,那么灵活性就更大,因为它可以在能源供应更充足的地方进行计算。
至于辅助服务机制的问题,中国的电力市场仍在发展变化中。从新一轮电力体制改革开始,现货电力市场建设正在全面铺开。目前,数据中心真正参与电力现货市场的情况还比较少,所以瓶颈并不在于机制层面。如果将来理想情况下,数据中心占电力负荷的30%到40%,并且我们需要它们进行调节,那么我们需要给它们足够的价格信号。我认为,沿着目前市场机制的设计思路,从辅助服务的角度来看,问题不大。可能更多的是需要在容量机制、现货能量市场和辅助服务市场之间的匹配关系上做一些调整。这可能是一个更长远的问题,是未来我们需要面对的。
张永平:关于碳中和的路径,电力部门脱碳无疑是最核心的部分。不仅电力部门自身需要实现碳中和,其他许多部门也在快速电气化,这一过程中如果使用的电力都是清洁和绿色的,也能助力其他行业的减排。在进行这类路径研究时,尤其是从电力角度出发,我们首先关注的是对未来电力需求的预测。未来的需求预测总是充满挑战,因为太难预测,所以很多方法都采用了高中低不同情景的分析。在最低和最高的情景中,会进一步细分各个用电部门的需求。
我相信,按照目前数据中心和AI智算的发展,至少在高用电情景中,已经充分考虑了AI对未来电力需求的影响。在这样的高情景设定下,如何满足这些需求,尤其是使用绿色清洁的可再生能源,是有相应方案的。我们对这些方案进行了一些分析和测算,发现是有可能实现的,但对电力系统转型的挑战巨大。
在可预见的未来,面对AI带来的电力需求的增长,通过技术、政策和市场的协同努力,尽可能多的用可再生能源去满足这一需求,还是充满信心的。
注:科学四十人是一个科学交流公益项目,由北京市海淀区智识前沿科技促进中心(简称“智识学研社”,《知识分子》《赛先生》出品方)和浙江省科汇致远公益基金会共同发起。科学四十人委员会目前包括来自不同学科领域的34位一流学者。
0
推荐