橘子百科-橘子都知道橘子百科-橘子都知道

算力狂飙电力承压 英伟达、英特尔争相推出节能方案

算力狂飙电力承压 英伟达、英特尔争相推出节能方案

当地时间8月26日,OpenAI硬件(jiàn)设施负责人Trevor Cai在Hot Chips 2024上发表了长达一小时的演讲,主题为“构建可扩展的AI基础设(shè)施”。他指出,OpenAI的一项重要观(guān)察结果是,扩大规模(mó)可(kě)以产生(shēng)更好、更有用的人工智能(AI)。

作(zuò)为全球芯片行业影(yǐng)响力最大的会(huì)议之一,Hot Chips于每年8月份在斯坦福大学(xué)举行(xíng)。不同于其他行业会议(yì)以学术(shù)研究为主,Hot Chips是一场产业界 的盛会,各大处理器公司会在每(měi)年的会上展现他们最(zuì)新的产品以及(jí)在 研(yán)的产品。

《每日(rì)经济新闻》记(jì)者注(zhù)意到,AI浪(làng)潮推动数据中心激增,同时也伴随着能源需求的激增。在这(zhè)样的背景下,此次的Hot Chips大会上,围绕(rào)人 工(gōng)智能的议 题比(bǐ)以往任何一届都更加活跃。Trevor Cai的演讲着眼于解决(jué)能源和算力之间的问题(tí),英特尔、IBM和英伟达(dá)等(děng)则是提出了更节能的技术方案。

摩根士(shì)丹(dān)利在8月 份发布的研究(jiū)中预测称 ,生成式AI的电力需求将(jiāng)在未来几年内每年飙升75%,预计到2026年(nián),其消耗的(de)能源量将与西班牙在2022年的消耗 量相当。科技巨头们该如何应对能源挑战?

聚焦“节能方案”

当(dāng)地时间8月26日,一年一度的半导体企业盛会Hot Chips2024在斯坦福大学纪念(niàn)礼堂举行,今年是第36届。

从会议第一天的情况来看,大部分的话题(tí)都集中在(zài)了更节能、安全且 可(kě)扩展的大规模AI服务器部署方案上。

OpenAI硬件 负责人Trevor Cai发表了“可(kě)预测的扩展和(hé)基础设施”主题演讲,谈到了提升计算能力所带来的可预(yù)测的扩展效益,这(zhè)也是OpenAI自成立之初就关注的重(zhòng)点。一个重要的(de)观察结果是,扩(kuò)大规(guī)模可以产(chǎn)生更好、更有用(yòng)的人工智能。“每次计算量翻倍,都(dōu)会(huì)得到更好的结果。模型的能力和计算资源的消耗是呈(chéng)指数级别上升的。自2018年以来,行业(yè)中前沿模型的计算量每年增长约4倍。”他说道。

最初,GPT-1只需几周的时间完成训练。如(rú)今,它已经(jīng)扩展到(dào)需要庞大的GPU集群(qún)。因此(cǐ),OpenAI认为AI的基础建设需要大(dà)量(liàng)投资,因为计(jì)算能力的提升(shēng)已经产生了(le)超过8个数量(liàng)级的效 益(yì)。

似乎是为了呼(hū)应OpenAI的演讲(jiǎng),各大公(gōng)司的演讲也不约而同地提到了大规模部署AI服务器的计(jì)划方案。

IBM在(zài)大会上披露了即将(jiāng)推(tuī)出的IBM Telum II处理器和IBM Spyre加速器的架构细节。新技术旨(zhǐ)在显著扩展下一(yī)代IBM Z大型机系统的处理(lǐ)能力,通过一种新的AI集成方(fāng)法(fǎ)帮助加速传统(tǒng)AI模型和大型语(yǔ)言 AI模型的协同使用。IBM特别 强调这次更新的先进I/O技术旨在(zài)降(jiàng)低能(néng)耗和数据中心占用空间。

英伟(wěi)达也在大会上放出了最新的AI集群架构Blackwell的相关消息(xī)。英伟达称,Blackwell拥有6项革命性技术,可支(zhī)持(chí)多达10万亿(yì)参数的模型进行AI训练和实时大语言模型(LLM)推理。值得(dé)注意的(de)是,英伟达的Quasar量化(huà)系统用于(yú)确定可以使(shǐ)用较低精度(dù)的内容,从(cóng)而减少(shǎo)计算(suàn)和(hé)存储。英伟达表示他 们的宗旨就是在(zài)提高算力狂飙电力承压 英伟达、英特尔争相推出节能方案能源效率的同(tóng)时为AI和加(jiā)速计算(suàn)性能提供新标准。

除此之外,英特尔、博(bó)通、海力士等(děng)公司的演(yǎn)讲中均提到了更节能的(de)技术方案。

能源需求(qiú)激增

科技巨头们着眼“更节能的”技 术方案的(de)根本原因在于,当前人(rén)工智能热潮正 在增加更强大的处理器以及保持数据中心冷却(què)所需的能源需求。

当前,微 软(ruǎn)、Alphabet和Meta等大型科技公司(sī)正在投资数(shù)十(shí)亿美元(yuán)建设数据中心基础(chǔ)设施,以支持(chí)生成式人工智能,但数据中心的激增(zēng)也伴(bàn)随着能源需求的激增。

据 彭博社报道,仅去年,大型科技公司就向数据中心设施投入了约1050亿美元。谷歌、苹果和特斯(sī)拉等公(gōng)司不断通过新产品和服务增强AI能力。每项(xiàng)AI任务都需要(yào)巨大的计算(suàn)能力,这意(yì)味着数据中心会消耗(hào)大量电力。国际能源署(IEA)预测,到2026年(nián),全球数据中心每年使用的能源量将相(xiāng)当(dāng)于日本的电(diàn)力消耗(hào)量。

Hugging Face的人工智能和气候(hòu)负责人(rén)Sasha Luccioni提到,虽然(rán)训练AI模型需要耗费大量(liàng)能源(例如,训(xùn)练 GPT-3模型耗费了大约(yu算力狂飙电力承压 英伟达、英特尔争相推出节能方案ē)1300兆瓦(wǎ)时的电(diàn)力,而GPT-4的训练(liàn)消耗是GPT3的50倍),但通常只进行一次。然而,由于查询量巨大,模型(xíng)生成响应可(kě)能需要 更多能源。

例如,当用户(hù)向ChatGPT等AI模(mó)型提问时,需要(yào)向数据中心发送请求(qiú),然后强大的处理器会生成响应。这个过程虽然很快(kuài),但消(xiāo)耗的(de)能量也是(shì)巨大的。根据(jù)艾(ài)伦人(rén)工智能研究所(suǒ)的(de)数据,对ChatGPT进行一次查(chá)询所消(xiāo)耗的电量相当(dāng)于为灯泡点亮20分钟,是简单Google搜索耗电量的10倍以上。

然而,全球的 电力资源有限,而数据中心(xīn)需要持续稳(wěn)定的电力供应来运行服 务器和(hé)其(qí)他(tā)核心(xīn)运营设备(bèi)。如(rú)果能源供应不稳定,停机可能会给企(qǐ)业和(hé)其他用户造成重大经(jīng)济损失。此外,巨大的能源消耗也引发了人们对环境的担忧。

为应对这一挑战,科(kē)技公司们开始寻 找解决方案。

部分公司选择更清洁且高效的(de)能(néng)源供给,如核能。亚马逊最近在美国宾夕法尼亚州(zhōu)东(dōng)北部购买了一个价值6.5亿美元的核(hé)能数据中(zhōng)心园区设施,该设施将使用核反应堆产(chǎn)生的高达40%的电力,最终使亚马逊能够(gòu)减少对当地电网的依赖。与此同时,微软聘(pìn)请了核专家来带 头(tóu)寻(xún)找这种替代电源。微软还与核电站运营商签订了合同协议,为其位于(yú)弗吉尼亚州的一(yī)个数据中心提供电力。

除(chú)此之外,科技(jì)公司们 不仅在前文所提(tí)到的一(yī)系列芯片节能(néng)技术进行努力,也在其他硬件设施和技术上下 足了功夫。

谷歌正在开发人工智能(néng)专用芯片,例如张量处理单元(TPU),这(zhè)些芯片针对(duì)人(rén)工智能任务进行了优化,而不是使用为游戏技术创建的图形处理单元(GPU)。

英伟达针对Blackwell芯片的直接液体冷却系统还宣布了(le)一项研究,研究表明了如(rú)何重新利用从服务器中(zhōng)吸收的热(rè)量并将其回收到数据中心。据英伟达估计,冷却最(zuì)多可(kě)减少数(shù)据(jù)中(zhōng)心(xīn)设(shè)施耗电量的28%。

然而,威斯康星大学麦迪逊分校的(de)教授辛克莱提醒,杰文斯(sī)悖论在这里依(yī)然适用。“提(tí)高人工智能的效率,虽然(rán)减少了单次能耗,但(dàn)整体(tǐ)使用(yòng)率的增加最终会导致总体能耗的上升。”辛克莱解释道。这个悖论不(bù)仅适(shì)用于 19世纪的火车煤炭使用,同样适用 于当今的人工智能和电力消耗。

未经允许不得转载:橘子百科-橘子都知道 算力狂飙电力承压 英伟达、英特尔争相推出节能方案

评论

5+2=