橘子百科-橘子都知道橘子百科-橘子都知道

算力狂飙电力承 压 英伟达、英特 尔争相推出节能方案

算力狂飙电力承 压 英伟达、英特 尔争相推出节能方案

当(dāng)地时间8月26日,OpenAI硬件设施负责人Trevor Cai在(zài)Hot Chips 2024上发(fā)表 了长(zhǎng)达一小时的演讲,主题为“构建(jiàn)可扩展的AI基(jī)础设施”。他指(zhǐ)出(chū),OpenAI的一项重要(yào)观察结果是,扩大规模可以(yǐ)产生(shēng)更好、更有用的(de)人工智能(AI)。

作为全球芯片(piàn)行业影响力最大的会议之一,Hot Chips于每年8月份在斯坦福大学举行。不(bù)同(tóng)于其他行业会议(yì)以学术研究为主(zhǔ),Hot Chips是(shì)一场产业(yè)界的盛会,各大处理器公司(sī)会在每年的(de)会上(shàng)展现(xiàn)他(tā)们最新的产品以及(jí)在研的产品(pǐn)。

《每日经济新闻 》记者(zhě)注意到,AI浪潮推(tuī)动数据(jù)中心激增,同时也伴随 着(zhe)能源(yuán)需求的激增(zēng)。在这样的背(bèi)景下,此次的Hot Chips大会(huì)上,围绕人工智能(néng)的议(yì)题比以(yǐ)往任何一届都更加活(huó)跃。Trevor Cai的演讲着眼(yǎn)于(yú)解(jiě)决能源和算力之间的问题,英特尔、IBM和英伟达等则(zé)是(shì)提出了更节能(néng)的技术方(fāng)案(àn)。

摩根士丹利在8月(yuè)份发布的研究(jiū)中预测称,生成式AI的电力需求将在未来几年内每年飙(biāo)升75%,预计到2026年(nián),其消耗(hào)的能(néng)源量将与西班牙在2022年的(de)消耗量相当。科技 巨头们该如何应对能(néng)源挑战?

聚焦“节能方案”

当地时间8月26日,一年(nián)一度的半导体企业盛会Hot Chips2024在斯坦福大学纪念礼堂举行,今年是第36届。

从会(huì)议第一天的情(qíng)况来(lái)看,大部分的话题都集中在了更节能、安全且可扩展(zhǎn)的大规模AI服务器部署方案上。

OpenAI硬件(jiàn)负责人Trevor Cai发表了“可预测的(de)扩展(zhǎn)和(hé)基础(chǔ)设施”主题演讲(jiǎng),谈到了提升计算能力所带来(lái)的可预测的扩展效(xiào)益,这(zhè)也(yě)是OpenAI自成立(lì)之初就关注的重点(diǎn)。一个重要的观察结果是,扩大规模(mó)可以产生(shēng)更好、更有用的人工智能。“每次计(jì)算量(liàng)翻倍,都会得到更好的结果。模型(xíng)的能力和计算资源(yuán)的(de)消耗是呈指数级别上升的。自2018年以来,行业中前沿模型(xíng)的计算量每年增长约4倍。”他说道(dào)。

最(zuì)初,GPT-1只需几周(zhōu)的时间 完成训练。如今,它已经扩展到需要庞大的GPU集(jí)群。因此,OpenAI认为AI的基础建设需要大量投资,因为计算能力(lì)的提升已经(jīng)产生了超过(guò)8个(gè)数量级的效益。

似乎是为了呼应(yīng)OpenAI的演讲 ,各大公司的演讲也不约而同地提到了大(dà)规(guī)模部署AI服务器(qì)的计划方案。

IBM在(zài)大(dà)会上披露了即(jí)将推(tuī)出的IBM Telum II处理器和IBM Spyre加 速器的架构细(xì)节。新技(jì)术旨在显著扩(kuò)展下一代IBM Z大型机系统的处理能力 ,通(tōng)过一种(zhǒng)新的AI集成方法(fǎ)帮助加速传统AI模型(xíng)和大型语言 AI模型的协同使用。IBM特(tè)别(bié)强调这 次更(gèng)新的先进I/O技术旨在降低能耗和 数据中心占(zhàn)用空间。

英伟(wěi)达也在大会上放出(chū)了(le)最新(xīn)的AI集群架构Blackwell的相关消(xiāo)息。英伟达称,Blackwell拥有6项革命性技术,可支(zhī)持多达10万亿参数的模型进行AI训(xùn)练和实(shí)时大语言模型(LLM)推理(lǐ)。值得注意的是,英(yīng)伟达的Quasar量(liàng)化系(xì)统用(yòng)于确(què)定可以使用较低精度的内容,从而减少计算和存储(chǔ)。英伟达表示他们的宗旨就是在提(tí)高能(néng)源效率的同时为AI和加速(sù)计算性能提供新标准。

除此之外(wài)算力狂飙电力承压 英伟达、英特尔争相推出节能方案,英特尔、博通、海力士等公司的(de)演讲中均提到了更节能(néng)的技术方案。

能源(yuán)需求激增(zēng)

科技巨头们着眼“更节能的(de)”技术方案的根本(běn)原因在于,当(dāng)前人工智能热潮正在增(zēng)加更强大的处理器以及保持数(shù)据中心冷却所需的(de)能源需求。

当前,微软、Alphabet和Meta等大型科(kē)技公 司正在投资数十亿美元建设(shè)数据中心基(jī)础设(shè)施,以支持生成(chéng)式(shì)人工智(zhì)能,但数据中心的激增也(yě)伴随着能源需求的激增。

据彭博社报道,仅去年,大型科技公司就向数据中(zhōng)心设施投入(rù)了约1050亿美元。谷(gǔ)歌、苹果和特斯拉等公司不断通(tōng)过(guò)新产品和服务增强AI能力。每项AI任务都需要巨大的计(jì)算(suàn)能力,这意味着数据(jù)中心会消耗大量电(diàn)力。国际能源署(IEA)预测,到2026年,全球数据中心每年使用的能源量将相当于日本的电力消耗(hào)量。

Hugging Face的(de)人工智能和(hé)气候负责人(rén)Sasha Luccioni提到,虽然训练AI模型需要(yào)耗(hào)费大量能源(例如,训练 GPT-3模型耗费了大约1300兆瓦时的电力(lì),而GPT-4的训练消耗是GPT3的50倍(bèi)),但(dàn)通常只进行一次。然(rán)而,由(yóu)于查询量巨大,模型生成响应(yīng)可能需(xū)要更多(duō)能源。

例如,当用户向ChatGPT等AI模型提(tí)问时,需要向数据中心发送请求,然后强大的处理器会生 成响应。这个过程虽然很快,但消耗的能量(liàng)也是巨大的。根据艾伦(lún)人工智能研究(jiū)所的数据,对ChatGPT进行一次查询所消(xiāo)耗(hào)的电量相当于为灯(dēng)泡点亮20分钟,是简单(dān)Google搜索(suǒ)耗电量的10倍以上。

然而,全球的电力资源(yuán)有限,而数据中心需要持续稳定的电力供(gōng)应来运行服务器和其他核心运营设备。如果能源(yuán)供应不稳(wěn)定,停机可(kě)能会给企业和其他用户造成重大经济损失。此(cǐ)外,巨大的能(néng)源消耗也引发了人(rén)们对环境的担忧。

为应对这一挑战,科技公司(sī)们(men)开始(shǐ)寻找解决方案。

部分公(gōng)司选择更清洁且高效的能源供(gōng)给,如核能。亚马逊最近(jìn)在美(měi)国宾(bīn)夕法尼亚州东北部购买(mǎi)了一个价值6.5亿美元的核能数据中心园区设施,该设(shè)施将使用(yòng)核反应 堆产生的高达40%的电力,最终使亚马(mǎ)逊能(néng)够减(jiǎn)少对当地电网的依赖。与(yǔ)此同时,微(wēi)软聘请了核专家来带头寻找这种替代电源。微软(ruǎn)还与(yǔ)核电站运营商签订了合同协议,为其位于弗吉尼亚州的一个数据中心提供电力。

除此(cǐ)之外,科(kē)技公司们不仅在前文(wén)所提到的一 系列芯片(piàn)节能 技术进行(xíng)努力,也在其他硬件(jiàn)设施和技术上(算力狂飙电力承压 英伟达、英特尔争相推出节能方案shàng)下足了功夫。

谷歌正在开发(fā)人工智能专用芯(xīn)片,例(lì)如张量(liàng)处理单(dān)元(TPU),这些芯片(piàn)针对人工智能任务进行了优化,而不是使用为游戏技术创建的图形处理单元(GPU)。

英(yīng)伟达针对Blackwell芯片的直接液体冷却系统(tǒng)还宣布了一项研(yán)究,研(yán)究表明了如何重 新利用(yòng)从服(fú)务器中吸(xī)收的热量并将其回收(shōu)到数据中心。据英伟达估计,冷却最多可减少数据中心设(shè)施耗电量的28%。

然而,威斯康星大学麦 迪逊分校的教(jiào)授辛克莱提醒,杰文斯悖论在(zài)这(zhè)里依然适用(yòng)。“提高人工智能的效(xiào)率,虽然(rán)减少了(le)单次能耗,但(dàn)整体使用率的(de)增加最终会(huì)导致总(zǒng)体能耗(hào)的上升。”辛克(kè)莱解释道。这个悖论不仅适 用于19世纪的火车煤(méi)炭使(shǐ)用,同样适用于(yú)当今的人工智能和电力(lì)消耗。

未经允许不得转载:橘子百科-橘子都知道 算力狂飙电力承压 英伟达、英特尔争相推出节能方案

评论

5+2=