橘子百科-橘子都知道橘子百科-橘子都知道

将英伟达拉下马,芯片公司出招

将英伟达拉下马,芯片公司出招

如果您希望可以时常见面,欢迎(yíng)标星收藏哦~

来源:内容编译自IEEE,谢谢(xiè)。

很(hěn)难(nán)夸大英伟达在AI领域的主导地位。成立于1993年(nián)的英伟(wěi)达最初在个人计(jì)算机图形处理单元(GPU)领域崭露头角。然而,是公司的AI芯片(piàn),而非PC图形硬件,推动英 伟达(dá)跻(jī)身(shēn)全球(qiú)最有价 值公司之列。事实证明,英伟达的GPU在AI方面 也表(biǎo)现出(chū)色。因此,其股(gǔ)价自2020年初以来已经增长了 15倍以上,收入从2019财年(nián)约(yuē)120亿(yì)美元跃升至2024年(nián)的(de)600亿美元;这家(jiā)AI巨头(tóu)的(de)领(lǐng)先芯(xīn)片如沙漠(mò)中的水一 样稀缺且备受 追捧。

"获取GPU对AI研究人员来说已经成了巨大的担忧,以至于他们 每天都(dōu)在思考(kǎo)这个问题。因为没有它们,即使拥有最好的模型,他们也无法尽情发挥,”谷歌DeepMind的AI数据负责人詹妮弗·普伦德基(Jennifer Prendki)表示。普伦(lún)德基依赖英伟达的程度较少,因为谷歌拥有自己(jǐ)的AI基础 设施。但其他(tā)科技巨头,如微软和亚马逊,是英伟达最大的客(kè)户之一(yī),并(bìng)继(jì)续(xù)以极快的速度(dù)购买其GPU。据新闻报道,美国司法部正在就英伟达芯片分配和获取问(wèn)题 进行反垄断(duàn)调查。

英伟达(dá)在AI领域的主导地位,与机器学习的爆发一(yī)样,是最近的现象。但这种成功(gōng)源自公司数十年来 的努力,旨在将GPU建立为(wèi)除渲染图形外(wài)对其他任务也有用的通用计算硬件。这一努(nǔ)力不 仅包括公司GPU架构的演变,后者现在拥有能够(gòu)加速AI工作负载的“张量(liàng)核心”,还包括其软件平台 CUDA,这为开发人员利用硬件优势提供了(le)支持。

“他们确保每个从大学毕业的计算机科(kē)学专业学生(shēng)都(dōu)掌握了CUDA编程,”Moor Insights & Strategy的数据中心首席(xí)分(fēn)析师(shī)Matt Kimball说。“他们提 供工具和培(péi)训,并在研究上投入了大量资金(jīn)。”

CUDA于2006年(nián)发布,帮助开发人员使用英(yīng)伟达GPU的众多核心。这在(zài)加速高(gāo)度并行的计算任(rèn)务方面至关重要。英伟达在(zài)建立CUDA生(shēng)态系统上的 成功使其硬(yìng)件成为AI开(kāi)发的最小阻力路(lù)径。虽然英(yīng)伟达芯片供不应求,但比(bǐ)AI硬(yìng)件(jiàn)更难找到的,可能是经验丰富的AI开发(fā)人员——而许多开发人员都熟悉CUDA。

这 给了英伟(wěi)达一条深厚且广泛的护城(chéng)河来保(bǎo)护(hù)其业务,但这并不意味着它(tā)缺少准备(bèi)进攻的竞争对手,这些(xiē)对手的策略各不相同。虽然像AMD和英特尔这样的老牌公司正在试图使用他们自己的(de)GPU来挑战英伟达,但(dàn)像Cerebras和SambaNova这样的初创公司已经开(kāi)发出能够显(xiǎn)著提 高生(shēng)成式 AI训练和推理效率的创新芯片架(jià)构。它们是最有可能挑战英伟达的竞争对手。

AMD:另一(yī)位GPU制造商

优势:AMD的GPU是说服(fú)力十足(zú)的英伟达替(tì)代品

劣势:软件生态系统(tǒng)无法与英伟达的CUDA相抗(kàng)衡

在图(tú)形芯片领域,AMD与英伟达的战斗已持续了近二十年。这是一场(chǎng)有时不平衡(héng)的竞争。在图(tú)形处理方面,AMD的GPU在销售和(hé)心智占有率上很少击败英伟达。然而(ér),AMD的 硬(yìng)件有其优势。公司的广泛GPU产(chǎn)品组合涵盖了从笔记本电脑的(de)集成图形到拥有1500亿个晶体管的AI专用数据中心(xīn)GPU。该公司还早期支持并采用(yòng)了高带宽内存(HBM),这是如今全球(qiú)最(zuì)先进GPU所必需的一种内存形式(shì)。

“如果你看硬件……它与英伟达相比并不逊(xùn)色(sè),”Kimball说道,他(tā)指(zhǐ)的是AMD的Instinct MI325X,这是一(yī)款英伟达H100的竞争对手。“AMD在(zài)这(zhè)款芯片的设计上做得非常出(chū)色。”

MI325X计划(huà)于今(jīn)年(nián)年底推出,拥有(yǒu)超过1500亿个(gè)晶体管和288GB的高带(dài)宽内存,尽管其在实际应用中的表现尚待验证。MI325X的前身MI300X获得了微软的好评(píng),微软使用包括MI300X在内的AMD硬件来处理部分ChatGPT 3.5和4的服务。Meta和戴尔也部署了MI300X,Meta在其最新的(de)大语言模型Llama 3.1的部分开发中(zhōng)使用了这些 芯片。

AMD仍有一个障碍需要(yào)克服:软件。AMD提供了一个开源平台ROCm来帮 助(zhù)开发人员为其GPU编程,但(dàn)它的人气不如CUDA。AMD意识到了这一(yī)弱点,并在2024年7月同(tóng)意收购欧洲最大的(de)私有(yǒu)AI实(shí)验室Silo AI,该实(shí)验室在使用ROCm和AMD硬(yìng)件进(jìn)行大(dà)规模AI训练方面有经验。AMD还计划收购ZT Systems,一家在数据(jù)中心基础设将英伟达拉下马,芯片公司出招施方面拥有专长的公司,以帮助AMD更(gèng)好(hǎo)地为部署其硬件的客户服务。打造一个能够与CUDA匹敌(dí)的对手绝非易事,但AMD正在全力以赴。

英特尔:软件成功

优(yōu)势(shì):Gaudi 3 AI加速器表现强劲(jìn)

劣势:下一款大AI芯片要到2025年底(dǐ)才会推 出

英特尔的挑战与AMD相反。英特尔缺(quē)乏英(yīng)伟达的CUDA和AMD的ROCm的直接(jiē)匹配产品,但其于2018年推 出了一个开(kāi)源统(tǒng)一编程平台OneAPI。与CUDA和ROCm不同,OneAPI涵盖(gài)多个类别的硬件,包括CPU、GPU和FPGA。因此,它可以帮助开发人员在任何英特尔硬件上加速AI任务(以及 其他任务)。

另一方面,硬件是一个弱(ruò)点,至少(shǎo)与 Nvidia 和 AMD 相 比是如此。英特尔的 Gaudi AI 加速器(qì)是英(yīng)特 尔2019 年收购 AI 硬件初创(chuàng)公司(sī) Habana Labs的(de)成果,取(qǔ)得(dé)了(le)进展,最新(xīn)的Gaudi 3 的性能可与 Nvidia 的 H100 相(xiāng)媲(pì)美。

然而,目前尚不清楚英特尔(ěr)的下一代硬件版本究竟会是(shì)什么样子,这(zhè)引起了(le)一些担忧。Moor Insights & Strategy 创始(shǐ)人帕特里克·穆(mù)尔黑德 (Patrick Moorhead ) 表(biǎo)示(shì):“Gaudi 3 非常强大。”但他表示,截至 2024 年 7 月,“还没有 Gaudi 4”。

相(xiāng)反,英特尔计划转向一款雄心勃(bó)勃的芯片,代(dài)号为(wèi) Falcon Shores,该芯片采用基于(yú)区块(kuài)的(de)模(mó)块化架构,结合了(le)英特(tè)尔x 86 CPU 内核和 Xe GPU 内核;后者是英特(tè)尔最(zuì)近进军图形硬(yìng)件领域(yù)的一部(bù)分。不(bù)过,英特尔(ěr)尚未透露有关 Falcon Shores 架(jià)构(gòu)和性能的详细信息,预计(jì)要到 2025 年底才会发布。

Cerebras:越大越好

优点:晶圆级芯片每颗(kē)芯片(piàn)提供强大的性能和内(nèi)存(cún)

缺点:由于尺(chǐ)寸和成(chéng)本,应用领(lǐng)域有限

可以(yǐ)肯定的是,AMD和Intel是(shì)Nvidia最具可(kě)信度(dù)的(de)挑战者。它们在设计成(chéng)功芯(xīn)片和构建编程平(píng)台方面有着悠久的历史。但在(zài)规 模较小、未(wèi)经验证的玩家中,有一个脱颖 而出(chū):Cerebras。

这家公司专注于(yú)超级计算机的AI,于2019年推出了Wafer Scale Engine,这是一块 巨(jù)大的(de)晶圆(yuán)级硅片(piàn),拥有1.2万亿个晶体管。最新版本Wafer Scale Engine 3将(jiāng)这一数字提升到了4万亿个晶体管。作(zuò)为比较,Nvidia最(zuì)新最 大的GPU——B200,"仅"拥有2080亿个晶体管。Cerebras围绕这(zhè)个晶圆级怪(guài)物构建的计算机(jī)CS-3,正是Condor Galaxy 3的 核心,该超级计算机将由64台CS-3组成,处理高达8 exaflop的AI计算任务。G42,一(yī)家总部(bù)位于阿布扎(zhā)比的企业集团,计划使用该系统训练未来的前沿大型(xíng)语言模型。

“这有点偏向于特定的应用,而不是通用型的,”Bernstein Research的高级分析师Stacy Rasgon说。“并(bìng)不是每个人 都会购买这些计算机。但他们有一些客户,比如美国国防部和Condor Galaxy 3超级(jí)计算机(jī)。”

Cerebras的WSC-3在大多数情况下不会挑战Nvidia、AMD或Intel的硬件(jiàn);它太大、太昂贵(guì)、太专业化了。但(dàn)它可能在超级(jí)计算(suàn)机领域为Cerebras提供独特优势,因为没有其他公司设(shè)计晶圆规模的芯片。

SambaNova:

为Transformer而生的变(biàn)形架构

优(yōu)点:可配置的架构有助于开发人(rén)员优化AI模型的(de)效率

缺点(diǎn):硬件还需要证明对大众市场的相关性

成(chéng)立于2017年的SambaNova是另一家利(lì)用非传统芯片(piàn)架构解决(jué)AI训练问题的芯片设计公司。其旗舰产品SN40L采用公(gōng)司所谓的(de)“可重(zhòng)构数据流架构”,由(yóu)存储器和计(jì)算资源的模块组(zǔ)成(chéng)。这些(xiē)模块之间的连接可(kě)以根据需要(yào)进行动态调整,以促进(jìn)大型神经网络的数据快速传输。

Prendki认为,这种可定制的硅片(piàn)在训练大型语言(yán)模型时(shí)可能(néng)会非常有用,因为(wèi)AI开发人员可以根(gēn)据 不同的模型来优化硬件。没有其 他公司提供这(zhè)样的功能。

SambaNova还通过其配套的(de)软件栈SambaFlow取得了(le)成功。Moorhead说:“在基础设施层面,SambaNova的平(píng)台表现出色。”SambaFlow可以分析机器学习模型(xíng),并帮助 开发人员(yuán)重新配置SN40L以加(jiā)速模型的性能。虽然SambaNova还有很多要证明的地方,但其客户包括软银和模拟器件(jiàn)公司。

Groq:专注于功能(néng)

优点:出色的AI推理性能

缺点(diǎn):目前仅限于推理应用(yòng)

另一家在AI硬件上有独特创新的公司是Groq。Groq的策略是紧密结合内存和计算资源,以加速大型语言模型对提示的响应速度。

“他们的架构非常注重内存。内(nèi)存与处理器紧(jǐn)密耦合。你需要更多的节点,但每个token的价格和性能简直疯狂,”Moorhead说道。“token”是模型处理(lǐ)的基本数据单位;在大型语言模型中,通 常是一个词或部分词。更令人印象深刻的是(shì),Groq的芯片——语言(yán)处理单(dān)元推理引擎——采用的是GlobalFoundries的14纳米技术,而这已经是比用于制 造Nvidia H100的台积电技术落后几代的工艺。

2023年7月,Groq展示了其芯片的推理(lǐ)速度,运行Meta的Llama 3 80亿参数大型语言模型时,每秒超过(guò)1250个token。这一表(biǎo)现甚至超过了SambaNova的(de)演(yǎn)示,其推理速度超过每秒1000个token。

高通(tōng):功耗至上

优点(diǎn):广泛的AI功能芯片组合

缺点:缺少用(yòng)于AI训练的大型前沿芯片

高通以Snapdragon系统级芯片闻名,这款芯(xīn)片为诸如(rú)三星Galaxy S24 Ultra和(hé)OnePlus 12等流行的安卓手机提供动力。高通是一家(jiā)可以与AMD、Intel和Nvidia抗衡的巨头。

但与这些(xiē)竞争对手不同(tóng),高通将其AI战略更多地集中在特定任务的AI推理和能效上。AI基准组织MLCommons的创始成员、AI优化公司Krai的CEO Anton Lokhmotov表(biǎo)示,高通在关键的(de)基(jī)准测试中显著(zhù)提高了其Qualcomm Cloud AI 100服务器的(de)推理能力(lì)。在ResNet-50图像分类基准测试(shì)中,这些服务(wù)器的性能(néng)从180样本/瓦提升(shēng)至240样本/瓦,使用的硬(yìng)件基本保持不变。

在设备上处(chù)理本地AI任务而无需连接到云端的(de)高(gāo)效AI推理也是一(yī)个优势,Lokhmotov说。一个典型例(lì)子(zi)是微软(ruǎn)的Copilot Plus PC。微软和高通与戴尔、惠普和联想(xiǎng)等笔记本制造商合作(zuò),首批配备高通芯片的Copilot Plus笔记本电脑(nǎo)已于7月上市。高(gāo)通还在智能手机和(hé)平板电(diàn)脑市场占据强大地位,其Snapdragon芯片为三星、OnePlus和摩托罗(luó)拉等 设备提供动力(lì)。

高通还是(shì)AI驾驶辅助和自动驾驶平台的主要玩(wán)家。2024年初,现代 旗下(xià)的Mobius部门(mén)宣(xuān)布与高通(tōng)合作,使用Snapdragon Ride平台——该平台是Nvidia Drive平(píng)台的竞争对手——用于高级驾驶辅助系统。

超大规模数(shù)据中心(xīn):

为(wèi)功耗定(dìng)制智能

优点:垂直整合有助于设计

缺(quē)点:超(chāo)大规(guī)模数据中心可能会优先满足自身(shēn)需求(qiú)和(hé)使用

超大(dà)规模数(shù)据中心(Hyperscalers)——那些部署硬件规模庞大的云计算巨头——与“大科技”同(tóng)义。亚马逊、苹果、谷歌、Meta和微软都 希望尽(jǐn)快部署AI硬(yìng)件,既(jì)用于自身使用,也为(wèi)其云计算客户服务。为加速(sù)这一进程,他们都在内部设计芯片。

谷(gǔ)歌比竞争对(duì)手更早投资于AI处理(lǐ)器(qì):该公司于(yú)2015年首次(cì)宣布的Tensor Processing Units(TPU)如(rú)今支撑着其大部分AI基础设施。第六(liù)代TPU Trillium于2023年5月宣布(bù),并成为(wèi)谷(gǔ)歌AI超级计算机的一部分,这是一项针对公司处理AI任务的云服务。

Prendki说,谷歌的(de)TPU为公(gōng)司在追求AI机会时提供了(le)优势。“我很幸运,不用费心考虑芯片从哪里(lǐ)来,”她说。然而,TPU的使用并没有完全消除(chú)供应紧张,因为谷歌的不同(tóng)部 门仍然(rán)需要共享(xiǎng)资源。

谷歌已经将英伟达拉下马,芯片公司出招不再孤单。亚马逊拥有两款自研芯片(piàn),Trainium用于训练,Inferentia用(yòng)于推理。微软拥有Maia,Meta拥有MTIA,而据传苹果也在开发处理其云基础设(shè)施中AI任务的硅片。

这些超大规模数据中心的芯片并未直接与Nvidia竞争,因(yīn)为他们(men)不向客户销(xiāo)售硬件,但他们确(què)实通过云服务(wù)提供硬(yìng)件访(fǎng)问,比如谷歌的AI超级计算机、亚马逊的AWS和(hé)微软的(de)Azure。在许多情况下,超大规模数据(jù)中心提供的服务既运(yùn)行在自(zì)家硬件(jiàn)上,也(yě)运行(xíng)在Nvidia、AMD和Intel的硬件(jiàn)上;而微软则被认为是Nvidia的最大客户。

中国芯片:不(bù)确(què)定的未来

另一类竞争(zhēng)者的诞生并非源自技术需求,而是地缘政治现实(shí)。美国对AI硬(yìng)件出口的 限制阻止了(le)芯片制造商向中国公司出售最新、最强大的芯片。作为(wèi)回应,中国公司正在设计自有AI芯片。

国内(nèi)科技巨头所推出(chū)的加速器是Nvidia H100的替代品,然而,代工厂的产量(liàng)问题据称限制了供应,此外,巨头还在销售“AI一(yī)体机”解决(jué)方案,旨在为中(zhōng)国企业提供本地(dì)化的AI基础设施。

为了绕过(guò)美国的出口管制规定,中国行业可能会转向替代技术(shù)。例如,中国研究(jiū)人员在(zài)光(guāng)子芯片方面(miàn)取得(dé)了进展,这种芯片利用光而不是电荷来进行计 算。“光束的优势在于你可以让两束光交叉,”Prendki说道。“因此(cǐ),它(tā)减少了在硅芯 片(piàn)上通常遇到的限制,不能交叉路径。你可以使电路更复杂,且成本更低。”虽然(rán)光子芯片仍(réng)处于(yú)非常早(zǎo)期的阶段,但中国的投(tóu)资可能会(huì)加速其发(fā)展。

更多空间(jiān)

显然,Nvidia 并不缺乏竞争对(duì)手。同样明显的是,在(zài)未来几年内,没有一家竞争对(duì)手(shǒu)能够挑战 Nvidia,更(gèng)别说击败它了。本文采访的所有人都同意,Nvidia 目前占据着(zhe)无与伦(lún)比的主导地(dì)位(wèi),但这并不意味着它将永远排挤竞(jìng)争对手。

“听着,市(shì)场(chǎng)需要选择,”Moorhead 说。“如果到 2026 年,我无法想象 AMD 的(de)市场份额(é)会低于 10% 或 20%,英(yīng)特尔也是如此。通常,市场喜欢三家公司,而我(wǒ)们(men)有三个合理的竞争对手。”Kimball 表示,与此同时,超大规模公司(sī)可能会挑战 Nvidia,因为他们将更多的 AI 服务转(zhuǎn)移到内部(bù)硬件上。

然后还有不确(què)定因(yīn)素。Cerebras、SambaNova 和(hé) Groq 是众多初创公司(sī)中的佼佼者,它们希望通过新颖的解决方案 蚕食 Nvidia 的市(shì)场份额(é)。此外,还有数十(shí)家(jiā)其他公司加入其中,包括 d-Matrix、Untether、Tenstorrent和Etched,它们 都 寄(jì)希望(wàng)于针(zhēn)对生成式 AI 优化的新芯片(piàn)架构。这些初创(chuàng)公 司中可能(néng)有许多会失败,但也许(xǔ)下(xià)一个(gè) Nvidia 会从(cóng)幸存者中脱颖而出。

https://spectrum.ieee.org/nvidia-ai

专注半(bàn)导体领域更多原创内容

关注全球半导体产业动向与趋势(shì)

*免责声明:本文由作者原(yuán)创。文章内容系作者个人观点,半(bàn)导体行业观(guān)察转载仅为了(le)传(chuán)达一种不同的观点,不代表半导(dǎo)体行业观察(chá)对该观点赞(zàn)同或(huò)支持(chí),如果有任何异议,欢迎联系半导体行业观(guān)察。

今天是《半导体行业(yè)观察》为您(nín)分(fēn)享的(de)第3888内容,欢迎关注。

『半(bàn)导体第一垂直媒体』

实时 专(zhuān)业 原创 深度

公众号ID:icbank

喜(xǐ)欢我们的内容(róng)就点“在看”分享 给小伙伴哦

未经允许不得转载:橘子百科-橘子都知道 将英伟达拉下马,芯片公司出招

评论

5+2=