橘子百科-橘子都知道橘子百科-橘子都知道

中国 电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

中国 电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

快科技9月20日消息,中(zhōng)国电信(xìn)宣布,天翼云自研的(de)国(guó)内(nèi)首个单集群万卡国产化全功(gōng)能预训练云服(fú)务(wù)平台,已经正式发布上(shàng)线,基于华为昇腾芯片,并 完成了万(wàn)卡规模Llama3.1-405B大模(mó)型训练。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先ont cms-style="font-L strong-Bold color0">Llama3.1-405B作为4000亿参数规模的大模(mó)型(xíng),在息壤训推中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先服务平台的(de)支持下,经过多(duō)轮优化,MFU(算力(lì)利用率)达到国内(nèi)领先水平。

另外,700亿参数大模型Llama2-70B在(zài)万卡规模下完(wán)成训练(liàn),MFU也处于业界领先水平。

据悉,天翼云的这套平台具备万卡纳(nà)管和并行(xíng)训练能力,基于(yú)HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算容器调度,以及慧聚自研分布式 训练框架TeleFormers和(hé)平(píng)台,实现万(wàn)卡资源纳管、万(wàn)卡规模并行训练。

其中,天翼云自研(yán)了AI框架Teleformers,对算(suàn)子、通信、数据处理进行优化,还有并(bìng)行策略的自适应(yīng)调整,显著提升(shēng)了(le)大模型训练的训练效率(lǜ)。

在目前业(yè)内最大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。<中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先/p>

算子优化方面,针对昇腾芯片的特性,在(zài)网络结构层面对 诸多高频算子进行了定制化改造,构建了(le)高性能算子集。

比如matmul算子,利(lì)用昇(shēng)腾芯片的计(jì)算亲和性,将(jiāng)算(suàn)子 输入padding到特定的维度(dù),大幅提升执行效率,从而明显缩短了训练时间。

数据处理和流水线(xiàn)方(fāng)面(miàn),通 过 设置合理的数据分片策略和(hé)HPFS条带化(huà)优化,结合数据预取与数据下沉技术,大(dà)幅提(tí)升数据(jù)流的处理(lǐ)效率和稳定性;对预(yù)处理后的数(shù)据集进行了二次分(fēn)片并提供就近(jìn)缓存能力,减(jiǎn)少GPU空闲(xián)时间。

自适应(yīng)并行策略方面,基于(yú)对3D并(bìng)行中各类计算单元(yuán)的分析,天翼云设计了(le)多(duō)种自适应的3D并行策略(lüè),依据模型规模和硬件资源的不同可以(yǐ)自动(dòng)选择(zé)合适的并行策略,充分利(lì)用计算资源和显存资源,缩短模型训(xùn)练(liàn)中每轮的迭代时间。

天翼云国产化万卡智(zhì)算中心还有多项技术突破——

天翼云息壤训练服务平台基于软硬件协同(tóng)设计,提供全链路(lù)故障(zhàng)监控、基(jī)于主动感知的全链路(lù)故障监控和定(dìng)位、CheckPoint秒 级多级(jí)高速存储系统、容错优(yōu)雅调度和模型编译缓(huǎn)存等系统(tǒng),将万卡规模故障发(fā)现和解决问题缩短到业内前沿的分(fēn)钟级(jí),大(dà)幅提升有效训练(liàn)时间。

自动断点续训系统:

建设丰富的故障(zhàng)库,基于此构建了(le)多维(wéi)故障感知系统,能(néng)够快速主动感知相关(guān)故障事件和潜在的故障风险;

通过精准的故障隔离和调度(dù)手段,快速隔离处理故障节点并重新调度新节点(diǎn)接手任务继续训(xùn)练,实现无(wú)人(rén)干预式(shì)断点(diǎn)续训,有效减少GPU闲置时间。

高速多级CheckPoint系统(tǒng):

天翼云设(shè)计基于多级存储的高 速CheckPoint系统,通过两阶段异步存储,实现高速写入内存,并最终异(yì)步写入(rù)远端系统;

针对断点恢复场景,提(tí)供进程级故障原地快(kuài)恢和远端快速恢复能力,最终实现(xiàn)对CheckPoint的秒级(jí)读写能力,大幅降低断点恢(huī)复时间、提升训练(liàn)效率。

全链路检测工具链:

天翼云开发了全链路故(gù)障(zhàng)监控工具链,能够基于(yú)主动感知实现全链路的故障监控和定位。

该工具链可以主(zhǔ)动发现设备故障,并降低训(xùn)练中(zhōng)断的频次,确保训练过程的连续性(xìng)和稳定性。

【本文结束】如需转载请务必注明出处:快科技

责任编(biān)辑(jí):上方(fāng)文(wén)Q

未经允许不得转载:橘子百科-橘子都知道 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

评论

5+2=