橘子百科-橘子都知道橘子百科-橘子都知道

中国电信天翼云完 成首个国产GPU万卡训练!4000亿参数大模型领先

中国电信天翼云完 成首个国产GPU万卡训练!4000亿参数大模型领先

快科技9月20日消息,中国(guó)电信宣布,天翼云自研的(de)国内首个单集群(qún)万卡国产(chǎn)化全功能预(yù)训(xùn)练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡(kǎ)规模Llama3.1-405B大(dà)模型训(xùn)练。

Llama3.1-405B作为4000亿参数(shù)规模的大(dà)模型,在息壤训推服务平台的支持下,经过多轮优化,MFU(算力利用率)达到国内(nèi)领先水平。中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先ont>

另外,700亿参数大(dà)模型Llama2-70B在万卡规模(mó)下完成训练,MFU也处于业界领(lǐng)先水平。

据悉,天翼云的这套平台具备万卡纳管和并(bìng)行训(xùn)练能力,基于HPFS PB级并行文件系(xì)统、CTCCL RDMA高速卡间互联(lián)技术、Gang策略与(yǔ)拓扑感知的智算容器调度,以及慧(huì)聚自研分布式训练框架TeleFormers和平台,实现(xiàn)万(wàn)卡资源(yuán)纳管(guǎn)、万卡规模(mó)并行训练(liàn)。

其中,天翼(yì)云自研了AI框架Teleformers,对算子、通信、数据处理进行优化,还有并行策略的自适应调整,显著提升(shēng)了大模(mó)型训练的训练效率。

在目前业内最大(dà)参数规模开源单(dān)体(tǐ)稠(chóu)密模型Llama3.1-405B大模型训(xùn)练(liàn)测试中,性(xìng)能表(biǎo)现达到国(guó)际同等 水(shuǐ)平。

算子优化方(fāng)面,针对昇腾(téng)芯(xīn)片的特(tè)性,在网络结构层 面对(duì)诸(zhū)多高频算子进行了定制化改造,构建(jiàn)了高性能算子集。

比如matmul算子(zi),利用昇腾芯片的计算亲(qīn)和性,将 算子输入padding到特定的维度,大幅提升执行效率(lǜ),从而明显缩短了训练时间。

数据处理和(hé)流水线方面,通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集进(jìn)行了二次分片并提供(gōng)就近缓存(cún)能力,减少GPU空闲时间。

自适应并(bìng)行策略方 面,基于对3D并(bìng)行中各类计算单元的分(fēn)析,天翼云设计了多种(zhǒng)自适应的3D并行(xíng)策略,依据模型规模和硬件资(zī)源的不同可以自动选(xuǎn)择合适的并(bìng)行 策略,充分利用计算(suàn)资源和显存资源,缩短模型训练中每轮的迭代时间。

天翼云国产化万卡智算中心还有多项技(jì)术突(tū)破——

天翼云息壤训练服务平台基于软硬件(jiàn)协(xié)同设计,提(tí)供全链路故障监控、基 于(yú)主动感知的全链路故障监控和定位、CheckPoint秒级(jí)多级高(gāo)速存储系(xì)统、容错优雅调度和模(mó)型编译(yì)缓存等系统,将万卡规模故障(zhàng)发现和解决问(wèn)题缩短到业(yè)内前沿的分(fēn)钟级,大幅(fú)提升有效训练时间。

自(zì)动断点续训系(xì)统:

建设丰 富的故(gù)障(zhàng)库(kù),基于此构建了多维故障感知系统,能(néng)够快速主动感知相关故障事件(jiàn)和潜在的故障风险;

通过(guò)精准的(de)故障隔离和调度手段,快速隔(gé)离处理故障节(jié)点并重 新调度新节点(diǎn)接手任务继续训练,实现无人干预式断点续训(xùn),有(yǒu)效减少(shǎo)GPU闲置时间 。

高速多级CheckPoint系统(tǒng):

天翼云设(shè)计(jì)基于多级存(cún)储(chǔ)的高速CheckPoint系统 ,通过两阶段异步(bù)存储,实现高速写(xiě)入内存,并最(zuì)终异步写入远(yuǎn)端系统;

针(zhēn)对断点(diǎn)恢复场景,提供进程级故障原地快恢和远端(duān)快速恢复能力,最(zuì)终(zhōng)实现对CheckPoint的(de)秒级读写能力,大幅(fú)降(jiàng)低断点(diǎn)恢复时间、提升训练(liàn)效率。

全(quán)链(liàn)路检测工具(jù)链:

天(tiān)翼云开发了 全链(liàn)路故障监控工(gōng)具链,能够基(jī)于主动感知(zhī)实现全链路的故障监控(kòng)和定位。

该(gāi)工具链可以主动发现设备故障,并降低 训练中断的频次,确保(bǎo)训练过程的连续性(xìng)和稳定性。

【本文结束】如需转载请务必注明出处:快科技

责(zé)任编辑(jí):上(shàng)方文Q

未经允许不得转载:橘子百科-橘子都知道 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

评论

5+2=