中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先
快科技9月20日消息(xī),中国电信宣布,天(tiān)翼云自研(yán)的国内首个单集群万卡国产化全功能预训练(liàn)云服务平台,已经 正式发布上(shàng)线(xiàn),基于华为昇腾 芯片,并完(wán)成了万卡规模Llama3.1-405B大模型训练。
Llama3.1-405B作为4000亿参数规模的大模(mó)型,在息壤训推(tuī)服务平台的支持下(xià),经过多轮优(yōu)化,MFU(算力利用率(lǜ))达到国内 领先水(shuǐ)平。
另外,700亿参数大模型Llama2-70B在万卡规模下(xià)完成训练,MFU也 处于业界领先水平。
据(jù)悉(xī),天翼云的这套(tào)平(píng)台 具备万卡纳管和并行训练能力(lì),基于HPFS PB级并行文件系统(tǒng)、CTCCL RDMA高速卡间互联(lián)技术、Gang策略(lüè)与拓扑感知的智算容 器(qì)调度,以及(jí)慧聚自研分布式训练框架TeleFormers和平台,实现万(wàn)卡资(zī)源纳管、万(wàn)卡规模并行(xíng)训(xùn)练。
其中,天翼云自研了AI框(kuāng)架Teleformers,对算子、通信、数据处理进行优化(huà),还有并行策略的自 适应调整,显著提升(shēng)了(le)大模型训练的训练效率。
在目前业内(nèi)最大参数规模开(kāi)源单体稠密模型(xíng)Llama3.1-405B大模(mó)型训练测试中,性能(néng)表现达到国际同等水(shuǐ)平。
算子(zi)优(yōu)化方面(miàn),针对昇腾芯(xīn)片(piàn)的特性,在网络(luò)结构层面(miàn)对诸多高频算子进行了定制化改造,构建了高性能(néng)算(suàn)子集。
比(bǐ)如matmul算子(zi),利用昇腾 芯片的计算亲和性,将(jiāng)算子输入padding到特定(dìng)的(de)维度(dù),大(dà)幅提升执行效率,从而明显(xiǎn)缩短了(le)训练时间。
数据处理和流水线方面,通过设置合理的数据分片策略和HPFS条带化(huà)优化,结合数据预取与数据下沉技术,大幅提升数(shù)据流的处理效(xiào)率(lǜ)和稳定性;对预处理后的数据集(jí)进行了二次分片(piàn)并提供就近缓存能力,减少GPU空闲时间(jiān)。
自适应并行策(cè)略(lüè)方面,基于对3D并(bìng)行中各类计算单元的分(fēn)析,天翼云设计(jì)了多种自(zì)适应的3D并行策略,依据模型规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计(jì)算资源和显存资源,缩短模型训练中每轮的迭代时间中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先。
天翼云国(guó)产化(huà)万卡智算中心还有多项技术突(tū)破(pò)——
天翼云息壤训练服务平台基于软硬件协同设计,提供全链(liàn)路故障监控、基于主动感(gǎn)知的全链路故障监控和定位、CheckPoint秒级多级高速存储系(xì)统、容错优雅调度和模型编译缓存等系统,将万(wàn)卡规模故障发现和解决问题缩短到业内前(qián)沿的分(fēn)钟级,大幅提升有效训练时间。
自动断点续训系统:中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先t>
建设丰富的故(gù)障库,基(jī)于此构建了多维故障感知(zhī)系统,能够(gòu)快速主(zhǔ)动感知(zhī)相关(guān)故障事件和潜在的故(gù)障风(fēng)险;
通过精准的故障隔离和调(diào)度手段,快速隔(gé)离处理(lǐ)故障节点并重(zhòng)新(xīn)调度新节点接手任务继续(xù)训练,实现无人干预(yù)式断点续训,有效减少GPU闲置时间。
高速多级CheckPoint系统(tǒng):
天翼云(yún)设计基于多级存储的高速CheckPoint系统,通过两阶段异步(bù)存储,实现高速写入(rù)内存,并最终 异步写入远端系统;
针对断点恢复场景,提供进程级故(gù)障原地快恢和(hé)远端快速恢复能(néng)力,最终实现对CheckPoint的(de)秒级读写能力,大幅降低断点恢复时间、提升训练(liàn)效率。
全链路(lù)检测工具链:
天翼云开发了全(quán)链路故障(zhàng)监(jiān)控工具链,能够(gòu)基于(yú)主动感知实现(xiàn)全链路的故障监控和定(dìng)位。
该工具链可以主动发现(xiàn)设备故障(zhàng),并降低训练(liàn)中(zhōng)断的频次(cì),确保训练过程的连续性和(hé)稳定性。
【本文结束】如需转载请务必注(zhù)明出(chū)处:快科技
责任编辑:上方文Q
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了