橘子百科-橘子都知道橘子百科-橘子都知道

中国 电信天翼云完成首个国 产GPU万卡训练!4000亿参 数大模型领先

中国 电信天翼云完成首个国 产GPU万卡训练!4000亿参 数大模型领先

快科技9月20日消息,中国电信(xìn)宣布(bù),天翼云(yún)自研的国(guó)内首个单 集群万卡国产化全功(gōng)能预训练(liàn)云服务平台,已经正式(shì)发布上线,基(jī)于华为昇(shēng)腾芯片(piàn),并完成(chéng)了万卡规模Llama3.1-405B大(dà)模型训练。

Llama3.1-405B作为4000亿参数规(guī)模(mó)的(de)大模型,在息(xī)壤训推(tuī)服务平台(tái)的支持下,经过多(duō)轮优化,MFU(算力利用率)达到国内领先水平。

另外,700亿参(cān)数(shù)大(dà)模型Llama2-70B在万(wàn)卡规模下完成训练,MFU也处于业界领(lǐng)先水平。

据悉,天翼云的这套平台 具备万卡(kǎ)纳管和(hé)并行训练(liàn)能力,基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间(jiān)互联技术、Gang策略与拓扑感知的智算容器调度,以及慧聚自研分布(bù)式训练框架TeleFormers和(hé)平台,实(shí)现万卡资源纳管、万卡规模并(bìng)行训(xùn)练。

其中,天(tiān)翼 云(yún)自研了AI框架Teleformers,对算子、通信(xìn)、数据处理进行优化,还有并行策略的自适应调整,显著提升了大 模型训练的训练(liàn)效率。

在目前业内最(zuì)大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。

算子优化(huà)方面,针对昇腾芯(xīn)片的特性,在网络结构层面对诸多高频算(suàn)子进行了定制化改造,构建了高性能算子集。

比如(rú)matmul算子,利用昇腾芯片的计算亲和性(xìng),将算子输入padding到特(tè)定的维度,大幅(fú)提升(shēng)执(zhí)行效率,从而明(míng)显缩短了训(xùn)练时间。

数据(jù)处理和流水线方(fāng)面(miàn),通过设(shè)置合理的(de)数据分(fēn)片策略和HPFS条(tiáo)带化优化,结合数据预取与(yǔ)数据下沉技(jì)术,大 幅提升数据(jù)流的处理效率(lǜ)和(hé)稳定性;对预处理(lǐ)后的数据集进行了二次(cì)分片并提供就近缓存(cún)能力,减少GPU空闲时(shí)间。

自适应并行策(cè)略方面,基于对3D并行中各类计(jì)算(suàn)单元的分析,天翼云设计了多种自适应的3D并行策略(lüè),依据模型规模和硬件资源的不同可以(yǐ)自动选择合适的并行策略,充分利用计算资源和显存资(zī)源,缩短模型训练中每轮的迭代时间。

天翼云国产(chǎn)化万卡智(zhì)算中心(xīn)还有多项技术突破(pò)——

天翼(yì)云息壤训(xùn)练服务平台基于软硬件协同设计,提供全链路故(gù)障监控、基于主动感知的(de)全链路故障监控和定位、CheckPoint秒级多级高(gāo)速存储系统、容错优(yōu)雅(yǎ)调(diào)度和模型编译缓存等系统,将万(wàn)卡规模故障(zhàng)发现和解决问题缩短到业内前沿的分钟级,大幅提升(shēng)有(yǒu)效训练时间。

自动断点续训系统:

建设丰富的故障库,基于(yú)此构建了多(duō)维故障感知系统,能够 快速主动感知相关故障事件和潜在的故障风(fēng)险;

通过精(jīng)准的故障隔离和调度手段(duàn),快速隔离处理故障(zhàng)节点并重新调度新节点接手任务继续训练(liàn),实现无人干(gàn)预(yù)式断点续训,有效减少GPU闲置时间。

高速多级CheckPoint系统:

天翼云设(shè)计基于多(duō)级存储的高速CheckPoint系统,通 过(guò)两阶段异步存储,实现(xiàn)高速写入内存,并最终异步写入远端 系统;

针对断点恢(huī)复场景,提供进程级故障原地快恢和远端快(kuài)速(sù)恢复能力(lì),最终实现(xiàn)对CheckPoint的秒级(jí)读写能力,大幅降低断 点中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先恢复时间、提(tí)升训(xùn)练效率。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先t cms-style="font-L strong-Bold">全链路检(jiǎn)测工具链:

天翼云开发了(le)全链路故障监控(kòng)工具链,能够基于主动(dòng)感知实现全链路的故(gù)障监控和(hé)定位。

该工具链可(kě)以主动(dòng)发现设备故障,并降低训练中断的(de)频次,确保训练过程的连(lián)续性和稳定性。

【本文结束】如需转载请务必注明出处:快(kuài)科技

责任编辑(jí):上方文Q

未经允许不得转载:橘子百科-橘子都知道 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

评论

5+2=