橘子百科-橘子都知道橘子百科-橘子都知道

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数 大模型

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数 大模型

快科技9月20日消息(xī),中国电信宣布(bù),天(tiān)翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇(shēng)腾芯片(piàn),并完成了万卡规模(mó)Llama3.1-405B大模(mó)型训练。

Llama3.1-405B作为4000亿参数规(guī)模(mó)的大(dà)模型,在息壤训推服务平台的(de)支持(chí)下(xià),经过(guò)多轮优化(huà),MFU(算力利用率)达到国(guó)内领先水平(píng)。

另外,700亿参数大模型Llama2-70B在万(wàn)卡规模下完成训(xùn)练,MFU也处于业(yè)界(jiè)领先水平。

据悉,天翼云的这套平台具备万卡纳管和并行训练能力,基于HPFS PB级并行(xíng)文件系统、CTCCL RDMA高(gāo)速卡间互联技术、Gang策略与拓 扑感知的(de)智算容(róng)器调度,以及慧聚自研分 布式训练框架TeleFormers和(hé)平台,实现万(wàn)卡资源(yuán)纳管(guǎn)、万卡规(guī)模并(bìng)行训练(liàn)。

其中,天翼云(yún)自研(yán)了(le)AI框架Teleformers,对算(suàn)子、通信、数据处理进行优化,还有并行策略(lüè)的自(zì)适应调整,显著提升了大模(mó)型训(xùn)练的训练效率。

在目前业中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型内最大参数规模开源单体稠密模型Llama3.1-405B大模型训练(liàn)测试(shì)中,性能表现达到国际同等水平。

算子(zi)优化方面,针对昇腾芯(xīn)片的特性,在网络结构层面对诸多高频算 子进行了定(dìng)制化改造,构建了(le)高性(xìng)能算子集。

比如matmul算子,利用昇腾芯片的计算亲和性,将算子输入padding到(dào)特定(dìng)的维度(dù),大幅提升执行(xíng)效率,从而明显缩短了训练时(shí)间。

数据处理和流水线方面,通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取(qǔ)与数据下沉技术,大(dà)幅提(tí)升数据流的处理效(xiào)率(lǜ)和稳定性;对预处理后的数(shù)据(jù)集(jí)进行了二(èr)次分片 并提供就近缓(huǎn)存(cún)能力 ,减少(shǎo)GPU空闲时间。

自适应并行策略方面,基(jī)于对(duì)3D并行中各类(lèi)计算单元的分析,天翼云设计了多种自适应的3D并行策略,依据模型(xíng)规模和硬件资源的不同 可以自动选择(zé)合适(shì)的并行策略,充分利用计算资源和(hé)显存资源,缩短(duǎn)模型训(xùn)练中每轮的迭代时间(jiān)。

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型"font-L">天翼云(yún)国产化万卡智算中(zhōng)心(xīn)还有多项(xiàng)技术突破——

天翼云息壤训练服务平台基于软硬件协(xié)同(tóng)设计(jì),提供全链(liàn)路故障监(jiān)控、基于主动(dòng)感知的全链路(lù)故障监控和定位、CheckPoint秒级多级高速存(cún)储系统、容错优 雅调(diào)度和模型编译缓存等系 统,将万卡规模(mó)故障发现和解 决问题缩短(duǎn)到业内前沿的分钟级,大幅提升有效(xiào)训练时间。

自动断点续训系 统 :

建设丰富的故障(zhàng)库,基(jī)于(yú)此构(gòu)建了多维故障感知系统,能够快速主(zhǔ)动感知相关(guān)故障事件和潜在(zài)的故障风险;

通过精准的故障隔离和调度手段(duàn),快速隔离处理故障节点并重(zhòng)新调度新节(jié)点接(jiē)手 任(rèn)务继续训练,实现无人干预式断点续训,有效(xiào)减少GPU闲置时间(jiān)。

高速多级CheckPoint系(xì)统:

天翼云设计基于多级存储的高速CheckPoint系统(tǒng),通过两(liǎng)阶(jiē)段异步存储,实现高速写入(rù)内存,并最终异步写入远端系统;

针对 断点恢复 场景,提供进程级故(gù)障原地快恢(huī)和远端快速恢复能力,最(zuì)终(zhōng)实现对CheckPoint的(de)秒级读写能(néng)力,大幅降低断点恢复时间、提升训(xùn)练效率。

全链路检测工具链:

天翼云开发了全链路故(gù)障监控工(gōng)具链,能够基于主(zhǔ)动感知(zhī)实现全链路的故障监控和定位。

该工具链可 以主动发现设(shè)备故障,并降低(dī)训练(liàn)中断的频次,确保训练过程的(de)连续性和稳定性。

【本文结束】如需转载请务必注(zhù)明出(chū)处(chù):快(kuài)科技

责任编辑:上方文Q

未经允许不得转载:橘子百科-橘子都知道 中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型

评论

5+2=