本發(fā)明涉及人工智能訓(xùn)練,屬于一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法。
背景技術(shù):
1、模型訓(xùn)練傳統(tǒng)方式通常使用靜態(tài)資源分配,但是該分配方法存在資源閑置問題,kubernetes等容器編排系統(tǒng)雖然有調(diào)度系統(tǒng),但是無法實(shí)時(shí)響應(yīng)訓(xùn)練節(jié)點(diǎn)負(fù)載波動(dòng),存在很大的局限性,另外節(jié)點(diǎn)如果出現(xiàn)故障,導(dǎo)致訓(xùn)練中斷,一般需要手動(dòng)處理才能恢復(fù)訓(xùn)練,而且現(xiàn)在大多存在很多不同型號(hào)的gpu,每種gpu的性能是不一樣的,如何讓多種不同類型的gpu統(tǒng)一調(diào)度訓(xùn)練,也是一個(gè)急需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述技術(shù)問題,本發(fā)明提供了一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、提供一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,包括api網(wǎng)關(guān)、資源監(jiān)控模塊、動(dòng)態(tài)調(diào)度模塊、節(jié)點(diǎn)訓(xùn)練模塊以及結(jié)果保存和容錯(cuò)處理模塊;
4、api網(wǎng)關(guān)接收客戶端訓(xùn)練請求,并將信息傳遞到動(dòng)態(tài)調(diào)度模塊;
5、動(dòng)態(tài)調(diào)度模塊進(jìn)行模型分片,將模型分片交給對(duì)應(yīng)的訓(xùn)練節(jié)點(diǎn),分配訓(xùn)練任務(wù)到節(jié)點(diǎn)訓(xùn)練模塊;
6、節(jié)點(diǎn)訓(xùn)練模塊執(zhí)行具體的訓(xùn)練任務(wù),并回傳單位時(shí)間內(nèi)處理的模型分片數(shù)量到動(dòng)態(tài)調(diào)度模塊,動(dòng)態(tài)調(diào)度模塊根據(jù)回傳數(shù)據(jù)動(dòng)態(tài)調(diào)整分片策略;
7、資源監(jiān)控模塊實(shí)時(shí)采集計(jì)算節(jié)點(diǎn)的硬件指標(biāo)和網(wǎng)絡(luò)狀態(tài),上報(bào)節(jié)點(diǎn)負(fù)載至動(dòng)態(tài)調(diào)度模塊,動(dòng)態(tài)調(diào)度模塊根據(jù)上報(bào)數(shù)據(jù)調(diào)節(jié)節(jié)點(diǎn)數(shù)量;
8、訓(xùn)練完成后,將每個(gè)分片聚合成最終完成訓(xùn)練的聚合模型,并將最終的聚合模型傳遞到結(jié)果保存和容錯(cuò)處理模塊,結(jié)果保存和容錯(cuò)處理模塊保存訓(xùn)練結(jié)果,并感知訓(xùn)練節(jié)點(diǎn)狀態(tài)是否異常,若有異常,將訓(xùn)練任務(wù)遷移到其他節(jié)點(diǎn)繼續(xù)訓(xùn)練。
9、作為優(yōu)選,所述動(dòng)態(tài)調(diào)度模塊包含擴(kuò)展單元和負(fù)載預(yù)測單元;所述擴(kuò)展單元根據(jù)資源監(jiān)控模塊上報(bào)的節(jié)點(diǎn)平均負(fù)載與閾值之間的大小關(guān)系增減物理節(jié)點(diǎn)數(shù)量,節(jié)點(diǎn)平均負(fù)載大于閾值時(shí)觸發(fā)擴(kuò)容,節(jié)點(diǎn)平均負(fù)載小于閾值時(shí)觸發(fā)縮容;所述負(fù)載預(yù)測單元基于歷史數(shù)據(jù)預(yù)測未來資源需求,預(yù)測值與當(dāng)前實(shí)際節(jié)點(diǎn)資源存在較大偏差時(shí)觸發(fā)增減物理節(jié)點(diǎn)數(shù)量。
10、作為優(yōu)選,所述動(dòng)態(tài)調(diào)度模塊分配模型分片到所述節(jié)點(diǎn)訓(xùn)練模塊時(shí),從當(dāng)前可用節(jié)點(diǎn)取出若干訓(xùn)練節(jié)點(diǎn),將若干模型分片按照每個(gè)訓(xùn)練節(jié)點(diǎn)的節(jié)點(diǎn)計(jì)算能力分配到取出的節(jié)點(diǎn)。
11、作為優(yōu)選,所述動(dòng)態(tài)調(diào)度模塊引入了梯度殘差補(bǔ)償算法,進(jìn)行誤差修正與收斂加速。
12、作為優(yōu)選,所述模型分片通過拉格朗日乘數(shù)法優(yōu)化分批按比例。
13、作為優(yōu)選,所述聚合模型通過梯度聚合法完成聚合。
14、作為優(yōu)選,所述結(jié)果保存和容錯(cuò)處理模塊采用自適應(yīng)梯度同步算法。
15、與現(xiàn)有技術(shù)相比,本發(fā)明提供一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,具有以下有益效果:
16、1、能夠?qū)崿F(xiàn)模型訓(xùn)練的動(dòng)態(tài)資源感知,動(dòng)態(tài)分配訓(xùn)練節(jié)點(diǎn),模型分片能夠根據(jù)節(jié)點(diǎn)負(fù)載動(dòng)態(tài)調(diào)整分片策略,聚合算法能夠減少通信開銷,特別是異構(gòu)環(huán)境下的處理,兩者的結(jié)合實(shí)現(xiàn)更高效的訓(xùn)練,支持動(dòng)態(tài)節(jié)點(diǎn)的添加和移除。
17、2、節(jié)點(diǎn)故障導(dǎo)致的訓(xùn)練失敗能夠自動(dòng)調(diào)度其他節(jié)點(diǎn)繼續(xù)訓(xùn)練,通過量化指標(biāo)驅(qū)動(dòng)策略動(dòng)態(tài)調(diào)整,實(shí)現(xiàn)了通信效率與計(jì)算資源的精準(zhǔn)匹配,相比現(xiàn)有技術(shù)顯著提升異構(gòu)環(huán)境下的訓(xùn)練效能。核心創(chuàng)新在于將實(shí)時(shí)性能感知、策略決策模型與梯度補(bǔ)償機(jī)制形成閉環(huán)優(yōu)化系統(tǒng),突破傳統(tǒng)固定策略的局限性。
18、3、能同時(shí)使用不同類型的gpu統(tǒng)一調(diào)度訓(xùn)練。模型是先分片,再訓(xùn)練,不同類型的gpu按照分片策略,各自承擔(dān)不同的分片數(shù)量,共同訓(xùn)練同一個(gè)模型。
19、4、可以修正網(wǎng)絡(luò)較差導(dǎo)致的節(jié)點(diǎn)處理的分片數(shù)量偏差,抑制模型分片引發(fā)的更新不一致,支持彈性擴(kuò)縮容的無縫銜接。
20、本發(fā)明的特征及優(yōu)點(diǎn)將通過實(shí)施例結(jié)合附圖進(jìn)行詳細(xì)說明。
1.一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,其特征在于:包括api網(wǎng)關(guān)、資源監(jiān)控模塊、動(dòng)態(tài)調(diào)度模塊、節(jié)點(diǎn)訓(xùn)練模塊以及結(jié)果保存和容錯(cuò)處理模塊;?api網(wǎng)關(guān)接收客戶端訓(xùn)練請求,并將信息傳遞到動(dòng)態(tài)調(diào)度模塊;
2.如權(quán)利要求1所述的一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,其特征在于:所述動(dòng)態(tài)調(diào)度模塊包含擴(kuò)展單元和負(fù)載預(yù)測單元;
3.如權(quán)利要求1所述的一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,其特征在于:所述動(dòng)態(tài)調(diào)度模塊分配模型分片到所述節(jié)點(diǎn)訓(xùn)練模塊時(shí),從當(dāng)前可用節(jié)點(diǎn)取出若干訓(xùn)練節(jié)點(diǎn),將若干模型分片按照每個(gè)訓(xùn)練節(jié)點(diǎn)的節(jié)點(diǎn)計(jì)算能力分配到取出的節(jié)點(diǎn)。
4.如權(quán)利要求1所述的一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,其特征在于:所述動(dòng)態(tài)調(diào)度模塊引入了梯度殘差補(bǔ)償算法,進(jìn)行誤差修正與收斂加速。
5.如權(quán)利要求1所述的一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,其特征在于:所述節(jié)點(diǎn)訓(xùn)練模塊設(shè)置虛擬化資源池,所述虛擬化資源池進(jìn)行細(xì)粒度資源分配。
6.如權(quán)利要求1所述的一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,其特征在于:所述模型分片通過拉格朗日乘數(shù)法優(yōu)化分批按比例。
7.如權(quán)利要求1所述的一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,其特征在于:所述聚合模型通過梯度聚合法完成聚合。
8.如權(quán)利要求1所述的一種用于ai模型訓(xùn)練的分布式調(diào)度訓(xùn)練方法,其特征在于:所述結(jié)果保存和容錯(cuò)處理模塊采用自適應(yīng)梯度同步算法。