5月6日,OpenAI聯(lián)合AMD、博通、英特爾、微軟和英偉達(dá)等公司發(fā)布多路徑可靠連接(MRC)協(xié)議,旨在解決大規(guī)模AI訓(xùn)練中的網(wǎng)絡(luò)延遲和故障問題。MRC基于RoCE標(biāo)準(zhǔn)擴(kuò)展,結(jié)合SRv6技術(shù),通過開放計(jì)算項(xiàng)目(OCP)向全行業(yè)開源,以提升超級計(jì)算機(jī)網(wǎng)絡(luò)的性能與韌性。該協(xié)議通過多平面網(wǎng)絡(luò)設(shè)計(jì),將單一800Gb/s接口拆分為多個(gè)較小鏈路,顯著降低網(wǎng)絡(luò)功耗與組件數(shù)量,同時(shí)提升路徑多樣性。MRC引入自適應(yīng)數(shù)據(jù)包噴淋技術(shù),將單一傳輸任務(wù)的數(shù)據(jù)包分散至數(shù)百條路徑并行傳輸,有效避免核心網(wǎng)絡(luò)擁塞。
MRC摒棄復(fù)雜的動態(tài)路由協(xié)議,采用SRv6源路由,發(fā)送端直接指定數(shù)據(jù)包路徑,交換機(jī)僅需依據(jù)靜態(tài)配置表轉(zhuǎn)發(fā),消除動態(tài)路由的故障行為,使網(wǎng)絡(luò)故障恢復(fù)時(shí)間從秒級縮短至微秒級。實(shí)際部署數(shù)據(jù)顯示,MRC已應(yīng)用于NVIDIAGB200超級計(jì)算機(jī)及OracleCloudInfrastructure(OCI)站點(diǎn),在真實(shí)訓(xùn)練場景中,即使發(fā)生鏈路抖動或交換機(jī)重啟,MRC也能在不中斷訓(xùn)練任務(wù)的情況下自動繞過故障。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請聯(lián)系郵件刪除。