国产精品在线视频资源|av人人人人操爱香蕉视频|AAA黄色片子黄色a级片视频|亚洲综合视频网2|成人免费网站观影|国产天堂AV在线播放资源|成人无码精品一区二区黑寡妇在线|论理聚合视频一区二区三区|在线无码视频一区二区|淫荡人妻不卡av

  1. 首頁
  2. 資訊
  3. 摩爾線程MTTS5000 GPU適配DeepSeek-V4-Flash,F(xiàn)P8精度計(jì)算吞吐量翻倍

摩爾線程MTTS5000 GPU適配DeepSeek-V4-Flash,F(xiàn)P8精度計(jì)算吞吐量翻倍

4月24日,摩爾線程與智源FlagOS合作,成功為旗艦級(jí)AI訓(xùn)推一體全功能GPU MTTS5000完成了DeepSeek-V4-Flash模型的Day-0適配。DeepSeek-V4-Flash模型采用混合專家(MoE)架構(gòu),擁有284B的總參數(shù)量和13B的激活參數(shù),支持百萬token上下文長度,預(yù)訓(xùn)練數(shù)據(jù)超過32Ttoken。在最大推理力度模式下,其推理能力接近Pro版本。

此次適配中,DeepSeek-V4模型首次采用了“FP4+FP8”混合精度策略,而國內(nèi)主流AI芯片多以BF16為主。摩爾線程憑借原生FP8支持能力,更高效地承載了DeepSeek-V4的前沿精度設(shè)計(jì)。MTTS5000 GPU內(nèi)置硬件級(jí)FP8 TensorCore加速單元,與傳統(tǒng)BF16/FP16相比,數(shù)據(jù)位寬減半,顯存帶寬壓力降低50%,理論計(jì)算吞吐量翻倍。

為充分發(fā)揮MTTS5000的FP8優(yōu)勢,F(xiàn)lagOS團(tuán)隊(duì)對(duì)DeepSeek-V4模型進(jìn)行了FP8量化。雙方技術(shù)團(tuán)隊(duì)在FP8算子與SparseAttention算子上進(jìn)行了系統(tǒng)級(jí)分析,并在編譯優(yōu)化與自動(dòng)調(diào)優(yōu)兩大方向取得了重大突破。摩爾線程已多次實(shí)現(xiàn)國產(chǎn)大模型的Day-0即時(shí)適配,包括MiniMaxM2.7、智譜GLM-5等。

來源:一電快訊

返回第一電動(dòng)網(wǎng)首頁 >

5點(diǎn)贊
發(fā)表評(píng)論
熱文榜
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!