4月24日,寒武紀(jì)宣布完成了對深度求索公司最新開源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro的Day0適配,實(shí)現(xiàn)了模型發(fā)布當(dāng)日的穩(wěn)定運(yùn)行,適配代碼已開源至GitHub社區(qū)。寒武紀(jì)通過自研的高性能融合算子庫Torch-MLU-Ops,對Compressor、mHC等模塊進(jìn)行專項(xiàng)加速,并利用BangC高性能編程語言,編寫了稀疏/壓縮Attention、GroupGemm等熱點(diǎn)算子的極致優(yōu)化Kernel,以充分釋放硬件底層性能。
在推理框架優(yōu)化方面,寒武紀(jì)在vLLM中全面支持TP/PP/SP/DP/EP5D混合并行、通信計(jì)算并行、低精度量化以及PD分離部署等優(yōu)化技術(shù),通過策略優(yōu)化,在滿足延時(shí)約束下達(dá)到最佳的詞元吞吐能力,顯著提升端到端推理效率。此外,硬件特性也被深度挖掘,利用MLU訪存與排序加速能力,有效加速稀疏Attention、Indexer等結(jié)構(gòu);高互聯(lián)帶寬與低通信延時(shí),將Prefill和Decode兩種不同工作負(fù)載場景下的通信占比降至最低,最大化分布式推理的利用率。
DeepSeek-V4模型預(yù)覽版今日正式上線并同步開源,擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實(shí)現(xiàn)國內(nèi)與開源領(lǐng)域的領(lǐng)先。用戶可通過官網(wǎng)
網(wǎng)頁鏈接或官方App與最新的DeepSeek-V4對話,探索1M超長上下文記憶的全新體驗(yàn)。API服務(wù)已同步更新,通過修改model_name為deepseek-v4-pro或deepseek-v4-flash即可調(diào)用。
來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請聯(lián)系郵件刪除。