4月24日,DeepSeek-V4預(yù)覽版正式上線并開源,華為云官方宣布為其提供首發(fā)適配。華為云MaaS模型即服務(wù)平臺已為開發(fā)者提供免部署、一鍵調(diào)用DeepSeek-V4-FlashAPI的Tokens服務(wù)。適配過程中,華為云首發(fā)適配了模型分層注意力壓縮機制,實現(xiàn)了V4注意力機制下KVCache的高效分配管理,并提供了TopK、SWA、CFA等10余種昇騰高性能融合算子,支持原生100萬Token長上下文的高性能推理。
DeepSeek-V4系列包含兩個MoE架構(gòu)版本:旗艦版DeepSeek-V4-Pro總參數(shù)1.6萬億、激活參數(shù)490億,經(jīng)濟型DeepSeek-V4-Flash總參數(shù)2840億、激活參數(shù)130億,均原生支持100萬Token超長上下文。技術(shù)架構(gòu)上,DeepSeek-V4設(shè)計了全新的混合注意力機制,包含壓縮稀疏注意力(CSA)與重壓縮注意力(HCA)兩大組件,大幅降低了長上下文場景下的計算和顯存需求。在100萬Token上下文設(shè)置下,V4-Pro的單Token推理FLOPs僅為前代V3.2的27%,KV緩存占用降至10%;V4-Flash兩項指標分別壓低至10%和7%。

來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請聯(lián)系郵件刪除。