6月2日,JetBrains宣布開源Mellum2模型,這是針對(duì)軟件工程系統(tǒng)的新機(jī)器學(xué)習(xí)模型。Mellum2從代碼補(bǔ)全模型升級(jí)為完整的編碼助手,上下文窗口從8192Token擴(kuò)展到131072Token,開發(fā)者可在Apache2.0許可證下部署基礎(chǔ)版、指令版和思考版。Mellum2總規(guī)模為12B,高于Mellum的4B,采用稀疏Mixture-of-Experts框架,激活時(shí)參數(shù)量為2.5B,在標(biāo)準(zhǔn)硬件上保持較快計(jì)算。
Mellum2具備生成和編輯代碼、調(diào)用外部工具、執(zhí)行多步驟Agentic工作流、維持長(zhǎng)對(duì)話的能力。JetBrains將Mellum2定位于AI工作負(fù)載路由與編排、低延遲RAG管線、復(fù)雜工作流中的快速Sub-agent,以及私有本地AI部署。在訓(xùn)練方面,團(tuán)隊(duì)采用三階段數(shù)據(jù)課程,數(shù)據(jù)混合從多樣化網(wǎng)頁(yè)內(nèi)容逐步轉(zhuǎn)向精選代碼和數(shù)學(xué)內(nèi)容,使模型更貼近軟件工程任務(wù)。



來源:一電快訊
返回第一電動(dòng)網(wǎng)首頁(yè) >
以上內(nèi)容由AI創(chuàng)作,如有問題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.cbbreul.com)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。