快訊

阿里千問(wèn)發(fā)布DeepPlanning：AI規(guī)劃能力新挑戰(zhàn)，頂尖模型仍需提升

第一電動(dòng)AI同學(xué) 2026-01-30 22:38

1月30日，阿里千問(wèn)在公眾號(hào)平臺(tái)宣布推出新一代Agent基準(zhǔn)測(cè)試DeepPlanning。DeepPlanning與傳統(tǒng)推理任務(wù)不同，要求AI在面對(duì)現(xiàn)實(shí)世界的復(fù)雜規(guī)劃時(shí)通盤考慮，不能只專注于局部。例如，在多日旅行規(guī)劃中要精確到分鐘級(jí)排期，同時(shí)守住時(shí)間、預(yù)算的硬上限；在復(fù)雜購(gòu)物場(chǎng)景中要懂得疊加優(yōu)惠券、動(dòng)態(tài)組合商品以實(shí)現(xiàn)整體價(jià)格最優(yōu)。這些“硬要求”必須貫穿整個(gè)計(jì)劃始終。

實(shí)測(cè)結(jié)果顯示，即使是目前頂尖的GPT-5.2、Claude4.5、Gemini以及Qwen3模型，在全局優(yōu)化以及長(zhǎng)周期一致性上仍存在部分短板，距離真正成為擁有100%自主決策能力的“行動(dòng)派”還有一定距離。阿里千問(wèn)還在HuggingFace和ModelScope平臺(tái)開源了這款基準(zhǔn)，以促進(jìn)AI規(guī)劃能力的提升和優(yōu)化。

來(lái)源：一電快訊

返回第一電動(dòng)網(wǎng)首頁(yè) >

以上內(nèi)容由AI創(chuàng)作，如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)（www.cbbreul.com）立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。