1月30日,阿里千問(wèn)在公眾號(hào)平臺(tái)宣布推出新一代Agent基準(zhǔn)測(cè)試DeepPlanning。DeepPlanning與傳統(tǒng)推理任務(wù)不同,要求AI在面對(duì)現(xiàn)實(shí)世界的復(fù)雜規(guī)劃時(shí)通盤考慮,不能只專注于局部。例如,在多日旅行規(guī)劃中要精確到分鐘級(jí)排期,同時(shí)守住時(shí)間、預(yù)算的硬上限;在復(fù)雜購(gòu)物場(chǎng)景中要懂得疊加優(yōu)惠券、動(dòng)態(tài)組合商品以實(shí)現(xiàn)整體價(jià)格最優(yōu)。這些“硬要求”必須貫穿整個(gè)計(jì)劃始終。
實(shí)測(cè)結(jié)果顯示,即使是目前頂尖的GPT-5.2、Claude4.5、Gemini以及Qwen3模型,在全局優(yōu)化以及長(zhǎng)周期一致性上仍存在部分短板,距離真正成為擁有100%自主決策能力的“行動(dòng)派”還有一定距離。阿里千問(wèn)還在HuggingFace和ModelScope平臺(tái)開源了這款基準(zhǔn),以促進(jìn)AI規(guī)劃能力的提升和優(yōu)化。



來(lái)源:一電快訊
返回第一電動(dòng)網(wǎng)首頁(yè) >
以上內(nèi)容由AI創(chuàng)作,如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.cbbreul.com)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。