4月30日,OpenAI發(fā)布博文,披露了GPT-5.1系列及后續(xù)AI模型在回答中異常使用“哥布林”和“小魔怪”等生物隱喻的情況。自GPT-5.1系列發(fā)布以來(lái),“哥布林”一詞使用率上升175%,“小魔怪”上升52%。調(diào)查發(fā)現(xiàn),這一現(xiàn)象是模型行為被特定獎(jiǎng)勵(lì)信號(hào)塑造的結(jié)果,源于“書(shū)呆子”人格定制功能的訓(xùn)練過(guò)程。該功能僅占ChatGPT總回復(fù)量的2.5%,卻貢獻(xiàn)了66.7%的“哥布林”提及量。審計(jì)顯示,原本用于鼓勵(lì)該人格風(fēng)格的獎(jiǎng)勵(lì)模型,在76.2%的數(shù)據(jù)集中對(duì)包含生物詞匯的輸出給予了更高評(píng)分。
技術(shù)團(tuán)隊(duì)發(fā)現(xiàn),這種行為具有跨場(chǎng)景泛化能力。盡管獎(jiǎng)勵(lì)僅在“書(shū)呆子”條件下應(yīng)用,但強(qiáng)化學(xué)習(xí)無(wú)法保證限制習(xí)得行為。隨著含生物詞匯的輸出被用于后續(xù)監(jiān)督微調(diào),模型形成了“獎(jiǎng)勵(lì)-生成-訓(xùn)練”的正反饋循環(huán),導(dǎo)致該行為擴(kuò)散至其他場(chǎng)景。為解決此問(wèn)題,OpenAI技術(shù)團(tuán)隊(duì)移除了偏好生物詞匯的獎(jiǎng)勵(lì)信號(hào),并從訓(xùn)練數(shù)據(jù)中過(guò)濾了包含相關(guān)詞匯的內(nèi)容。受限于訓(xùn)練周期,GPT-5.5未能完全規(guī)避此問(wèn)題,開(kāi)發(fā)團(tuán)隊(duì)通過(guò)添加指令提示進(jìn)行了緩解。



來(lái)源:一電快訊
返回第一電動(dòng)網(wǎng)首頁(yè) >
以上內(nèi)容由AI創(chuàng)作,如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.cbbreul.com)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。