近日,專為OpenClaw設計的全球大模型適配程度評估榜單PinchBench引發(fā)關注。該榜單從成功率、速度、價格等維度對模型進行排名,中國模型在成功率和速度方面表現(xiàn)出色,但在價格方面稍遜。截至發(fā)稿前,
谷歌Gemini3Flash以95.1%的成功率位居榜首,國內模型MiniMaxM2.1和KimiK2.5分列二、三名。在速度方面,國產(chǎn)模型MiniMaxM2.5超越其他模型登頂。
PinchBench由創(chuàng)業(yè)團隊KiloAI推出,包含23個真實任務測試,采用自動化檢查+LLM評審的評分機制,核心指標為成功率、速度、成本。該榜單顯示,并非所有大模型都能在真實任務中表現(xiàn)優(yōu)異,一些偏Agent優(yōu)化或推理效率更高的模型排名更靠前。PinchBench目前完全開源,用戶可在平臺上自行運行或添加新任務。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內容并不代表第一電動網(wǎng)(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權請聯(lián)系郵件刪除。