4月15日消息,
谷歌DeepMind正式推出Gemini Robotics-ER 1.6,這是其專為物理環(huán)境中自主機(jī)器人設(shè)計(jì)的具身推理AI模型的重大升級(jí)。新模型聚焦于“具身推理”,使機(jī)器人能夠解讀視覺輸入、規(guī)劃任務(wù)并判斷任務(wù)是否完成,標(biāo)志著機(jī)器人從指令跟隨型系統(tǒng)向具備上下文感知決策能力的系統(tǒng)轉(zhuǎn)變。谷歌DeepMind將其描述為“迄今為止最安全的機(jī)器人模型”。
Gemini Robotics-ER 1.6作為機(jī)器人的高級(jí)決策樞紐,不直接操控機(jī)械動(dòng)作,而是負(fù)責(zé)任務(wù)規(guī)劃、工具調(diào)用和成功檢測(cè)。它可原生調(diào)用谷歌搜索、視覺-語言-動(dòng)作模型或第三方用戶定義函數(shù),使機(jī)器人能夠“看到、理解并反應(yīng)于真實(shí)世界的挑戰(zhàn)”。DeepMind首席執(zhí)行官Demis Hassabis表示,此次升級(jí)是從感知到行動(dòng)閉環(huán)的重要進(jìn)展,讓機(jī)器人更好地推理物理世界并在真實(shí)場(chǎng)景中發(fā)揮作用。在空間與物理推理基準(zhǔn)測(cè)試中,新模型全面超越了前代ER 1.5和Gemini 3.0 Flash。
新模型最具突破性的能力是自主讀取工業(yè)儀表。通過結(jié)合視覺推理與代碼執(zhí)行,機(jī)器人可縮放圖像、識(shí)別指針與刻度標(biāo)記,并以極高精度計(jì)算數(shù)值。在代理式視覺加持下,儀表讀取準(zhǔn)確率從此前模型的23%躍升至高達(dá)93%。該模型還能自動(dòng)編寫代碼校正相機(jī)畸變(如廣角鏡頭的桶狀或枕狀效應(yīng)),以亞毫米精度計(jì)算刻度標(biāo)記,無需大量人工重新編程即可適配不同相機(jī)設(shè)置,顯著降低了工業(yè)巡檢的擴(kuò)展門檻。這一功能特別適用于制造業(yè)、石油天然氣、煉油廠和能源設(shè)施等仍大量使用傳統(tǒng)模擬儀表的高風(fēng)險(xiǎn)環(huán)境,為存量工廠提供了可即刻部署的自主化升級(jí)路徑。
安全是Gemini Robotics-ER 1.6的核心支柱。新模型能夠理解執(zhí)行指令時(shí)的物理約束,明確避開液體、重量超過20公斤的物體等不安全物品。同時(shí),模型在視頻中檢測(cè)人類受傷風(fēng)險(xiǎn)的能力較前代提升10%。這些安全特性強(qiáng)化了機(jī)器人規(guī)劃與感知的安全邊界,為倉儲(chǔ)物流、醫(yī)療輔助等場(chǎng)景帶來更高合規(guī)性與更低事故率的落地機(jī)會(huì),潛在保險(xiǎn)成本可降低約15%。據(jù)國際勞工組織數(shù)據(jù),每年全球有超過3.4億起職業(yè)傷害,此類AI技術(shù)的應(yīng)用預(yù)計(jì)可在自動(dòng)化環(huán)境中減少10%至15%的事故發(fā)生率。


來源:一電快訊
返回第一電動(dòng)網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.cbbreul.com)立場(chǎng)。文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。