像幼兒一樣機(jī)器人在學(xué)習(xí)如何在物理世界中工作時(shí)可以使用一點(diǎn)幫助
像幼兒一樣,機(jī)器人在學(xué)習(xí)如何在物理世界中工作時(shí)可以使用一點(diǎn)幫助。這就是萊斯大學(xué)計(jì)劃的目的,該計(jì)劃溫和地指導(dǎo)機(jī)器人朝著最有幫助的,類似于人的方式進(jìn)行任務(wù)協(xié)作的方式。
稻米工程師Marcia O'Malley和研究生Dylan Losey通過(guò)在執(zhí)行任務(wù)時(shí)對(duì)機(jī)器施加溫和的物理反饋,完善了他們的機(jī)器人訓(xùn)練方法。目的是簡(jiǎn)化期望與人類并肩高效工作的機(jī)器人的培訓(xùn)。
“從歷史上看,機(jī)器人的作用是接管我們不想做的普通任務(wù):制造,裝配線,焊接,噴漆,”機(jī)械工程,電氣與計(jì)算機(jī)工程和計(jì)算機(jī)科學(xué)教授O'Malley說(shuō)。“隨著我們?cè)絹?lái)越愿意與技術(shù)共享個(gè)人信息,就像我的手表記錄我所采取的步驟的方式一樣,技術(shù)也將滲透到嵌入式硬件中。
她說(shuō):“機(jī)器人已經(jīng)在我們家中吸塵或控制恒溫器或修剪草坪。” “技術(shù)滲透到我們的生活中,有各種各樣的方式。我已經(jīng)在廚房里和Alexa聊天了,那么為什么還沒有可以與我們進(jìn)行物理協(xié)作的機(jī)器呢?我們的許多工作都是為了確保人機(jī)交互的安全性。”
根據(jù)研究人員的說(shuō)法,適應(yīng)于對(duì)人機(jī)交互(pHRI)做出反應(yīng)的機(jī)器人傳統(tǒng)上將此類交互視為干擾,并在交互結(jié)束時(shí)恢復(fù)其原始行為。賴斯大學(xué)的研究人員通過(guò)一種方法使人類能夠?qū)崟r(shí)地物理調(diào)整機(jī)器人的軌跡,從而增強(qiáng)了pHRI。
該程序的核心是阻抗控制的概念 ,實(shí)際上是一種管理推入時(shí)發(fā)生的情況的方法。允許通過(guò)物理輸入進(jìn)行阻抗控制的機(jī)器人會(huì)調(diào)整其編程軌跡以做出響應(yīng),但在輸入結(jié)束時(shí)會(huì)返回其初始軌跡。
賴斯算法基于該概念,因?yàn)樗试S機(jī)器人調(diào)整超出輸入范圍的路徑并計(jì)算到達(dá)其目標(biāo)的新路線,類似于GPS系統(tǒng),當(dāng)駕駛員錯(cuò)過(guò)轉(zhuǎn)彎時(shí),它會(huì)重新計(jì)算到達(dá)目的地的路線。
Losey去年夏天大部分時(shí)間都在加州大學(xué)伯克利分校電氣工程和計(jì)算機(jī)科學(xué)助理教授Anca Dragan的實(shí)驗(yàn)室中進(jìn)行 測(cè)試。他和其他學(xué)生訓(xùn)練了機(jī)械臂和手來(lái)將咖啡杯放在桌面上,然后使用增強(qiáng)的pHRI使其遠(yuǎn)離計(jì)算機(jī)鍵盤,并且足夠低,以免摔落時(shí)杯子也不會(huì)破裂。(關(guān)于實(shí)驗(yàn)的另一篇論文發(fā)表在 《機(jī)器學(xué)習(xí)研究》中。)
目的是通過(guò)物理交互作用來(lái)改變機(jī)器人的編程軌跡。“在這里,機(jī)器人有一個(gè)計(jì)劃或所需的軌跡,描述了機(jī)器人認(rèn)為它應(yīng)該執(zhí)行任務(wù)的方式,” Losey在一篇有關(guān)伯克利實(shí)驗(yàn)的論文中寫道 。“我們引入了一種實(shí)時(shí)算法,可以對(duì)機(jī)器人未來(lái)的期望軌跡進(jìn)行修改或變形。”
在阻抗模式下,機(jī)器人在交互后始終返回其原始軌跡。Losey說(shuō),在學(xué)習(xí)模式下,反饋不僅改變了交互時(shí)機(jī)器人的狀態(tài),而且還改變了機(jī)器人如何達(dá)到目標(biāo)。例如,如果用戶指示它防止杯子越過(guò)鍵盤,它將來(lái)會(huì)繼續(xù)這樣做。他說(shuō):“通過(guò)在每次新觀察后重新計(jì)劃?rùn)C(jī)器人的期望軌跡,該機(jī)器人能夠產(chǎn)生與人類喜好相匹配的行為。”
進(jìn)一步的測(cè)試雇用了10名萊斯大學(xué)的學(xué)生,他們使用了O'Malley實(shí)驗(yàn)室的康復(fù)力反饋機(jī)器人 OpenWrist來(lái)操縱光標(biāo)繞過(guò)計(jì)算機(jī)屏幕上的障礙物并落在藍(lán)點(diǎn)上。測(cè)試首先使用標(biāo)準(zhǔn)阻抗控制,然后使用具有物理交互軌跡變形的阻抗控制,這是pHRI的模擬,允許學(xué)生訓(xùn)練設(shè)備學(xué)習(xí)新的軌跡。
結(jié)果表明,軌跡變形試驗(yàn)在物理上更容易,并且需要更少的交互作用才能達(dá)到目標(biāo)。實(shí)驗(yàn)表明,交互作用可以對(duì)具有多個(gè)自由度的自主機(jī)器人進(jìn)行編程,在這種情況下,該機(jī)器人可以彎曲手臂并旋轉(zhuǎn)手腕。
當(dāng)前的局限性在于,pHRI尚無(wú)法修改機(jī)器人執(zhí)行任務(wù)所花費(fèi)的時(shí)間,但這已在Rice團(tuán)隊(duì)的議程上。
洛西說(shuō):“這項(xiàng)工作的范式轉(zhuǎn)變是,機(jī)器人應(yīng)該將人類視為有理性互動(dòng)并試圖傳達(dá)重要信息的理性人,而不是將人類視為隨機(jī)干擾。” “機(jī)器人不應(yīng)該只是試圖擺脫阻礙。它應(yīng)該了解正在發(fā)生的事情,并更好地完成工作。”