具有社會(huì)意識(shí)的機(jī)器人可以預(yù)測(cè)并安全避開移動(dòng)中的人
由多倫多大學(xué)教授 Tim Barfoot 領(lǐng)導(dǎo)的一組研究人員正在使用一種新策略,該策略允許機(jī)器人通過預(yù)測(cè)其路徑 中動(dòng)態(tài)障礙物的未來位置來避免與人發(fā)生碰撞。
該項(xiàng)目由 Apple Machine Learning 支持,將于 5 月底在費(fèi)城舉行的國際機(jī)器人與自動(dòng)化會(huì)議上進(jìn)行展示。
多倫多大學(xué)航空航天研究所的 Hugues Thomas 和他的合作者創(chuàng)造了一種基于自我監(jiān)督深度學(xué)習(xí)的機(jī)器人導(dǎo)航新方法。多倫多大學(xué) Safa Jinje 的插圖
尚未經(jīng)過同行評(píng)審的模擬結(jié)果 可在 arXiv 預(yù)印本服務(wù)上獲得。
“我們工作的原則是讓機(jī)器人預(yù)測(cè)人們?cè)诓痪玫膶頃?huì)做什么,”應(yīng)用科學(xué)學(xué)院應(yīng)用科學(xué)學(xué)院航空航天研究所 Barfoot 實(shí)驗(yàn)室的博士后研究員 Hugues Thomas 說& 工程。“這使機(jī)器人能夠預(yù)測(cè)它遇到的人的運(yùn)動(dòng),而不是在遇到這些障礙時(shí)做出反應(yīng)。”
為了決定移動(dòng)到哪里,機(jī)器人使用時(shí)空占用網(wǎng)格圖 (SOGM)。這些是維護(hù)在機(jī)器人處理器中的 3D 網(wǎng)格圖,每個(gè) 2D 網(wǎng)格單元都包含有關(guān)特定時(shí)間該空間中活動(dòng)的預(yù)測(cè)信息。機(jī)器人通過現(xiàn)有的軌跡規(guī)劃算法處理這些地圖來選擇其未來的行動(dòng)。
該團(tuán)隊(duì)使用的另一個(gè)關(guān)鍵工具是光探測(cè)和測(cè)距(激光雷達(dá)),這是一種類似于雷達(dá)的遙感技術(shù),只是它使用光而不是聲音。激光雷達(dá)的每次 ping 都會(huì)創(chuàng)建一個(gè)存儲(chǔ)在機(jī)器人內(nèi)存中的點(diǎn)。該團(tuán)隊(duì)之前的工作重點(diǎn)是根據(jù)它們的動(dòng)態(tài)屬性標(biāo)記這些點(diǎn)。這有助于機(jī)器人識(shí)別其周圍環(huán)境中不同類型的物體。
該團(tuán)隊(duì)的 SOGM 網(wǎng)絡(luò)目前能夠識(shí)別四種激光雷達(dá)點(diǎn)類別:地面;永久性固定裝置,例如墻壁;可移動(dòng)但不動(dòng)的東西,例如椅子和桌子;和動(dòng)態(tài)障礙,例如人。不需要人工標(biāo)記數(shù)據(jù)。
“通過這項(xiàng)工作,我們希望使機(jī)器人能夠以更具社會(huì)意識(shí)的方式在擁擠的室內(nèi)空間中導(dǎo)航,”Barfoot 說。“通過預(yù)測(cè)人和其他物體的去向,我們可以規(guī)劃預(yù)測(cè)動(dòng)態(tài)元素會(huì)做什么的路徑。”
在論文中,該團(tuán)隊(duì)報(bào)告了在模擬中執(zhí)行的算法的成功結(jié)果。下一個(gè)挑戰(zhàn)是在難以預(yù)測(cè)人類行為的現(xiàn)實(shí)環(huán)境中展示類似的性能。作為這項(xiàng)工作的一部分,該團(tuán)隊(duì)在 U of T 的 Myhal 工程創(chuàng)新與創(chuàng)業(yè)中心一樓測(cè)試了他們的設(shè)計(jì),該機(jī)器人能夠繞過忙碌的學(xué)生。
“當(dāng)我們?cè)谀M中進(jìn)行實(shí)驗(yàn)時(shí),我們有被編碼為特定行為的代理,它們將通過遵循最佳軌跡到達(dá)特定點(diǎn),”Thomas 說。“但這不是人們?cè)诂F(xiàn)實(shí)生活中所做的。”
當(dāng)人們?cè)诳臻g中移動(dòng)時(shí),他們可能會(huì)匆忙或突然停下來與其他人交談或轉(zhuǎn)向完全不同的方向。為了處理這種行為,網(wǎng)絡(luò)采用了一種稱為自我監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)技術(shù)。
自監(jiān)督學(xué)習(xí)與其他機(jī)器學(xué)習(xí)技術(shù)形成對(duì)比,例如強(qiáng)化學(xué)習(xí),其中算法通過以試錯(cuò)的方式最大化獎(jiǎng)勵(lì)的概念來學(xué)習(xí)執(zhí)行任務(wù)。雖然這種方法適用于某些任務(wù)——例如,計(jì)算機(jī)學(xué)習(xí)下國際象棋或圍棋等游戲——但它并不適合這種類型的導(dǎo)航。
“通過強(qiáng)化學(xué)習(xí),您創(chuàng)建了一個(gè)黑匣子,這使得很難理解輸入(機(jī)器人看到的內(nèi)容)與輸出或機(jī)器人所做的事情之間的聯(lián)系,”Thomas 說。“它還需要機(jī)器人在學(xué)習(xí)正確的呼叫之前多次失敗,我們不希望我們的機(jī)器人通過撞到人來學(xué)習(xí)。”
相比之下,自我監(jiān)督學(xué)習(xí)簡單易懂,這意味著更容易看到機(jī)器人是如何做出決定的。這種方法也是以點(diǎn)為中心而非以對(duì)象為中心,這意味著網(wǎng)絡(luò)對(duì)原始傳感器數(shù)據(jù)有更密切的解釋,從而允許進(jìn)行多模態(tài)預(yù)測(cè)。
“許多傳統(tǒng)方法將人檢測(cè)為個(gè)體對(duì)象并為他們創(chuàng)建軌跡。但由于我們的模型是以點(diǎn)為中心的,我們的算法不會(huì)將人量化為單個(gè)對(duì)象,而是識(shí)別人應(yīng)該在的區(qū)域。如果你有更多的人,那么這個(gè)區(qū)域就會(huì)變得更大,”Thomas 說。
“這項(xiàng)研究提供了一個(gè)有希望的方向,可能會(huì)對(duì)環(huán)境無法完全預(yù)測(cè)的自動(dòng)駕駛和機(jī)器人交付等領(lǐng)域產(chǎn)生積極影響。”
未來,該團(tuán)隊(duì)希望看看他們是否可以擴(kuò)展他們的網(wǎng)絡(luò),以從場(chǎng)景中的動(dòng)態(tài)元素中學(xué)習(xí)更多微妙的線索。
“這將需要更多的訓(xùn)練數(shù)據(jù),”Barfoot 說。“但這應(yīng)該是可能的,因?yàn)槲覀円呀?jīng)為自己設(shè)置了以更自動(dòng)化的方式生成數(shù)據(jù):機(jī)器人可以在導(dǎo)航時(shí)自行收集更多數(shù)據(jù),在不運(yùn)行時(shí)訓(xùn)練更好的預(yù)測(cè)模型,然后在下次使用時(shí)使用這些模型導(dǎo)航一個(gè)空間。”