OpenAI的機(jī)械手為Rubik的立方體做出了動(dòng)作
那些知道讓機(jī)器人的手抓住,操縱和操縱有多么艱辛的人,不僅僅看一眼-而是凝視著-在最近的展示了OpenAI Dactyl Rubik立方體的視頻中。
當(dāng)挑戰(zhàn)在于證明人的手指靈巧性時(shí),用四指拇指的機(jī)器人手工作絕非易事。OpenAI的手憑借其靈巧的手指操作贏得了賞心悅目的外觀,這是人手解決立方體所需要的。
那些熟悉OpenAI去年發(fā)布的其他視頻的人已經(jīng)知道了他們的進(jìn)步,該視頻稱為“學(xué)習(xí)敏捷”。視頻是關(guān)于他們訓(xùn)練像人一樣的機(jī)器人手來操縱物理對(duì)象的視頻。即使那樣,他們?nèi)匀挥X得自己可以夸耀機(jī)器人手可以“前所未有的敏捷性”來做到這一點(diǎn)。
這就是他們介紹其系統(tǒng)Dactyl的方式。他們說,Dactyl使用通用強(qiáng)化學(xué)習(xí)算法和代碼從頭開始學(xué)習(xí)。“我們的結(jié)果表明,有可能在模擬中訓(xùn)練代理并讓他們解決現(xiàn)實(shí)世界的任務(wù),而無(wú)需對(duì)世界進(jìn)行物理上精確的建模。”
一位機(jī)器學(xué)習(xí)工程師告訴視頻觀眾,該技術(shù)被稱為領(lǐng)域隨機(jī)化。
他們隨機(jī)化了例如手可以移動(dòng)多快,塊有多重以及塊與手之間的摩擦。
一年前視頻中的兩個(gè)評(píng)論認(rèn)為這并不是真正的AI:“'AI'在這一點(diǎn)上實(shí)際上只是抽象算法。我們甚至還不了解什么是智能,更不用說如何對(duì)其進(jìn)行合成了。”
另一條評(píng)論是:“這無(wú)非是聰明的編程……根本沒有智能。這只是一臺(tái)機(jī)器,它以一種編程的方式來完成已被編程的工作。只需對(duì)事物進(jìn)行編程,以正確的方式轉(zhuǎn)動(dòng)模塊從一開始就為自己節(jié)省了時(shí)間和精力……計(jì)算機(jī)將永遠(yuǎn)只能按照編程的方式進(jìn)行操作。”
盡管如此,《麻省理工學(xué)院技術(shù)評(píng)論》的Karen Hao仍認(rèn)為,該團(tuán)隊(duì)的機(jī)械手是朝面向工業(yè)和消費(fèi)類應(yīng)用的更加敏捷的機(jī)器人邁出的重要一步。
快進(jìn)他們的新論文“用機(jī)械手解決魔方”。
作者解釋說:“我們證明,僅在模擬中訓(xùn)練的模型可用于解決實(shí)際機(jī)器人上前所未有的復(fù)雜性操作問題。這有兩個(gè)關(guān)鍵因素:一種新穎的算法,我們稱之為自動(dòng)域隨機(jī)化(ADR), )和為機(jī)器學(xué)習(xí)而構(gòu)建的機(jī)器人平臺(tái)。”
他們談?wù)摿朔D(zhuǎn)和頂面旋轉(zhuǎn)的組合。
“旋轉(zhuǎn)對(duì)應(yīng)于將魔方的單個(gè)面沿順時(shí)針或逆時(shí)針方向旋轉(zhuǎn)90度。翻轉(zhuǎn)對(duì)應(yīng)于將魔方的另一面移動(dòng)到頂部。我們發(fā)現(xiàn)將頂面旋轉(zhuǎn)得很遠(yuǎn)比旋轉(zhuǎn)其他面更簡(jiǎn)單。因此,代替旋轉(zhuǎn)任意面,我們將翻轉(zhuǎn)和頂面旋轉(zhuǎn)結(jié)合在一起以執(zhí)行所需的操作。然后可以依次執(zhí)行這些子目標(biāo),最終解決魔方。
他們懷疑任何人都以理想的混亂方塊給自己帶來不公平的優(yōu)勢(shì)。
“解決魔方的難度顯然取決于之前被加擾的數(shù)量。我們使用世界多維數(shù)據(jù)集協(xié)會(huì)使用的官方加擾方法來獲得他們所謂的公平加擾(大約20招用于解決了Rubik的立方體進(jìn)行打亂的問題)。
其他機(jī)器人專家對(duì)OpenAI團(tuán)隊(duì)與Rubik的拼圖游戲互動(dòng)的看法如何?
郝引用密歇根大學(xué)的機(jī)器人專家德米特里·貝倫森(Dmitry Berenson)的話。
他說:“這是一個(gè)非常困難的問題。”“旋轉(zhuǎn)魔方的零件所需的操作實(shí)際上比旋轉(zhuǎn)魔方要困難得多。”
但是,當(dāng)團(tuán)隊(duì)引用經(jīng)過模擬訓(xùn)練的模型時(shí),這意味著什么?麻省理工學(xué)院技術(shù)評(píng)論雜志的Karen Hao說,他們建立了機(jī)器人的虛擬模型。他們實(shí)際上訓(xùn)練它來完成手頭的任務(wù)。“該算法學(xué)習(xí)了數(shù)字空間的安全性,之后可以移植到物理機(jī)器人中。”現(xiàn)在,成功的關(guān)鍵在于:Ho說:“實(shí)驗(yàn)室在每一輪訓(xùn)練中都對(duì)模擬條件進(jìn)行了打亂,以使算法更適應(yīng)各種可能性。”
他們使用(1)Shadow Dexterous E系列手作為機(jī)器人手,(2)PhaseSpace運(yùn)動(dòng)捕獲系統(tǒng)跟蹤指尖的笛卡爾坐標(biāo),以及(3)使用三個(gè)RGB Basler相機(jī)進(jìn)行視覺姿勢(shì)估計(jì)。
下一步是什么?
團(tuán)隊(duì)成員在博客中表示:“用機(jī)械手解決魔方的問題仍然不容易。目前,我們的方法在需要最大難度的擾動(dòng)(需要26次面部旋轉(zhuǎn))的情況下,有20%的時(shí)間解決了魔方的問題。對(duì)于較簡(jiǎn)單的擾動(dòng),需要15次旋轉(zhuǎn)才能撤消,成功率為60%。
盡管如此,OpenAI并不是要擺脫困難。“我們相信人類的靈巧性正在構(gòu)建通用機(jī)器人的道路上,我們很高興朝這個(gè)方向前進(jìn)。”