借助新的AlphaStar系統(tǒng)DeepMind首先獲得了另一個(gè)AI
在訓(xùn)練了一種能夠熟練掌握國(guó)際象棋和圍棋的人工智能模型之后,Alphabet Inc.的DeepMind子公司開(kāi)始了一個(gè)新項(xiàng)目:在一款熱門電子游戲上破解該代碼,研究人員將其視為AI的“巨大挑戰(zhàn)”之一。
該小組已經(jīng)為名為“星際爭(zhēng)霸2”的游戲建立了專用的深度學(xué)習(xí)系統(tǒng)AlphaStar,該系統(tǒng)在周四晚些時(shí)候進(jìn)行了詳細(xì)介紹。
該系統(tǒng)被譽(yù)為迄今為止最復(fù)雜的系統(tǒng)。在DeepMind上個(gè)月舉行的一系列比賽中,AlphaStar成為世界上第一個(gè)在沒(méi)有任何游戲限制的情況下?lián)魯I(yè)水平人類玩家的AI。
之所以成為如此重要的里程碑,是因?yàn)椤缎请H爭(zhēng)霸2》的復(fù)雜性。與國(guó)際象棋和圍棋不同,該游戲提供了一種所謂的不完美信息游戲環(huán)境,其中隱藏了某些關(guān)鍵細(xì)節(jié)。這使它在概念上更類似于AI模型在現(xiàn)實(shí)世界中的實(shí)際應(yīng)用中必須處理的任務(wù)。
《星際爭(zhēng)霸2》具有復(fù)雜的策略元素,進(jìn)一步提高了難度。比賽在三維地圖上進(jìn)行,其中兩個(gè)對(duì)立的玩家收集資源,建造建筑物并組建虛擬軍隊(duì),以試圖使對(duì)方超越。
在這些條件下獲勝需要AI掌握諸如長(zhǎng)期計(jì)劃之類的技能,這對(duì)于某些實(shí)際的深度學(xué)習(xí)用例也是必需的。DeepMind的研究人員解釋說(shuō):“就像許多現(xiàn)實(shí)問(wèn)題一樣,因果關(guān)系不是瞬時(shí)的。” “游戲也可能需要長(zhǎng)達(dá)一個(gè)小時(shí)的時(shí)間才能完成,這意味著在游戲早期采取的行動(dòng)可能不會(huì)在很長(zhǎng)時(shí)間內(nèi)獲得回報(bào)。”
DeepMind分兩個(gè)階段對(duì)AlphaStar進(jìn)行了培訓(xùn)。首先,它提供了人類玩家比賽的AI素材。然后,該小組讓AlphaStar負(fù)責(zé)虛擬的星際爭(zhēng)霸II聯(lián)賽,并責(zé)成其培養(yǎng)能夠與對(duì)手進(jìn)行對(duì)抗的人工智能競(jìng)爭(zhēng)對(duì)手。
DeepMind研究人員寫(xiě)道:“隨著聯(lián)盟的進(jìn)步和新競(jìng)爭(zhēng)對(duì)手的出現(xiàn),新的反戰(zhàn)略出現(xiàn)了,這些戰(zhàn)略可能會(huì)擊敗早期的戰(zhàn)略。” “雖然一些新競(jìng)爭(zhēng)者執(zhí)行的策略只是對(duì)先前策略的改進(jìn),但其他競(jìng)爭(zhēng)者卻發(fā)現(xiàn)了由全新的建造訂單,單元組成和微觀管理計(jì)劃組成的全新戰(zhàn)略。”
在上個(gè)月DeepMind舉行的比賽系列中,AlphaStar的經(jīng)紀(jì)人擊敗了10:1的兩名專業(yè)水平的人類玩家。Alphabet子公司計(jì)劃在未來(lái)的學(xué)術(shù)研究中與更廣泛的AI社區(qū)分享促進(jìn)這一勝利的一些方法。紙。這個(gè)想法是使DeepMind以外的研究人員能夠在自己的項(xiàng)目中利用AlphaStar的培訓(xùn)技術(shù)。