歷史最高分!騰訊絕悟AI斬獲Minecraft AI競賽冠軍
絕悟AI開(kāi)始挑戰更復雜的開(kāi)放世界游戲環(huán)境了。
Minecraft (中文譯名《我的世界》) 是全球最暢銷(xiāo)的開(kāi)放世界3D游戲。隨機生成的開(kāi)放地圖、自由靈活的玩法、多線(xiàn)程長(cháng)鏈條任務(wù),給AI研究帶來(lái)了極大挑戰。針對Minecraft的復雜環(huán)境,游戲AI賽事MineRL邀請全球程序員在4天時(shí)間內用一臺計算機訓練AI找到游戲中的鉆石。
12月8日,第三屆MineRL競賽主賽道 (research track) 發(fā)布成績(jì),AI 的“鉆石之夢(mèng)”向前踏進(jìn)了一大步:騰訊AI Lab“絕悟”以76.970分的絕對優(yōu)勢奪冠。研究成果已發(fā)布在A(yíng)rxiv上,算法框架可復用于其他復雜決策環(huán)境。
(論文鏈接:https://arxiv.org/abs/2112.04907)
MineRL競賽由卡內基·梅隆大學(xué)、微軟、DeepMind、OpenAI,聯(lián)合機器學(xué)習頂級會(huì )議NeurIPS共同舉辦,極富挑戰性的賽題持續吸引全球開(kāi)發(fā)者關(guān)注。今年賽事共有59支團隊、近500名選手投身其中,其中不乏世界頂級學(xué)府和研究機構的科研強隊。競賽的研究主題是:訓練樣本高效的Minecraft AI智能體。
騰訊AI Lab創(chuàng )新性地通過(guò)分層強化學(xué)習(Hierarchical Reinforcement Learning)、表示學(xué)習(Representation Learning)、自模仿學(xué)習(Self-imitation Learning)、集成行為克?。‥nsemble Behavior Cloning)等算法高效實(shí)現比賽目標。
(絕悟AI以壓倒性?xún)?yōu)勢獲得歷史最高分,今年榜單詳見(jiàn)鏈接)
極度多樣的環(huán)境、完全靠隨機種子生成的地圖、長(cháng)決策序列與復雜的技能學(xué)習、高自由度玩法帶來(lái)的海量策略偏好都增加了Minecraft AI研究的難度。比如,為了讓AI在15分鐘內找到鉆石,AI需要經(jīng)歷徒手采集原木、合成木板、木棍與木鎬,采集到鐵礦,經(jīng)過(guò)一系列加工才能合成鉆石。
此外,主辦方還制定了種種嚴苛的規則:包括禁止參賽者編寫(xiě)規則、游戲環(huán)境甚至將背包信息與動(dòng)作空間加密、且不允許使用預訓練模型,只允許與環(huán)境最多交互八百萬(wàn)次,每個(gè)參賽隊伍只能使用6核CPU與半張NVIDIA K80顯卡訓練4天——這個(gè)配置幾乎對于所有高校實(shí)驗室與個(gè)人研究者都可以負擔的。
這次比賽的目的在于促進(jìn)樣本高效 (Sample-efficient) 游戲AI算法的發(fā)展。目前流行的強化學(xué)習算法一般需要多達成百上千萬(wàn)次的試錯來(lái)尋找最優(yōu)流程,耗費大量的時(shí)間和計算資源。而純靠人類(lèi)數據的模仿學(xué)習算法雖然更快,但性能上往往不盡如人意。
(Minecraft 游戲截圖)
絕悟AI創(chuàng )新性地提出了一種樣本高效的基于分層強化學(xué)習(Hierarchical Reinforcement Learning)的解決方案。數據表明,騰訊AI Lab推出的上層控制器的預測準確率可以達到99.95%,也就是說(shuō),AI從人類(lèi)數據中學(xué)到了一套幾乎不出錯的宏觀(guān)策略,每時(shí)每刻都清晰地知道自己下一步的正確動(dòng)向。
在狀態(tài)空間表征上,Minecraft游戲遇到的最大挑戰在于如何理解復雜的開(kāi)放地圖。首先被選中的是近年來(lái)熱門(mén)的表示學(xué)習方法 (Representation Learning)。但研究人員很快發(fā)現,已有方法只適用于2D場(chǎng)景,在MineCraft游戲環(huán)境里效果很差。于是騰訊AI Lab設計了一種“基于動(dòng)作感知”(Action-aware Representation Learning)的新穎算法,用來(lái)捕捉每個(gè)動(dòng)作對環(huán)境產(chǎn)生的影響,形成注意力機制。實(shí)驗表明,該算法可以顯著(zhù)提升智能體獲得資源的能力與效率。
(不同動(dòng)作的可視化結果,AI學(xué)會(huì )了關(guān)注當前圖像中的關(guān)鍵區域)
隨著(zhù)游戲推進(jìn),智能體與人類(lèi)的策略出現了很大的分歧。此時(shí),人類(lèi)數據已經(jīng)很難用于指導AI。絕悟AI使用了自模仿學(xué)習 (Self-imitation Learning)的思想,提出了基于鑒別器的自模仿學(xué)習算法,AI可以從自身過(guò)往的成功與失敗中獲得經(jīng)驗與教訓,并在察覺(jué)到當前狀況不妙的時(shí)候,主動(dòng)往更好的方向修正。對比實(shí)驗證明,在加入自模仿策略后,智能體探索到的行為更加一致,也可以顯著(zhù)降低進(jìn)入危險區域的概率。
對于合成物品等需要長(cháng)鏈條的動(dòng)作序列的任務(wù),研究人員也做了細致的優(yōu)化。通過(guò)動(dòng)作序列一致性過(guò)濾 (Consistency Filtering) 與基于投票的集成學(xué)習 (Ensemble Learning),模型在合成物品階段的成功率從35%提升到96%,一舉將最薄弱的鏈條扭轉為了最穩定的制勝點(diǎn)。
利用高度復雜、高度定制化的游戲場(chǎng)景作訓練場(chǎng),騰訊 AI Lab 的深度強化學(xué)習智能體正不斷走近現實(shí)。棋牌游戲 AI “絕藝”從圍棋棋盤(pán)逐步走向象棋、麻將,策略協(xié)作型 AI “絕悟”從MOBA走向FPS、RTS,再到如今的 3D開(kāi)放世界 MineCraft。它們邁向全新挑戰的每一步,都讓AI離解決現實(shí)問(wèn)題、科技向善的大目標更近了一步。
隨著(zhù)虛實(shí)集成世界逐步變成現實(shí),這些研究的經(jīng)驗、方法與結論,將在真實(shí)世界創(chuàng )造更大的實(shí)用價(jià)值。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
