人類(lèi)知識多余?Deepmind新一代AlphaGo Zero自學(xué)3天打敗AlphaGo

巫盼 8年前 (2017-10-19)

AlphaGo Zero3天時(shí)間就能達到擊敗李世石的AlphaGo Lee的水平,21天可以達到了之前擊敗柯潔的AlphaGo Master的水平。

今天凌晨,谷歌旗下Deepmind人工智能團隊發(fā)布了一篇轟動(dòng)AI界的論文,《Mastering the game of Go without human knowledge》(在沒(méi)有人類(lèi)知識的情況下掌握圍棋),一句話(huà)總結這篇論文,他們研發(fā)的AlphaGo大表哥AlphaGo Zero能夠在沒(méi)有人類(lèi)圍棋對弈數據的情況下,直接通過(guò)自我純強化學(xué)習,于短短的3天自我訓練時(shí)間后,以100:0的戰績(jì)擊敗曾經(jīng)的AlphaGo。

學(xué)霸中的戰斗機,大表哥AlphaGo Zero完全靠“悟性”登上圍棋巔峰

在下面的視頻中,DeepMind研究人員簡(jiǎn)單的介紹了新一代的AlphaGo Zero的基本原理,

DeepMind聯(lián)合創(chuàng )始人兼CEO Demis Hassabis表示:“AlphaGo Zero是我們項目中最強大的版本,它展示了我們在更少的計算能力,而且完全不使用人類(lèi)數據的情況下可以取得如此大的進(jìn)展。”

舉個(gè)簡(jiǎn)單的例子,AlphaGo是經(jīng)過(guò)大量的人工對弈數據學(xué)習和訓練才一點(diǎn)點(diǎn)登上圍棋的巔峰,它之所以能在去年打敗李世石,并且在今年以Master的身份戰勝排名世界第一的柯潔,都依賴(lài)于海量的人類(lèi)對弈數據。

但是它的大表哥AlphaGo Zero是從一個(gè)完全不懂圍棋知識和規則的神經(jīng)網(wǎng)絡(luò )開(kāi)始,AlphaGo Zero每天就默默的自己一個(gè)人玩,不會(huì )像我們一樣整天突擊學(xué)習各種歷史棋譜,參考前輩們的經(jīng)驗知識,它完全依靠自己的悟性(自我強化學(xué)習),在這個(gè)過(guò)程中,神經(jīng)網(wǎng)絡(luò )會(huì )不斷更新、調整,來(lái)預測落子的位置,發(fā)展新的策略。

值得注意的是,AlphaGo Zero的自我訓練強化時(shí)間更短,AlphaGo Zero只需要在4個(gè)TPU上花三天時(shí)間,自己左右互搏490萬(wàn)棋局。而它的大表弟AlphaGo需要在48個(gè)TPU上,花幾個(gè)月的時(shí)間,學(xué)習三千萬(wàn)棋局,才能打敗人類(lèi)。對于A(yíng)lphaGo Zero來(lái)說(shuō),3天時(shí)間就能達到了擊敗李世石的AlphaGo Lee的水平,21天可以達到了之前擊敗柯潔的AlphaGo Master的水平。

AlphaGo Zero給我們的啟發(fā)

Deepmind的論文中也公布了AlphaGo Zero的一些技術(shù)細節,現在也有不少文章分享了相關(guān)的技術(shù)原理,鎂客君簡(jiǎn)單的整理一下,其實(shí)主要在于A(yíng)lphaGo Zero有更深的網(wǎng)絡(luò )能更有效地直接從棋盤(pán)上提取特征。

AlphaGo Zero在自我對弈中,在每一個(gè)落點(diǎn)s,神經(jīng)網(wǎng)絡(luò )fθ都會(huì )進(jìn)行蒙特卡洛樹(shù)(MCTS)搜索,得出每一步落子的概率π,再根據游戲規則計算出最終的獲勝者z,這一過(guò)程可被視為一個(gè)強有力的評估策略操作。在這其中,神經(jīng)網(wǎng)絡(luò )參數不斷更新,落子概率和價(jià)值 (p,v)= fθ(s)也越來(lái)越接近改善后的搜索概率和自我對弈勝者 (π, z),而新的參數也會(huì )被用于下一次的自我對弈來(lái)以增強搜索的結果。

更多的技術(shù)原理可以參考下面的論文:

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

其實(shí)AlphaGo Zero之所以會(huì )一石激起千層浪,很大原因在于這種自我強化訓練,不需要過(guò)多人工標注樣本的自我強化訓練未來(lái)可能的應用前景。

想象一下,以后可能再也不用花費大量的時(shí)間去為人工智能的應用或者產(chǎn)品做海量的數據準備工作,更何況很多情況下,數據的獲取難度也非常之大。

尤其是很多小樣本應用領(lǐng)域內,大量的人工標注幾乎不可能實(shí)現,比如醫療數據方面,考慮到數據隱私性,以及各個(gè)醫院之間的互通性,這些都讓海量數據獲取和訓練難上加難。

而Demis Hassabis認為AlphaGo Zero的意義在于,“我們希望利用這樣的算法突破來(lái)幫助解決現實(shí)世界的各種緊迫問(wèn)題,例如蛋白質(zhì)折疊或新材料設計。如果我們能在這些問(wèn)題上取得與AlphaGo同樣的進(jìn)展,就有可能推動(dòng)人類(lèi)理解,并對我們的生活產(chǎn)生積極影響。”

AlphaGo Zero的技術(shù)理論是美好的,但是我們也需要思考的是,這種僅僅依靠神經(jīng)網(wǎng)絡(luò )算法來(lái)解決實(shí)際問(wèn)題,其實(shí)際應用的范圍到底有多大以及效果如何?

人工智能專(zhuān)家、美國北卡羅萊納大學(xué)夏洛特分校洪韜教授表示,早期人工智能火了之后,被神經(jīng)網(wǎng)絡(luò )“解決”的實(shí)際問(wèn)題寥寥無(wú)幾;美國密歇根大學(xué)人工智能實(shí)驗室主任Satinder Singh也表示,人工智能和人甚至動(dòng)物相比,所知所能依然極端有限。

回顧AlphaGo成名史,聊聊AlphaGo Zero的下一步

出生于2014年的AlphaGo,2015年就擊敗了樊麾,成為第一個(gè)無(wú)需讓子即可在19路棋盤(pán)上擊敗圍棋職業(yè)棋手的電腦圍棋程序。到了2016年3月,AlphaGo在和李世石的對戰中一舉成名,4:1的勝績(jì)讓它成為有史以來(lái)第一位非人類(lèi)的名譽(yù)職業(yè)九段;之后升級版AlphaGo以“Master”的稱(chēng)號,挑戰了中韓日臺的一流高手,最終60戰全勝;2017年,AlphaGo在浙江烏鎮,和我國圍棋選手柯潔進(jìn)行對戰,最終以打敗柯潔成為世界第一正式退役謝幕。

那么對于A(yíng)lphaGo Zero,大家也非常期待它會(huì )以什么樣的身份正式亮相,鎂客君覺(jué)得可能會(huì )是這樣的情景:

今年8月的時(shí)候,DeepMind 曾公開(kāi)宣布,星際爭霸 2 將會(huì )是其下一個(gè)目標。自學(xué)能力如此強的AlphaGo Zero極有可能會(huì )在星際爭霸AI中亮相。

和圍棋對弈相比,星際爭霸 AI 也是基于開(kāi)發(fā)者人工編寫(xiě)的規則和策略,此前的對戰中,AI會(huì )觀(guān)看海量的比賽數據,然后嘗試各種不同的策略,在反復的訓練和學(xué)習后,從其中選出最有可能獲勝的一種??梢韵胂?,按照AlphaGo Zero的自我強化學(xué)習能力,它完全能夠在自我博弈過(guò)程中去尋找到最佳的策略。

最后,在看到柯潔發(fā)的這條微博動(dòng)態(tài)后,

一聲唏噓,在這樣的人工智能面前,人類(lèi)的學(xué)習經(jīng)驗價(jià)值似乎越來(lái)越低,人類(lèi)會(huì )太多余嗎……

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到