看Deepmind機器人尬舞,邊玩邊學(xué)AI技術(shù)
Deepmind通過(guò)增強學(xué)習讓木偶學(xué)習行走、跑跳。
在自然界中,無(wú)論是動(dòng)物,還是人類(lèi),都可以靈活而隨心所欲地做出一些動(dòng)作,比如猴子在樹(shù)上自由自在得擺動(dòng),或是NBA球員虛晃過(guò)對手,帥氣地投出籃球。但是在A(yíng)I 研究領(lǐng)域,想要讓機器人掌握這些動(dòng)作(物理上就是一種復雜的電機控制)卻不是一件容易的事,而這是AI研究領(lǐng)域的重要組成部分。
近日,Deepmind公布了智能電機的相關(guān)研究成果,展示了機器人學(xué)習如何控制和協(xié)調身體來(lái)解決在復雜環(huán)境中的任務(wù)。這一研究涉及不同領(lǐng)域,包括計算機動(dòng)畫(huà)和生物力學(xué)。
接下來(lái)我們帶領(lǐng)大家邊玩邊學(xué)。
在復雜環(huán)境中產(chǎn)生動(dòng)作行為
上一個(gè)小視頻,先睹為快
此刻,想必你已經(jīng)忍俊不禁了吧。視頻中,我們可以直觀(guān)感受到木偶的動(dòng)作是笨拙的。
此處采用的是增強學(xué)習,但不同于Deepmind此前開(kāi)發(fā)的Atari或Go,這里,需要準確描述復雜行為。具體來(lái)說(shuō),就是獎勵機制的不同,在A(yíng)tari和Go的開(kāi)發(fā)過(guò)程中,設計人員將得分作為獎勵,就可以依照預期來(lái)優(yōu)化系統。但是在連續的控制任務(wù)(如運動(dòng))中,獎勵信號的選擇就沒(méi)有那么容易,常常會(huì )出現獎勵信號的選擇不當,從而導致優(yōu)化結果與設計師期望不符。
由此,自然就會(huì )想到慎重選擇獎勵信號,以此來(lái)實(shí)現優(yōu)化,但是如果謹慎設計獎勵,也就等同于回避了增強學(xué)習的核心問(wèn)題:系統如何直接從有限的獎勵信號中自主學(xué)習,讓木偶實(shí)現豐富而有效的動(dòng)作行為。
研究團隊表示,為了讓系統有自我學(xué)習的能力,他們選擇直面增強學(xué)習中的核心問(wèn)題。于是團隊以環(huán)境本身具有足夠的豐富性和多樣性為研究的主要背景,從兩方面實(shí)現學(xué)習:
一:預設一系列不同難度級別的環(huán)境,引導木偶學(xué)習和找到解決困難的方案;
二:因為過(guò)擬合,獎勵機制和動(dòng)作細節都具有一定的誤差,從而每一次運動(dòng)都有些微不同。發(fā)現不同方案之間的特殊性能差距,也將幫助系統有效學(xué)習。
為了使操控的木偶面對不同的地形有效的學(xué)習,研究團隊還開(kāi)發(fā)了增強學(xué)習算法。
首先,團隊開(kāi)發(fā)了強大的策略梯度算法,如信任區域策略?xún)?yōu)化(TRPO)和近端策略?xún)?yōu)化(PPO),其中,他們選擇將每次更新的參數綁定到信任區域以確保算法的穩定性。
其次,對于像廣泛使用的A3C算法以及相關(guān)算法,他們將其分配運用在許多并行的代理環(huán)境和實(shí)例中。
這樣,面對復雜的環(huán)境,通過(guò)自主學(xué)習,木偶自然就會(huì )有豐富而有效的行為表現。
通過(guò)對抗模仿人類(lèi)行為
再來(lái)看看下面的“群魔亂舞”
視頻中這些小人們是不是已經(jīng)不忍直視,不過(guò)專(zhuān)業(yè)的角度來(lái)看,技術(shù)上已經(jīng)很棒了。
據了解,構建可編程人形木偶的問(wèn)題可以追溯到幾個(gè)世紀以前。在1495年,達芬奇以裝甲騎士的形式構建了一個(gè)人形自動(dòng)機。騎士能夠通過(guò)曲柄傳遞的力量揮動(dòng),坐起來(lái),打開(kāi)和關(guān)閉其下巴。不像大多數鐘表只能產(chǎn)生沿著(zhù)單極循環(huán)的運動(dòng),機械騎士可以重新編程以改變其運動(dòng),從而能夠及時(shí)改進(jìn)手臂運動(dòng)方向或交替運動(dòng)順序。
現如今,在此系統中,最優(yōu)控制和增強學(xué)習能夠用來(lái)設計人形木偶的行為,并且神經(jīng)網(wǎng)絡(luò )能夠存儲動(dòng)作行為和靈活檢測多種運動(dòng)模式,將這幾種技術(shù)融合,可實(shí)現運動(dòng)控制。但研究團隊表示,依靠純增強學(xué)習(RL),會(huì )使運動(dòng)行為過(guò)于刻板,不符合設計期望。
通常,在計算機動(dòng)畫(huà)相關(guān)文獻中使用的替代性方案是采取運動(dòng)捕捉數據,將其加載到控制器中。在視覺(jué)上,采取這一方案的方法都產(chǎn)生了讓人滿(mǎn)意的運動(dòng)表現,然而,其中有些方法產(chǎn)生的狀態(tài)序列僅僅是理論上的,物理上并不適用。還有一些方法需要設計大量的組成因素,如成本函數。
而此處,為了從運動(dòng)捕捉數據中進(jìn)行仿制學(xué)習,研究團隊采用生成對抗模仿學(xué)習(GAIL),這是模仿學(xué)習中最近的一項突破,簡(jiǎn)言之,該方法就是以類(lèi)似于生成對抗網(wǎng)絡(luò )的方式產(chǎn)生模仿策略。與已存在的模仿學(xué)習相比,該方法的主要優(yōu)點(diǎn)是模仿與演示數據之間相似度的衡量不是基于預先設計好的度量值。
具體操作上,主要就是先訓練低級別控制器,通過(guò)使用GAIL的擴展來(lái)從運動(dòng)捕捉數據中生成行為信號,接著(zhù)將低級別控制器嵌入更大的控制系統中,其中高級別控制器通過(guò)RL學(xué)習調制低級別控制器來(lái)解決新任務(wù)。
顯然,通過(guò)對抗模仿學(xué)習,人偶會(huì )有更加靈活的身手。
強大的模仿能力
據悉,該系統的具體實(shí)現主要基于一種生成模型的神經(jīng)網(wǎng)絡(luò )架構,它能夠學(xué)習不同行為之間的關(guān)系。
首先,給其一個(gè)基本動(dòng)作,通過(guò)訓練,該系統可以自動(dòng)對最基本動(dòng)作進(jìn)行編碼,并且基于基本動(dòng)作及對抗學(xué)習,系統自動(dòng)微小改變來(lái)創(chuàng )新一個(gè)新動(dòng)作。同時(shí),研究團隊還表示他們的系統可以在不同類(lèi)型的行為之間切換。
總結
實(shí)現系統的靈活性和適應性是AI研究的關(guān)鍵因素,Deepmind研究團隊直面困難,專(zhuān)注于開(kāi)發(fā)靈活的系統,雖然目前系統模型依然粗糙,但是我們還是很期待后期進(jìn)一步的優(yōu)化和改進(jìn)后的成果。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
