MIT人工智能實(shí)驗室發(fā)力!讓機器人告訴你5秒后的世界

韓璐 9年前 (2016-06-23)

這周MIT人工智能實(shí)驗室在視覺(jué)預測領(lǐng)域取得突破性進(jìn)展,讓機器預測下一秒的世界。

面對握手、擁抱、kiss……,基于經(jīng)驗和直覺(jué),我們總是能在動(dòng)作完成之前給予對方正確的回應,那機器人可不可以做到呢?答案是可以的!

MIT人工智能實(shí)驗室發(fā)力!讓機器人告訴你5秒后的世界

就在這周 ,MIT的計算機科學(xué)及人工智能實(shí)驗室(CSAIL)的研究者們在視覺(jué)預測領(lǐng)域取得了一項突破性進(jìn)展,使得預測交互行為算法的精確性得到了前所未有的提高。

在經(jīng)過(guò)大量視頻的情景訓練后,他們研究的系統能夠預測兩個(gè)人是否會(huì )擁抱,接吻,握手或者擊掌。下一階段,它還能預測視頻中5秒鐘后會(huì )出現的對象。

“人類(lèi)能夠通過(guò)自身經(jīng)驗去自動(dòng)學(xué)習行為預測,這也使我們對能否讓計算機獲得這種常識產(chǎn)生興趣。”CSAIL的博士生Carl Vondrick說(shuō)。對于研究團隊的成果,Vondrick表示:“我們想要展示的是,僅僅通過(guò)觀(guān)看大量視頻,計算機就能獲得足夠的知識來(lái)連續預測其周?chē)沫h(huán)境。”

MIT人工智能實(shí)驗室發(fā)力!讓機器人告訴你5秒后的世界

工作原理

值得一提的是,在這次研究開(kāi)發(fā)中,CSAIL團隊并沒(méi)有采取過(guò)往“預測型計算機視覺(jué)研究”中運用較為普遍的兩種方法,而是自行開(kāi)發(fā)出一種能夠預測“視覺(jué)表征”的算法,該算法利用了深度學(xué)習技術(shù)(人工智能的一個(gè)分支),即運用“神經(jīng)網(wǎng)絡(luò )”系統來(lái)教計算機觀(guān)察大量數據從而自動(dòng)找出模型。

對于這種算法,Vondrick給出的解釋是:“不是說(shuō)一個(gè)像素值為藍色,下個(gè)為紅色,等等這樣,視覺(jué)表征揭示了更大規模的圖片的信息,比如某個(gè)人臉像素的采集。”

在具體的運作過(guò)程中,每一個(gè)預測表征的這種算法網(wǎng)絡(luò ),都會(huì )被自動(dòng)歸類(lèi)為四種行為(擁抱,握手,擊掌或者kiss)之一,然后系統會(huì )融合所有行為于一體給出最終預測結果。例如,三個(gè)網(wǎng)絡(luò )預測kiss,另一個(gè)可能是擁抱。

當被問(wèn)到為何自行開(kāi)發(fā)算法的時(shí)候,Vondrick表示:“未來(lái)有著(zhù)天然的不確定性,所以去開(kāi)發(fā)一個(gè)運用這些表征來(lái)預測所有可能性的系統帶來(lái)的自我挑戰非常令人興奮。”

MIT人工智能實(shí)驗室發(fā)力!讓機器人告訴你5秒后的世界

成果展現

在運用算法進(jìn)行了600個(gè)小時(shí)無(wú)標簽視頻訓練后,研究團隊拿出一個(gè)新的視頻來(lái)對此系統進(jìn)行測試。

在視頻中的人物離完成四種動(dòng)作之一還有1秒鐘的時(shí)候,系統的預測準確度達到了43%,比之前的測試結果高出了7個(gè)百分點(diǎn)。

文章一開(kāi)始也說(shuō)過(guò),除了預測兩個(gè)人的動(dòng)作之外,這個(gè)算法還有一個(gè)目標——預測接下來(lái)5秒出現的對象?,F在讓我們來(lái)看看它所呈現的結果。

在第二項研究中,該算法展示了來(lái)自某個(gè)視頻的框架,并預測5秒后會(huì )出現的物體。例如某人打開(kāi)微波爐看見(jiàn)的是一個(gè)咖啡杯。對于該物體的預測結果,算法給出的預測準確性是測試基準的30%,盡管研究者們提醒說(shuō)平均精確度只有11%。千萬(wàn)不要看不起這數值哦,畢竟根據測試,人類(lèi)受試者的預測準確性也是能達到71%而已。

MIT人工智能實(shí)驗室發(fā)力!讓機器人告訴你5秒后的世界

未來(lái)目標

雖然到目前為止,CSAIL團隊開(kāi)發(fā)的這種算法在實(shí)際運用中的預測還不夠精確,但Vondrick還是很樂(lè )觀(guān)的表達了自己的態(tài)度:“可能會(huì )出現一些重大進(jìn)展,使我們離視覺(jué)預測在現實(shí)世界中的利用更近一些。”在他的未來(lái)展望中,此種算法的未來(lái)版本將能夠用于所有事情,從制定更優(yōu)行動(dòng)計劃的機器人,到發(fā)生人員跌落或傷亡時(shí)能夠通知急救人員的安全相機。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到