通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

韓璐 9年前 (2016-12-05)

OpenAI昨天發(fā)布OpenAI Universe,這是一個(gè)能在幾乎所有環(huán)境中衡量和訓練AI通用智能水平的開(kāi)源平臺,當下的目標是讓A 智能體像人一樣使用計算機。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

繼今年4月發(fā)布OpenAI Gym之后,OpenAI昨天又推出了新平臺—— Universe:一個(gè)用于訓練解決通用問(wèn)題AI的基礎架構。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

根據官博介紹,Universe是一個(gè)能在世界上所有的游戲、網(wǎng)站和其他應用中,衡量和訓練AI通用智能的軟件平臺。

Universe要讓AI智能體能像人一樣使用計算機:通過(guò)看顯示屏,操作虛擬鍵盤(pán)和鼠標。我們必須全方位地訓練AI系統,解決我們想要它們解決的問(wèn)題,而Universe則讓我們能夠訓練單一的智能體,執行任何人類(lèi)能使用計算機來(lái)完成的任務(wù)。

今年4月,OpenAI發(fā)布了OpenAI Gym,后者是一套用于開(kāi)發(fā)和比較強化學(xué)習算法的工具。有了Universe,任何程序都能被接入(be turned into)到OpenAI Gym的環(huán)境中。Universe通過(guò)在VNC遠程桌面后自動(dòng)啟動(dòng)程序來(lái)運作,不需要任何特殊的程序接口、源代碼或bot API。

OpenAI當前發(fā)布的版本含有1000個(gè)環(huán)境,包括Flash游戲、瀏覽器任務(wù)(browser tasks),以及像slither.io和GTA V這樣的游戲。還有更多這類(lèi)環(huán)境可供訓練強化學(xué)習,幾乎所有都能在Universe運行,使用universe Phython庫運行

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

以上樣本代碼將讓你的AI開(kāi)始玩Flash游戲《Dusk Drive》。當然,你得安裝Docker和univers才行。

我們的目標是開(kāi)發(fā)單一的一個(gè)AI智能體,使其能夠靈活運用過(guò)去在Universe中的經(jīng)驗,快速在陌生和困難的環(huán)境中取得掌控權,這也是通往通用智能的重要一步。

你可以以很多種方式參與OpenAI Universe:授權OpenAI使用你的游戲、在Universe不同任務(wù)中訓練智能體,以及接下來(lái)即將推出的整合新游戲,以及讓智能體玩這些新的游戲。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

Universe部分參與單位,完整列表見(jiàn)文末

背景

人工智能領(lǐng)域在過(guò)去幾年中取得了快速進(jìn)展。計算機現在可以以前所未有的精度查看、聽(tīng)取和翻譯語(yǔ)言。計算機也在學(xué)習生成圖像、聲音和文本。強化學(xué)習系統AlphaGo擊敗了人類(lèi)世界圍棋冠軍。然而,盡管取得了所有這些進(jìn)步,目前的AI系統仍然屬于“狹義AI”——可以在特定領(lǐng)域實(shí)現超人的表現,但缺乏在該領(lǐng)域外合理執行任務(wù)的能力。例如,AlphaGo可以輕松地在圍棋上擊敗你,但你不能期望讓它陪你一起玩其他游戲。

具有一般問(wèn)題解決能力的系統——類(lèi)似于擁有人類(lèi)常識,讓智能體能夠快速解決新的困難任務(wù)——目前仍然是不存在的。一個(gè)顯而易見(jiàn)的挑戰是,現在的智能體還不能將其經(jīng)驗攜帶到新的任務(wù)中。在標準訓練制度下,智能體從零開(kāi)始初始化,隨機抽取數千萬(wàn)試驗中的一個(gè),經(jīng)過(guò)不斷試錯、學(xué)會(huì )重復行為,最終得到有益的結果。如果要向通用AI智能體取得進(jìn)展,我們必須讓智能體經(jīng)歷一系列不同的任務(wù),以便它們能夠發(fā)展出關(guān)于世界的知識和解決問(wèn)題的策略,以便在新任務(wù)中有效地重復使用這些東西。

通用框架

Universe通過(guò)一個(gè)通用的接口適用于各種場(chǎng)景:智能體通過(guò)捕捉屏幕的像素生成對鍵盤(pán)和鼠標的命令來(lái)操作遠程桌面。場(chǎng)景需要VNC服務(wù)器,universe 庫將智能體轉換為VNC客戶(hù)端。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

Universe 的設計目標是支持單個(gè)的Python進(jìn)程,以每秒60幀的速度并行驅動(dòng)20個(gè)場(chǎng)景。每個(gè)屏幕的緩沖區是 1024×768,因此用外部進(jìn)程直接讀取每一幀需要3GB/s的內存帶寬。我們用Go寫(xiě)了一個(gè)面向批處理的VNC服務(wù)器,它可以作為Python共享庫加載,并且逐步更新每個(gè)場(chǎng)景的一對緩沖區。在嘗試了許多VNC服務(wù)器、編碼器和無(wú)證書(shū)協(xié)議選項的組合之后,現在的組合能以60幀/秒的速度驅動(dòng)幾十個(gè)場(chǎng)景,延遲是100毫秒——這些延遲幾乎都是服務(wù)器端編碼引起的。

以下是我們當前實(shí)現的一些重要特性:

通用性。智能體可以使用這個(gè)接口(最初是為人類(lèi)設計的)與現有的任何計算機程序交互,而不需要仿真器或接入程序內部。例如,智能體可以玩任何一款計算機游戲,與終端交互,瀏覽網(wǎng)頁(yè),使用CAD軟件制圖,使用圖片編輯軟件或者編輯電子表格,等等。

熟悉性。由于人們已經(jīng)非常熟悉這些像素/鍵盤(pán)/鼠標的界面,人們可以輕松操作universe的任何場(chǎng)景。我們可以使用人類(lèi)表現作為有意義的基準,只需簡(jiǎn)單地保存VNC流量記錄跟蹤人類(lèi)的演示。我們發(fā)現,在轉換到增強學(xué)習為給定的激勵函數進(jìn)行優(yōu)化前,這些演示在對使用行為克?。词褂帽O督學(xué)習模擬人類(lèi)行為)的合理策略的智能體進(jìn)行初始化時(shí)非常有用。

以VNC作為標準。VNC的許多實(shí)現都可以在線(xiàn)使用,而且包括OSX在內的一些實(shí)現已經(jīng)默認封裝到常見(jiàn)的操作系統中。在JavaScript中甚至有允許用戶(hù)提供演示而無(wú)需安裝任何新軟件的VNC實(shí)現——這對Amazon Mechanical Turk之類(lèi)的服務(wù)非常重要。

易于調試。我們可以在智能體正在訓練或評估時(shí)進(jìn)行調試,只需將VNC客戶(hù)端附加到共享環(huán)境的VNC桌面。還可以保存VNC流量供以后分析。

我們都很驚訝VNC的作用如此強大。隨著(zhù)我們的游戲更大型,我們將開(kāi)始使用額外的后端技術(shù)。但初步的跡象表明,現有的實(shí)現能夠更好:設置正確的話(huà),用戶(hù)能夠以每秒20幀的速率在公共互聯(lián)網(wǎng)上運行GTA V。

環(huán)境

我們已經(jīng)在Universe中加入了大量的運行環(huán)境,并且,我們認為這僅僅是一個(gè)開(kāi)始。每一個(gè)環(huán)境都被打包成一個(gè)Docker圖像,包含了兩個(gè)服務(wù)器,來(lái)與外部的環(huán)境進(jìn)行溝通:VNC服務(wù)器會(huì )向顯示器發(fā)出信號,并接收鍵盤(pán)或者鼠標發(fā)出的指令;WebSocket服務(wù)器會(huì )發(fā)出強化學(xué)習任務(wù)所反饋的信號(以及所有的輔助信息,比如文本或者診斷),此外,還會(huì )接收控制信息(比如要運行的具體環(huán)境ID)。

Atari 游戲

Universe包含Arcade學(xué)習環(huán)境中2600種Atari游戲。這些環(huán)境現在在quay.io/openai/universe.gym-core的Docker圖像上異步運行,并允許智能體在網(wǎng)絡(luò )之上進(jìn)行連接,這意味著(zhù)智能體必須要處理延時(shí)和低幀率。通過(guò)在云上的局部網(wǎng)絡(luò )上運行,我們通??梢赃_到60幀每秒,觀(guān)察滯后20毫秒,行動(dòng)滯后10毫秒。在整個(gè)公共的互聯(lián)網(wǎng)上,能降到20幀每秒,觀(guān)察滯后80毫秒,行動(dòng)滯后30毫秒。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

Flash 游戲

在Universe的擴展上,我們把Flash游戲作為一個(gè)起始點(diǎn),這些游戲在互聯(lián)網(wǎng)上幾乎是無(wú)處不在dd ,總體上特征比Atari 要豐富得多,但是個(gè)體上依然非常簡(jiǎn)單。我們已經(jīng)篩選了超過(guò)3萬(wàn)個(gè)游戲,并預計,還有一個(gè)數量級的游戲沒(méi)有收錄。

最初發(fā)布的Universe包含了1000個(gè)Flash 游戲(其中有100個(gè)有回饋函數),在獲得所有權持有者的同意之后,我們把它們發(fā)布在了quay.io/openai/universe.flashgames Doker image上。此圖像開(kāi)啟TigerVNC服務(wù)器并啟動(dòng)Python控制服務(wù)器,該控制服務(wù)器使用Selenium將所需游戲的Chrome瀏覽器打開(kāi)到容器內頁(yè)面,并自動(dòng)點(diǎn)擊啟動(dòng)游戲所需的任何菜單。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

提取回饋

雖然沒(méi)有回饋函數的環(huán)境可用于無(wú)監督學(xué)習,或者用于生成類(lèi)人的展示,但是,強化學(xué)習(RL)需要回饋函數。與Atari游戲不同,我們不能簡(jiǎn)單地從對內存的處理中讀取成功的標準,并且,關(guān)于每一個(gè)游戲如何儲存這些信息,其中還有很多的變量。

幸運的是,許多游戲都會(huì )有顯示在屏幕上的得分情況,這可以當成是一個(gè)回饋函數,只要我們能合理地解釋這些分數。雖然現成的OCR(例如Tesseract)在具有干凈背景的標準字體上表現很好,但它在許多游戲中常常遇到多樣字體,移動(dòng)背景,動(dòng)畫(huà)或遮擋物體等難題。

我們開(kāi)發(fā)了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò )的OCR模型,該模型在Docker容器的Python控制器中運行,解析得分(通過(guò)VNC自循環(huán)維護的屏幕緩沖區),并通過(guò)WebSocket通道將其傳遞給智能體。 我們的得分OCR模型發(fā)揮了作用。人類(lèi)積分等級員提供了分數的上下界限。OCR模型以每秒60幀的速度解析分數。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

瀏覽器任務(wù)

在人類(lèi)集體的努力下,現在互聯(lián)網(wǎng)已經(jīng)被建設成一個(gè)關(guān)于信息的巨大寶藏,用于人類(lèi)的視覺(jué)消費。Universe包含了給予瀏覽的環(huán)境,這些環(huán)境要求AI智能體能讀、導航,像人類(lèi)一樣使用網(wǎng)站、顯示器、鍵盤(pán)和鼠標。

目前,我們的智能體主要學(xué)習與常見(jiàn)的用戶(hù)交互元素(如按鈕,列表和滑塊)進(jìn)行交互,但是將來(lái)他們可以完成更復雜的任務(wù),例如在互聯(lián)網(wǎng)上查找他們不知道的事情,管理電子郵件或日歷,完成Khan Academy課程,或者完成亞馬遜Mechanical Turk 和CrowdFlower等任務(wù)。

Mini World of Bits

我們首先計劃創(chuàng )建一個(gè)新的基準,能在一個(gè)簡(jiǎn)單的設定下,捕捉瀏覽器交互中的一個(gè)的一個(gè)顯要難題。我們把這個(gè)基準稱(chēng)為Mini World of Bits.

我們認為這可以跟MNIST類(lèi)比,并且認為,能夠掌握這些環(huán)境為模型和訓練技術(shù)提供了有價(jià)值的信息,這些技術(shù)將在整個(gè)網(wǎng)站和更復雜的任務(wù)上有良好的表現。我們最初的Mini World of Bits基準包括80個(gè)環(huán)境,從簡(jiǎn)單(例如,點(diǎn)擊特定按鈕)到困難(例如,在模擬電子郵件客戶(hù)端中回復聯(lián)系人)都有。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

現實(shí)世界中的瀏覽任務(wù)。我們已經(jīng)開(kāi)始在更加具有現實(shí)意義的瀏覽任務(wù)上進(jìn)行研究。智能體在獲得一份說(shuō)明書(shū)后,開(kāi)始在網(wǎng)頁(yè)上執行一系列任務(wù)。一個(gè)這樣的環(huán)境交給智能體一個(gè)具體的任務(wù):預定航班。要求其操縱用戶(hù)界面以搜索航班。(我們使用這些網(wǎng)站的緩存記錄,以避免發(fā)送垃圾郵件,或預訂大量真實(shí)的航班)。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

未來(lái)的融合

這種基礎設施是通用的:我們可以集成任何可以在Docker容器(最方便)或Windows虛擬機(不太方便)中運行的游戲,網(wǎng)站或應用程序。我們希望獲得整個(gè)研究社區的幫助,繼續延伸Universe環(huán)境的廣度,包括完成合作伙伴的游戲、Android應用程序(模擬器可以在Docker內部運行)、fold.it、Unity游戲、HTML5游戲、在線(xiàn)教育游戲等等,以及別人能想到的任何事。 微軟的Malmo團隊將與Universe集成,我們也期待著(zhù)支持其他AI框架。

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

OpenAI研究員還在文章中表示,研究進(jìn)步要求對其水平進(jìn)行有實(shí)際意義的衡量。在接下來(lái)的幾周內,他們將發(fā)布一個(gè)遷移學(xué)習基準,允許研究人員確定他們是否在機器的通用問(wèn)題解決能力研究方面取得進(jìn)展。

Universe從計算機視覺(jué)ImageNet數據集的發(fā)展中獲得靈感。李飛飛和她的合作者故意把ImageNet的基準設計為幾乎不可能做到的,但圖像識別的錯誤率從2010年的28%迅速下降到2016年的3%,達到(在某些情況下甚至超過(guò))人類(lèi)的水平。如果AI社區在Universe上也一樣發(fā)展的話(huà),那么我們在研究普適性的、通用的人工智能系統上,將會(huì )取得真正的進(jìn)展。”

通用人工智能的新宇宙:OpenAI重磅發(fā)布AGI測試訓練平臺Universe

【編者按】本文轉自新智元。文章來(lái)源:openai.com,編譯:王楠、劉小芹、胡祥杰。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到