復雜的中國駕駛場(chǎng)景,正是深度學(xué)習的優(yōu)勢

鎂客 9年前 (2016-06-07)

深度學(xué)習十分適合高度復雜場(chǎng)景下的自動(dòng)駕駛應用,尤其與增強學(xué)習相配合,能讓從感知到執行的過(guò)程變得簡(jiǎn)單。

編者按:本文作者李星宇,現地平線(xiàn)機器人汽車(chē)業(yè)務(wù)總監,前飛思卡爾應用處理器汽車(chē)業(yè)務(wù)市場(chǎng)經(jīng)理,原士蘭微電子安全技術(shù)專(zhuān)家。

復雜的中國駕駛場(chǎng)景,正是深度學(xué)習的優(yōu)勢

深度學(xué)習十分適合高度復雜場(chǎng)景下的自動(dòng)駕駛應用,尤其與增強學(xué)習相配合,能讓從感知到執行的過(guò)程變得簡(jiǎn)單。

谷歌和李世石的人機大戰引爆了公眾對于人工智能的關(guān)注,也讓基于深度學(xué)習的人工智能成為汽車(chē)業(yè)界關(guān)注的重點(diǎn),那么深度學(xué)習在智能駕駛的應用場(chǎng)景下有什么幫助呢?

自動(dòng)駕駛最先出現在美國,而不是歐洲或者日本,更不是中國,非常關(guān)鍵的一個(gè)原因在于,美國的駕駛環(huán)境相對于其它地區而言,是最簡(jiǎn)單的,無(wú)論是道路情況還是駕駛習慣。這就意味著(zhù),開(kāi)發(fā)一個(gè)自動(dòng)駕駛原型產(chǎn)品的技術(shù)難度可以大大降低。

這種高度復雜的場(chǎng)景很難用有限的規則來(lái)定義清楚,所以傳統的算法的表現往往無(wú)法滿(mǎn)足自動(dòng)駕駛的要求,而深度學(xué)習非常適合在復雜場(chǎng)景下的自動(dòng)駕駛應用。如果這個(gè)場(chǎng)景足夠簡(jiǎn)單的話(huà),深度學(xué)習并不能表現出相對于其它基于傳統模式識別方法的優(yōu)勢。

更具體一點(diǎn)來(lái)講,對于非結構化數據的識別、判斷、分類(lèi)是它的優(yōu)勢所在。圖像、語(yǔ)音都是非結構化的,而像 Excel 表格上的數據,我們稱(chēng)之為結構化的數據。自動(dòng)駕駛所面臨的環(huán)境,如果表達出來(lái),正是非結構化的數據,深度學(xué)習可以很好地處理這種場(chǎng)景。

深度學(xué)習的前沿技術(shù)

深度學(xué)習的發(fā)展其實(shí)有很長(cháng)的歷史,它的原理從上世紀五十年代末期就已經(jīng)出,80 年代在手寫(xiě)體數字的識別方面取得相當的成就,并應用于美國的郵政系統。但其真正崛起還是在十年前開(kāi)始的。

這里面其實(shí)是有時(shí)代的大背景的因素,這個(gè)時(shí)代提供了深度學(xué)習兩個(gè)最關(guān)鍵的助推引擎:大數據和高性能處理器。深度學(xué)習非常適合利用大數據提高性能,隨著(zhù)用于訓練的數據量不斷增加,深度學(xué)習的性能也得到持續的提升。

事實(shí)上到目前為止,我們還沒(méi)有發(fā)現其性能提升的上限。這是深度學(xué)習目前受到關(guān)注的一個(gè)非常重要的原因。過(guò)去很難獲得如此大量的數據,也缺乏足夠強勁的計算平臺,而今天隨著(zhù)物聯(lián)網(wǎng)的發(fā)展,據獲取已經(jīng)不再是問(wèn) 題。另一方面,著(zhù)單個(gè)處理器的性能進(jìn)入 TFLOPS 時(shí)代,深度學(xué)習所需要海量計算已經(jīng)在經(jīng)濟上變得可承受了。谷歌的 AlphaGo 的計算能力是當年擊敗國際象棋冠軍的 IBM 深藍的三萬(wàn)倍。要知道當年的深藍可是大型機,成本不是一般應用可以承受的。

從 2012 年 Hinton 和他的學(xué)生 Alex 在國際上權威的圖像識別領(lǐng)域 Imagenet 比賽奪冠以來(lái),深度學(xué)習目前已經(jīng)可以達到 97%的識別準確率,超過(guò)普通人的 95% 的識別準確率。機器視覺(jué)的識別能力超過(guò)人類(lèi),這是人工智能領(lǐng)域了不起的成就, 而這一切在僅僅 4 年的時(shí)間內就實(shí)現,則更凸顯了深度學(xué)習的潛力和業(yè)界的研究 熱潮。深度學(xué)習還在持續擴展其潛力,在人臉識別方面的準確率可達 99.5%以 上(基于 LFW 數據庫)。

很多人也會(huì )問(wèn),到底深度學(xué)習是一個(gè)什么樣的東西?要用簡(jiǎn)單的話(huà)解釋清楚其實(shí)是一件很有挑戰性的事情,它涉及很多較為抽象的基礎知識,比較形象地描述:深度學(xué)習其實(shí)是對人的大腦識別機制的模擬。

舉個(gè)例子,我看到對面走來(lái)一個(gè)人,瞬間就可以判斷出這個(gè)人是我的同事。眼睛獲取的影像有幾十萬(wàn)像素, 需要上百萬(wàn)字節去描述,而大腦經(jīng)過(guò)處理后,可以將它簡(jiǎn)化為幾個(gè)字節,就是同事的名字。人的大腦可以非常高效地處理海量的非結構化數據,把其中的內容識別出來(lái),用極其精簡(jiǎn)的信息去描述。這也正是深度學(xué)習的本質(zhì)——把復雜信息精簡(jiǎn)地表達出來(lái)。

技術(shù)化的描述是:基于數據驅動(dòng)的、自動(dòng)學(xué)習要建模的數據的潛在(隱含)分布的多層(復雜)表達的算法。目前深度學(xué)習使用最多的建模技術(shù)是多層卷積神經(jīng)網(wǎng)絡(luò ),并建立大量的隱含層(可達上百層)。

這個(gè)技術(shù)出現已經(jīng)很久了,但在此之前一直表現不好,那個(gè)時(shí)候大家都是在小規模樣本下進(jìn)行的,對于參數的調整非常困難。深度學(xué)習一個(gè)最大的突破就是,將參數的計算自動(dòng)化,人不再進(jìn)行干預,而是讓它通過(guò)大量的數據學(xué)習,自己確定這個(gè)參數。

深度學(xué)習的技術(shù)也在快速演進(jìn),比如 LSTM(長(cháng)短期記憶模型)的使用,賦予深度神經(jīng)網(wǎng)絡(luò )保存狀態(tài)的能力。也就是,我們將賦予機器記憶的能力。

它的用途在哪里呢?拿玩游戲來(lái)說(shuō)。比如射擊類(lèi)的游戲,目前基于深度學(xué)習和增強學(xué)習的人工智能系統可以有非常出色的表現,因為它不需要記住過(guò)去的游戲狀態(tài),而當機器玩一些策略類(lèi)游戲 的時(shí)候,比如星際爭霸,沒(méi)有記憶能力導致它無(wú)法進(jìn)行長(cháng)時(shí)間跨度的策略規劃,與人的表現就相差甚遠。

LSTM 使得深度神經(jīng)網(wǎng)絡(luò )從一個(gè)二維空間網(wǎng)絡(luò )變成了一 個(gè)時(shí)空結構的網(wǎng)絡(luò ),即在時(shí)間尺度上也表現出深度,結果就是機器不需要從頭開(kāi)始認知,而是把過(guò)去和現在連接在一起,規劃下一步的行動(dòng)。顯然,這讓大型的策略類(lèi)游戲成為機器的下一個(gè)征服目標。上周傳出消息 AlphaGo 要在今年內對戰柯潔,期待一下 AlphaGo 的下一次驚艷出場(chǎng)吧。

深度學(xué)習的注意力模型也是一個(gè)技術(shù)熱點(diǎn),它是對整個(gè)場(chǎng)景進(jìn)行語(yǔ)義級別的理解,可以讓機器鎖定圖像中我們需要關(guān)注的部分。在未來(lái)幾年,這些技術(shù)可以讓機器理解視頻流,并將其轉化為直接的語(yǔ)義述。這么說(shuō)吧,結合上面的技術(shù),機器可以跟你一起看電影,并分享對于電影的理解(單身狗的福利呀,一個(gè)人去電影院也不會(huì )感到寂寞了,只要帶著(zhù)你的機器寵物一起去) 。

總體來(lái)講,具備深度學(xué)習能力的設備就好像是一個(gè)有生命力的機器,它會(huì )隨著(zhù)數據訓練的過(guò)程逐步成長(cháng),它的本領(lǐng)是可以持續提高的,而且這種本領(lǐng)可以被復制到另一個(gè)設備中。

深度學(xué)習與增強學(xué)習雙管齊下通往自動(dòng)駕駛

深度學(xué)習對感知有非常強的能力,可以理解各種復雜圖像的含義,但是它并不能把這種感知轉化為決策能力。增強學(xué)習就是用來(lái)解決這個(gè)問(wèn)題。

如果打個(gè)比方的話(huà),增強學(xué)習借鑒了馴獸員的方法,不教動(dòng)物們任何規則(當然也教不會(huì )呀), 一開(kāi)始讓動(dòng)物們隨便地做各種動(dòng)作。當其中有一個(gè)動(dòng)作是符合期望的時(shí)候,立即給它們好吃的,就是增強了它們繼續這個(gè)動(dòng)作的動(dòng)力。隨著(zhù)訓練時(shí)間和次數的增加,動(dòng)物們就會(huì )真的在頭腦里建立一個(gè)規則:做某個(gè)動(dòng)作可以得到好吃的。因而,將其稱(chēng)之為「增強(reinforcement)」學(xué)習的原因。

某種意義上,這也借鑒了管理學(xué)上的結果導向的理念,有兩個(gè)關(guān)鍵點(diǎn):第一,只看重結果,不關(guān)心過(guò)程或者動(dòng)機;第二,對于每一次行動(dòng),及時(shí)獎懲,強化認知。

自動(dòng)駕駛的整個(gè)系統,一般來(lái)說(shuō)由三個(gè)層級組成:感知層、規劃決策層和控制執行層。深度學(xué)習和增強學(xué)習結合的結果,會(huì )使得感知和執行以前所未有地方式真正緊密地結合在一起,完成自動(dòng)駕駛。

1.感知

感知層的任務(wù)是完成環(huán)境態(tài)勢感知,這個(gè)是自動(dòng)駕駛的核心環(huán)節。在自動(dòng)駕駛中,任何執行動(dòng)作都要以理解整個(gè)駕駛環(huán)境為前提。這里面分為兩層:車(chē)外環(huán)境和車(chē)內環(huán)境。

對于車(chē)外環(huán)境,首先是多種傳感器的輸入,比如多攝像頭、毫米波雷達以及激光雷達等,通過(guò)融合映射到一個(gè)統一的坐標系中,這些圖像信息需要進(jìn)行物體的識別和分類(lèi),比如車(chē)道、路肩、車(chē)輛、行人等等,這正是深度學(xué)習的優(yōu)勢。利用深度學(xué)習,在計算系統中重構出來(lái)一個(gè) 3D 環(huán)境,這個(gè)環(huán)境中的各個(gè)物體都會(huì )被識別并理解。

對于車(chē)內環(huán)境,是指對車(chē)內駕駛員的感知,包括其疲勞程度、駕駛意圖等,這將給后面的決策控制提供決策基礎信息,如疲勞檢測系統在檢測到駕駛員進(jìn)入嚴重的疲勞狀態(tài)后,自動(dòng)將駕駛狀態(tài)從人工操控轉為自動(dòng)駕駛。

2.局部路徑規劃

這里需要對整個(gè)車(chē)外環(huán)境中車(chē)輛、交通狀況和行人等的意圖或者在一段時(shí)間內的行為進(jìn)行預測,再根據本車(chē)的狀態(tài)和意圖,結合前面的環(huán)境感知結果和高精度地圖提供的道路信息等,規劃出最佳的行駛路徑,這個(gè)規劃需要可以滿(mǎn)足駕駛意圖,并對周?chē)能?chē)輛友好、安全。

通過(guò)積累大量的數據進(jìn)行足夠的訓練,基于深度學(xué)習的系統可以給出最優(yōu)規劃。當然,這種規劃不能單純依賴(lài)深度學(xué)習的預判,它必須和交通規則的專(zhuān)家系統,以及其它高可靠性手段結合,才可以達到實(shí)用。例如 V2X 的普及,會(huì )使得本車(chē)可以在超視距范圍內,精確地獲取周?chē)?chē)輛的位置、速度以及駕駛意圖(轉彎/變道)等。

3.決策控制

在路徑規劃確定后,自動(dòng)駕駛系統需要進(jìn)行本車(chē)意圖決策,比如什么時(shí)候進(jìn)行超車(chē)、什么時(shí)候轉彎、選擇什么時(shí)機進(jìn)行變道是最優(yōu)的等等。自動(dòng)駕駛系統需要學(xué)習人類(lèi)開(kāi)車(chē)的習慣,學(xué)會(huì )如何在復雜的會(huì )車(chē)場(chǎng)景下進(jìn)行操作、保持合理的車(chē)距等,更進(jìn)一步地,學(xué)習主人的開(kāi)車(chē)習慣,在滿(mǎn)足安全性的前提下,盡量使自動(dòng)駕駛的風(fēng)格與其開(kāi)車(chē)行為相適應,提供更好的用戶(hù)體驗,并優(yōu)化自己的駕駛效率。很顯然,這里增強學(xué)習是非常適合的技術(shù)。

目前,前沿的研究人員正利用深度學(xué)習和增強學(xué)習開(kāi)展一些非常炫酷的功能,例如完成從原始傳感器數據到實(shí)際動(dòng)作執行器的直接過(guò)渡。

在今年的 CES 展上,豐田展示了一套類(lèi)似的自動(dòng)駕駛演示系統,在一塊布有障礙并有指示方向的方形地形中,8 輛沒(méi)有駕駛經(jīng)驗的模型車(chē),將傳感器監測到的環(huán)境信息輸入深度學(xué)習系統,并將深度學(xué)習系統與油門(mén)、制動(dòng)和方向輸出連接。經(jīng)歷約 4 個(gè)小時(shí)的學(xué)習后, 基本實(shí)現了零事故。

自動(dòng)駕駛的測試是一個(gè)非常耗時(shí)、費錢(qián)的工作,谷歌累計的自動(dòng)駕駛實(shí)際道路測試里程已經(jīng)超過(guò) 100 萬(wàn)英里,如何更高效地測試也是自動(dòng)駕駛領(lǐng)域的一個(gè)關(guān)鍵問(wèn)題。

從理論上講,我們可以用計算系統去模擬實(shí)際道路的情形,如果我們可以對道路上的各個(gè)要素進(jìn)行準確地建模, 并且模擬這些要素的行為,例如超車(chē)、剎車(chē)、變道。利用蒙特卡洛模擬,配合增強學(xué)習的技術(shù),就能構建一個(gè)自主運行的系統。這個(gè)系統本身在不需要耗費一滴汽油的情況下,產(chǎn)生大量的模擬場(chǎng)景,發(fā)現自動(dòng)駕駛原型的各種缺陷,并獲得大量的數據。就像谷歌訓練它的 AlphaGo 一樣。

結語(yǔ)

去年 10 月,豐田宣布投入 10 億美元,設立一家專(zhuān)注于研發(fā)人工智能的新公司 Toyota Research Institute,希望打造像人類(lèi)一樣會(huì )自己「思考」的、可以應對突發(fā)情況的汽車(chē), 讓自動(dòng)駕駛技術(shù)更加可靠。

去年年底,豐田還投資了 Preferred Networks,另外一家深度學(xué)習領(lǐng)域的初創(chuàng )公司,通用則直接收購了初創(chuàng )公司 Cruise Automation,只要看名字你就知道這家公司是干什么的。

真金白銀的投入,其背后折射出的是車(chē)廠(chǎng)對于深度學(xué)習技術(shù)的認可。奧迪在 2015 年首次在美國從硅谷自動(dòng)駕駛至拉斯維加斯測試其基于 A7 的自動(dòng)駕駛汽車(chē)時(shí),就明確表示:“自動(dòng)駕駛的關(guān)鍵是深度學(xué)習”。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到