清華大學(xué)鄧志東:“特征提取+推理”的小數據學(xué)習才是AI崛起的關(guān)鍵
人類(lèi)是可以進(jìn)行推理的,只需要從小數據、小樣本中學(xué)習,然后用特征+推理的方法就可以進(jìn)行可靠的判別,這就是人類(lèi)舉一反三的能力。
鄧志東
清華大學(xué)計算機系教授,博士生導師
2017年7月,北京,清華大學(xué)。
天氣一如既往的熱,仿佛要把你的五臟六腑烤干。
當然,跟氣溫一樣火熱的,還有當下的人工智能。
在辦公室見(jiàn)到鄧志東教授,也算是踩著(zhù)點(diǎn)了。因為他剛剛從一個(gè)大會(huì )上回來(lái),據說(shuō)為了這次采訪(fǎng),教授特意要求把自己的發(fā)言順序調到了第一個(gè)......
鄧教授是一個(gè)非常直爽的人。整個(gè)采訪(fǎng)過(guò)程,熱情周到、快言快語(yǔ)、妙語(yǔ)連珠,完全沒(méi)有一絲科學(xué)家的“標準”形象。不過(guò),他頭上的光環(huán)卻絕對是標準的科學(xué)范兒:中國自動(dòng)化學(xué)會(huì )智能自動(dòng)化專(zhuān)業(yè)委員會(huì )主任、中國自動(dòng)化學(xué)會(huì )智能制造專(zhuān)業(yè)委員會(huì )副主任、中國人工智能產(chǎn)業(yè)創(chuàng )新聯(lián)盟專(zhuān)家委主任委員......
本文整體思路脈絡(luò ):
▉ 人工智能:三起兩落的傳奇
1、感知機和它的致命缺陷
2、人工智能的第二次高潮和不切實(shí)際的幻想
3、現在,正是人工智能最好的時(shí)期
4、從弱人工智能到超人工智能,我們還有漫長(cháng)的路要走
▉ 任何AI技術(shù),只要達到或超過(guò)人的水平,它就具備商業(yè)價(jià)值
1、支撐無(wú)人超市的技術(shù)已趨成熟,但商業(yè)模式尚未明確
2、至少5大領(lǐng)域已經(jīng)成熟,但落地之前需要極大的付出
▉ 人類(lèi)基于“特征提取+推理”的小樣本、小數據學(xué)習
1、下一次的技術(shù)突破或爆發(fā),應該具備哪些條件?
2、卷積神經(jīng)網(wǎng)絡(luò )的缺陷和解決方案
▉ 代碼開(kāi)源,反映出AI之下,核心商業(yè)思路和模式的全新變革
正文:
人工智能:三起兩落的傳奇
1956年,以麥卡錫、明斯基、香農和羅切斯特等為首的一批年輕科學(xué)家在一起聚會(huì ),共同研究和探討用機器模擬智能的一系列有關(guān)問(wèn)題,并首次提出了“人工智能”這一術(shù)語(yǔ),由此標志著(zhù)“人工智能”這門(mén)新興學(xué)科的正式誕生。
感知機和它的致命缺陷
“之后的1957年,美國認知心理學(xué)家Rosenblatt等首次提出了一種稱(chēng)之為‘感知機’(Perceptron)的人工神經(jīng)網(wǎng)絡(luò )模型。主要是基于1943年由美國心理學(xué)家麥卡洛克和數理邏輯學(xué)家皮特斯提出的MP人工神經(jīng)元模型進(jìn)行構建的前饋網(wǎng)絡(luò ),旨在發(fā)展出一種模擬生物系統感知外界信息的簡(jiǎn)化模型。‘感知機’主要用于分類(lèi)任務(wù),由此開(kāi)創(chuàng )了神經(jīng)網(wǎng)絡(luò )的第一次熱潮。
“不過(guò)當時(shí)的感知機是單層的,只有輸出層沒(méi)有隱含層。但單層的感知機,有一個(gè)先天性的致命缺陷:解決不了線(xiàn)性不可分的兩類(lèi)樣本的分類(lèi)問(wèn)題。而要是加了隱層以后,卻找不到相應的學(xué)習算法。”1969年明斯基等發(fā)表了書(shū)名為“感知機”的專(zhuān)著(zhù),指出了單層感知機的這一局限。
“當時(shí)大家都認為感知機沒(méi)有什么前途。”
自此以后,由于明斯基在人工智能領(lǐng)域的權威性,人工智能遭遇了第一個(gè)低潮,這種低潮幾乎貫穿了整個(gè)70年代。
人工智能的第二次高潮和不切實(shí)際的幻想
“到了80年代,美國認知心理學(xué)家Rumelhart等提出了BP網(wǎng)絡(luò ),為帶隱層的多層感知機找到了一種有效的學(xué)習算法,即誤差的反向傳播算法,也就是我們現在在卷積神經(jīng)網(wǎng)絡(luò )中使用的監督學(xué)習算法。其實(shí)就是使用Sigmoid函數與雙曲正切函數對經(jīng)典的MP人工神經(jīng)元模型進(jìn)行了改進(jìn),但正是這個(gè)看似很小的一個(gè)突破,卻解決了感知機不能進(jìn)行學(xué)習的致命缺陷。
“再加上1982年美國物理學(xué)家Hopfiled提出的反饋神經(jīng)網(wǎng)絡(luò ),于是乎,整個(gè)80年代,人工智能又一次迎來(lái)了高潮,跟現在真的很像,大家又都一窩蜂的開(kāi)始搞神經(jīng)網(wǎng)絡(luò )。
“此外,當時(shí)很多人都在想,如果把人的專(zhuān)家級經(jīng)驗通過(guò)規則的形式總結出來(lái),建立大規模規則庫,然后將規則作為知識進(jìn)行推理,不就可以解決很多問(wèn)題了嗎?這樣的前景簡(jiǎn)直太美好了!它可以挑選出正確的分子結構,模擬老中醫看?。ɡ缪邪l(fā)中醫診療專(zhuān)家系統),可以模擬專(zhuān)家找石油、找天然氣、找礦石......,總之就是無(wú)所不能,可以完全替代人類(lèi)從事許多工作。典型的代表就是斯坦福大學(xué)的費根鮑姆教授,曾因知識工程的倡導和專(zhuān)家系統的實(shí)踐,獲得1994年度圖靈獎。”
但問(wèn)題是:首先,規則很難被總結和歸納,因為人的規則通常是“只可意會(huì )不可言傳”。
“就說(shuō)車(chē)輛駕駛吧,開(kāi)了幾十萬(wàn)公里的老司機,是不是可以用專(zhuān)家系統來(lái)模擬他?用計算機來(lái)替代他?顯然不可能。
“人類(lèi)的駕駛行為,輸入主要是雙眼看到的圖像序列,輸出主要有三個(gè)模擬量:方向盤(pán)轉角、油門(mén)踏板開(kāi)度和剎車(chē)踏板進(jìn)程,這是一個(gè)利用訓練和學(xué)習獲得的非線(xiàn)性映射。人在開(kāi)車(chē)行駛過(guò)程中看到路況之后,本能就有三個(gè)模擬量的自然反應,而這種自然反應是首先通過(guò)駕校的監督學(xué)習,然后利用試錯式的自我強化學(xué)習構建的。要想把其中的規則總結出來(lái),例如對什么樣的路況輸入,就應該有什么樣的輸出,說(shuō)起來(lái)容易,實(shí)際很難總結出來(lái)。而設計出來(lái)的規則可能無(wú)法真實(shí)地反映實(shí)際的非線(xiàn)性映射。”
人或機器的學(xué)習方法包括監督學(xué)習、強化學(xué)習和無(wú)監督學(xué)習。對人來(lái)說(shuō),在學(xué)校里叫監督學(xué)習,進(jìn)入社會(huì )就是強化學(xué)習,即通過(guò)不斷的試錯,成功了有獎勵、失敗了受懲罰,其結果就是每進(jìn)行一個(gè)決策,都是為了使結局成功的概率最大化,由此積累決策或選擇的社會(huì )經(jīng)驗。
“當時(shí),機器推理所依賴(lài)的規則都是人為設計的,但是剛才我們也分析到了,其實(shí)規則是很難被總結和設計的。人類(lèi)感知智能中的‘規則’都是通過(guò)學(xué)習構建和精進(jìn)的,不是人為設計的。因此這個(gè)階段的人工智能,靠設計而非學(xué)習獲得規則,前提就錯了。”
其次,當時(shí)的人工智能并沒(méi)有解決好數據層到語(yǔ)義層的所謂語(yǔ)義鴻溝問(wèn)題。
比如我們利用動(dòng)物的屬性定義根據一系列條件去推斷或識別大象。
“你看,教科書(shū)里大象是有定義的,可以用描述性的方法來(lái)表示。我們可以通過(guò)外形、體重、象腿、象牙、象鼻等特征描述,用推理的方法就知道這是一頭大象,而不是別的東西。因為人是有這樣的推理能力的,知道象腿是什么、象鼻是什么......,這種視覺(jué)感知或模式識別能力,對人而言,輕而易舉,但對機器而言,如何進(jìn)行這種‘部件級別’的分割、識別與理解,這在當時(shí)幾乎是不可能的,實(shí)際也被人為地忽略。
“這樣的事情,實(shí)際上機器做不了,它無(wú)法感知。它甚至都不知道你說(shuō)的象牙是什么、象鼻是什么,又怎么可能知道這個(gè)是大象呢?
“它沒(méi)有識別能力,符號主義的基于規則的知識工程懸浮在‘空中’,這是走不下去的。感知問(wèn)題沒(méi)解決,再加上規則本身是人工設計且無(wú)學(xué)習能力,這是兩個(gè)致命缺陷。”
當時(shí)全世界都對人工智能的發(fā)展抱以極高的憧憬,認為它可以在很多方面取代人類(lèi),也出現了許多瘋狂的計劃。例如當時(shí)經(jīng)濟繁榮的日本甚至搞了一個(gè)雄心勃勃的智能計算機國家計劃,即所謂的第五代計算機計劃,立志要研究出世界上最先進(jìn)的模糊推理計算機,突破“馮·諾依曼瓶頸”,確立信息領(lǐng)域的“全球領(lǐng)導地位”。該計劃雖歷時(shí)10年,總耗資8億多美元,但最終還是以失敗而告終。
第二次人工智能熱潮持續10余年,只是BP網(wǎng)絡(luò )和Hopfield網(wǎng)絡(luò )能力有限,利用規則作為知識進(jìn)行的推理,卻并沒(méi)有感知智能的支撐,最終成為空中樓閣。因此,到2000年左右,人工智能又進(jìn)入了一個(gè)寒冬。理想和現實(shí)的巨大差異,讓人們認識到,當時(shí)的人工智能其實(shí)做不了多少事情的。
現在,正是人工智能最好的時(shí)期
“人工智能的第三次高潮,發(fā)端于2006年。
“深度學(xué)習的概念由加拿大多倫多大學(xué)的Hinton教授等人于2006年提出,主要包括深度卷積神經(jīng)網(wǎng)絡(luò )、深度信念網(wǎng)絡(luò )和深度自動(dòng)編碼器。尤其是在2012年,Hinton教授與他的兩位博士生在參加ImageNet比賽時(shí),把深度卷積神經(jīng)網(wǎng)絡(luò )與大數據、GPU結合了起來(lái)。我覺(jué)得這是一種歷史的巧合,但最主要的是時(shí)代的進(jìn)步。我們有了移動(dòng)互聯(lián)網(wǎng),有了云平臺,每天都涌現出海量的大數據。同時(shí)也得益于摩爾定律的長(cháng)期持續作用,尤其是視頻游戲的超常發(fā)展,推動(dòng)了GPU的快速進(jìn)步。這三者的結合,似乎產(chǎn)生了一種化學(xué)反應。
“從2010年開(kāi)始,每年都會(huì )舉辦一場(chǎng)全球范圍內的機器視覺(jué)識別比賽,也就是上面所說(shuō)的ImageNet比賽。ImageNet 2012分類(lèi)數據集包括了1,000個(gè)物體類(lèi)別,128萬(wàn)張訓練圖片,5萬(wàn)張驗證圖片,10萬(wàn)張測試圖片,每張圖片上的物體都做了類(lèi)別標簽。之后用128萬(wàn)圖片去訓練機器,結束以后讓它去識別沒(méi)有參加過(guò)訓練的10萬(wàn)張測試圖片,看它是否還可以識別出來(lái)。
“結果,機器不僅辨認出來(lái)了,而且比原來(lái)的傳統計算機視覺(jué)方法準確率提高了10.9%!這么一個(gè)顯著(zhù)的性能提升和驚人的識別效果,一下子引起了產(chǎn)業(yè)界的極大關(guān)注。”
在前兩次人工智能熱潮中,基本上是學(xué)術(shù)界在玩,而從2013年開(kāi)始,跨國科技巨頭紛紛開(kāi)始高強度的介入,產(chǎn)業(yè)界逐漸成為全球人工智能的研究重心,主導并加速了人工智能技術(shù)的商業(yè)化落地。例如谷歌提出“人工智能優(yōu)先”,借以重塑企業(yè),而百度也宣稱(chēng)自己已經(jīng)是一家人工智能企業(yè)了,等等。
“目前,人工智能在各方面所取得的驚人效果,都是前所未有的。僅以人臉識別為例,現在的人臉識別準確率已經(jīng)達到了99.82%,在LFW數據集上超過(guò)了人類(lèi)水平不少,這在以前是難以想象的。
“始自2012年的這次人工智能新高潮,是一個(gè)實(shí)實(shí)在在的進(jìn)步,最具代表性的成果就是深度卷積神經(jīng)網(wǎng)絡(luò )和深度強化學(xué)習等兩個(gè)方面。”
強化學(xué)習,也稱(chēng)再勵學(xué)習或增強學(xué)習。1995年,IBM的Tesauro利用強化學(xué)習, 通過(guò)150萬(wàn)局的自弈擊敗了西洋陸戰棋的人類(lèi)冠軍,盡管這是一個(gè)非常簡(jiǎn)單的棋類(lèi)?,F在谷歌的DeepMind開(kāi)發(fā)的阿爾法狗,通過(guò)將強化學(xué)習和深度卷積神經(jīng)網(wǎng)絡(luò )有機結合起來(lái),已達到了一個(gè)超人類(lèi)的水平。
這樣的話(huà),它的商業(yè)價(jià)值就體現出來(lái)了,相信隨著(zhù)越來(lái)越多類(lèi)似技術(shù)的發(fā)展,AI的商業(yè)化之路也會(huì )越走越落地。
“包括深度卷積神經(jīng)網(wǎng)絡(luò )和深度強化學(xué)習在內的弱人工智能技術(shù),以及它們面向特定細分領(lǐng)域的產(chǎn)業(yè)應用,在大數據和大計算的支撐下都是可預期的,起碼在未來(lái)5-10年之內都會(huì )成為人工智能產(chǎn)品研發(fā)與產(chǎn)業(yè)發(fā)展的熱點(diǎn),必將深刻地改變人們的生產(chǎn)生活方式。”
從弱人工智能到超人工智能,我們還有漫長(cháng)的路要走
“但是它們也有自己的缺陷,尤其是深度卷積神經(jīng)網(wǎng)絡(luò )。我們?yōu)槭裁窗熏F在的人工智能階段稱(chēng)之為弱人工智能呢?因為它只能解決一個(gè)點(diǎn)的問(wèn)題,或者只能在一個(gè)垂直細分領(lǐng)域應用,才能獲得人類(lèi)水平。
“因為它需要大數據,只有在一個(gè)點(diǎn)上積累足夠多的帶標簽的完備大數據,才能有針對性地獲得成功。就像阿爾法狗一樣,目前只能下圍棋,不能下國際象棋或中國象棋,也不會(huì )說(shuō)話(huà)互動(dòng)(語(yǔ)音識別與合成),也不會(huì )談心(情感交流)。目前人工智能的最大缺陷之一就是能力單一,不能進(jìn)行多任務(wù)的學(xué)習。
事實(shí)上,利用深度強化學(xué)習的阿爾法狗是在進(jìn)行最優(yōu)博弈類(lèi)決策。而決策屬于認知智能,而且它還不依賴(lài)于完備的大數據。
“現在的弱人工智能甚至還不能用同一個(gè)模型做兩件事情,而要想讓它具有多任務(wù)的學(xué)習能力,即把一個(gè)垂直的細分領(lǐng)域變寬,這就是所謂的通用人工智能問(wèn)題。就像阿爾法狗,如果讓它不僅會(huì )下圍棋,還會(huì )下象棋,甚至是其他的所有棋類(lèi),還會(huì )打撲克牌、打游戲,另外還會(huì )語(yǔ)音識別、行為識別、表情識別和情感分析等等,什么都可以干,那它就真的很厲害了。
如果上述能力都具備的話(huà),也就進(jìn)入了更高一級的通用人工智能階段。它的最鮮明特征就是,利用同一個(gè)模型可以實(shí)現多任務(wù)的學(xué)習。
“當通用人工智能來(lái)到之后,也就是說(shuō)打游戲、情感分析、股票預測等所有人類(lèi)的技能都學(xué)會(huì )了;進(jìn)一步地,人類(lèi)的全方位能力通用人工智能都具有了,那我們就認為,奇點(diǎn)到來(lái)了,也就是我們進(jìn)入到了所謂的強人工智能階段。
“進(jìn)入強人工智能階段之后,機器的智能將會(huì )呈指數增長(cháng),'智商'遠超人類(lèi),這就到了所謂超人工智能階段。此時(shí)人類(lèi)或會(huì )面臨兩個(gè)迥異的結局,即要么永生,要么滅絕。”
人們有理由擔心,以愛(ài)因斯坦146的智商才能提出廣義相對論和狹義相對論,而等到了超人工智能階段,假如機器的智商達到2000以上的話(huà),這些豈不全變成小兒科了?
其實(shí),阿爾法狗在下圍棋擊敗李世石之前,DeepMind曾讓它通過(guò)深度強化學(xué)習打視頻游戲,其中49種視頻游戲中有29種,經(jīng)過(guò)訓練學(xué)習后DQN的水平達到或超過(guò)了人類(lèi)職業(yè)玩家的水平,甚至有一種游戲,DQN的水平是人類(lèi)的2000多倍。但這并不是特別可怕,因為它只是弱人工智能,只是在這種游戲上超過(guò)人類(lèi)很多。
“現在看起來(lái),說(shuō)對人工智能的擔憂(yōu)、恐怖或對人類(lèi)的威脅還為時(shí)尚早。原因是我們目前甚至連通用人工智能這個(gè)階段都還沒(méi)達到,只有等到我們跨越弱人工智能階段之后,那時(shí)再來(lái)探討這個(gè)問(wèn)題吧。”
任何AI技術(shù),只要達到或超過(guò)人的水平,它就具備商業(yè)價(jià)值
支撐無(wú)人超市的技術(shù)已趨成熟,但商業(yè)模式尚待明確
既然是關(guān)于人工智能的采訪(fǎng),我們也不可避免地提到了當下很多大火的技術(shù)和熱點(diǎn)事件。其中,無(wú)人超市這個(gè)當紅事件肯定不可錯過(guò)。
“無(wú)人超市里一個(gè)很重要的技術(shù)就是計算機視覺(jué)識別技術(shù)與語(yǔ)音識別技術(shù),從計算能力上來(lái)講,是不存在問(wèn)題的,主要還是算法選擇上的問(wèn)題。它現在采用的是身份認證,認證你的身份之后,你買(mǎi)了什么商品,都給你記錄下來(lái),然后進(jìn)行移動(dòng)支付。而移動(dòng)支付是沒(méi)有問(wèn)題的,早就商業(yè)落地了。
“最核心的身份認證,目前最可靠的是多模態(tài)的生物特征識別。不光是人臉識別,還有其他特征比如指紋、虹膜、行為、掌脈、聲紋等聯(lián)合起來(lái)。同時(shí)進(jìn)行身份綁定與跟蹤,包括從進(jìn)店到離店的整個(gè)過(guò)程。
“總體來(lái)看,支撐無(wú)人超市的關(guān)鍵技術(shù)(認證、識別、跟蹤、RFID與支付等)是沒(méi)有大問(wèn)題的,問(wèn)題只是在于開(kāi)店方的資源整合能力和商業(yè)模式問(wèn)題。”
中國人工智能的商業(yè)落地速度很快,國外剛有的(例如亞馬遜的無(wú)人零售便宜店Amazon Go),我們很快就能實(shí)現商業(yè)化落地,而且應用場(chǎng)景和市場(chǎng)規模都會(huì )做得很大。這一方面得益于政府對“雙創(chuàng )”的大力支持,另一方面也反映了人工智能應用落地的加速發(fā)展。
“不過(guò),中國發(fā)展人工智能的短板也很明顯。一個(gè)是原創(chuàng )能力不夠,更多是在進(jìn)行模仿與跟蹤,涉及前沿探索、基礎模型、關(guān)鍵技術(shù)甚至是商業(yè)模式等大多來(lái)自國外,特別是美國、加拿大;另一個(gè)是巨頭型的領(lǐng)軍企業(yè)較少,較缺乏前瞻性布局、定力和大手筆動(dòng)作。”
5大垂直應用領(lǐng)域已成為主流,但落地之前需要極大的付出
深度卷積神經(jīng)網(wǎng)絡(luò )和深度強化學(xué)習,就特定應用場(chǎng)景而言,在完備大數據和超強計算能力的支撐下,這兩種算法都已經(jīng)是人類(lèi)水平了,它們在弱人工智能產(chǎn)品開(kāi)發(fā)和產(chǎn)業(yè)化發(fā)展方面,無(wú)疑具有極大的商業(yè)價(jià)值。其中計算機視覺(jué)、語(yǔ)音識別、自然語(yǔ)言處理、自動(dòng)駕駛、大數據分析等至少這5個(gè)垂直應用領(lǐng)域,都可以進(jìn)行細分再細分,并在這些細分領(lǐng)域獲得人類(lèi)水平的商業(yè)落地實(shí)踐。
人工智能產(chǎn)品真正要實(shí)現商業(yè)落地的話(huà),是需要付出極大代價(jià)的。主要體現在如何選擇特定的應用場(chǎng)景以及如何進(jìn)行大數據的采集、分析與處理上面。大數據的清洗和標簽是需要花費大精力和大價(jià)錢(qián)的,尤其是對很多細分領(lǐng)域,例如金融科技和人工智能醫療,那是必須要有該領(lǐng)域或行業(yè)頂級專(zhuān)家水平的大數據處理,人工智能要想超過(guò)人類(lèi)專(zhuān)家,那就必須先要有人類(lèi)專(zhuān)家水平的完備大數據,也就是必須站在巨人的肩膀上。
就像金庸武俠小說(shuō)里的大俠一樣,要想成為絕世武功高手,不僅須要有頂尖大師手把手的“監督訓練”,而且還要有之后的自修苦練或左右互博等等“強化學(xué)習”,最后才能集大成而縱橫江湖。
人類(lèi)基于“特征提取+推理”的小樣本、小數據學(xué)習
人類(lèi)的科技發(fā)展史反復告訴我們,并不是你有多大雄心、投入多少人力物力,就一定會(huì )取得多大的技術(shù)突破和成功,有時(shí)候其實(shí)只是一種歷史的偶然和巧合。當然這種偶然也是建立在大量準備基礎之上的必然。
這就是我們常說(shuō)的,必然中的偶然、偶然中的必然。
下一次的技術(shù)突破或爆發(fā),應該具備哪些條件?
“我個(gè)人認為,最主要的還是在算法上面的創(chuàng )新性突破,例如特征提取+推理的小數據學(xué)習算法。
“深度卷積神經(jīng)網(wǎng)絡(luò ),嚴重依賴(lài)于大數據(必須是完備的大數據,包括極端與緊急情況下的大數據,否則就不能達到人類(lèi)水平的泛化能力)。而人類(lèi)則是可以進(jìn)行推理的,只需要從小數據、小樣本中學(xué)習,然后用特征+推理的方法就可以進(jìn)行可靠的判別,也就是人類(lèi)具有舉一反三的能力。
“比如說(shuō)辨別飛機。人工智能要識別出飛機,就必須把全世界所有的飛機照片,各種型號、各種位姿、各種光照、各種背景、各種遮擋等各種情況下的飛機圖片全部給它進(jìn)行監督訓練,才能依靠分級分層特征的自動(dòng)提取精確地識別出飛機來(lái)。但問(wèn)題是,僅僅是搜集全世界全部飛機圖片這一項,就幾乎是一件根本不可能完成的任務(wù)。
“但是對人類(lèi)來(lái)說(shuō),我們只需要預先看少量的照片或實(shí)物,就可以很容易地推斷出其他飛機,并不需要太多太大的數據。這就是人類(lèi)獨有的能力,即基于特征提取+推理的小樣本、小數據的學(xué)習能力。”
卷積神經(jīng)網(wǎng)絡(luò )的缺陷和解決方案
“要解決特征提取和推理相結合的問(wèn)題,首先需要明確的是,規則和推理必須是通過(guò)學(xué)習得到的,同時(shí)是建立在已有感知智能突破的基礎之上的,我們不能再走傳統知識工程的老路了。從隱含特征的學(xué)習,到隱含規則的學(xué)習,我們需要這么一個(gè)特征提取+推理的創(chuàng )新性算法,以便針對小數據學(xué)習也能獲得強大的泛化能力。
“首先,現在的深度卷積神經(jīng)網(wǎng)絡(luò ),它只能夠做分割與識別,如果有垂直細分領(lǐng)域的完備大數據的話(huà),它甚至可以達到或超越人類(lèi)的水平。但是它卻沒(méi)有語(yǔ)義理解的能力,它只是把對象看成是一個(gè)向量。
“比如我們看到一個(gè)杯子,我們能知道它就是杯子,也能理解它的內涵和外延,如這個(gè)杯子和其他杯子有什么區別,與其他物體又有什么不同等等。但是深度卷積神經(jīng)網(wǎng)絡(luò )目前無(wú)法實(shí)現語(yǔ)義的理解,它僅僅是把杯子看成是一個(gè)向量或一個(gè)符號,所以它沒(méi)有太大的感知可靠性。
“同樣,為什么現在的語(yǔ)音識別還做不到人類(lèi)的水平?就是因為深度卷積神經(jīng)網(wǎng)絡(luò )還沒(méi)有語(yǔ)義理解的能力,它只能看清、聽(tīng)清,而不能看懂、聽(tīng)懂。”
其次,雖然從理論上講,只要有完備的大數據,弱人工智能在特定的應用場(chǎng)景就有可能達到甚至超過(guò)人類(lèi)的水平,但要取得完備的大數據,對大多數開(kāi)放的應用場(chǎng)景,本身就是幾乎不可能完成的任務(wù)。這也大大制約了大數據人工智能的應用和相關(guān)行業(yè)的發(fā)展。另外,拿到大數據之后,還要對它進(jìn)行清洗、脫敏和做標簽,這同時(shí)也是一項巨大的工程,如需要頂級行業(yè)專(zhuān)家的高度參與。
很多特定行業(yè)的大數據,比如金融大數據、醫療大數據,它的數據來(lái)源與處理還必須是專(zhuān)家級別的,并不是隨便一個(gè)普通的人就可以給出。這本身是一個(gè)需要極大投入的事情。
“第三,深度卷積神經(jīng)網(wǎng)絡(luò )是一個(gè)全局逼近網(wǎng)絡(luò )。也就是說(shuō),當輸入任何一個(gè)樣本時(shí),它的所有連接權都會(huì )通過(guò)反向傳播發(fā)生改變。換句話(huà)說(shuō),網(wǎng)絡(luò )任何一個(gè)連接權發(fā)生變化,都會(huì )造成模型的輸出發(fā)生變化。實(shí)際上這個(gè)是不對的,用一句形象的話(huà)來(lái)比喻就是:結識新朋友,就忘記了老朋友。
“而我們人類(lèi)就不是這樣的,人類(lèi)神經(jīng)元的突觸變化是局部的,不會(huì )因為感知一個(gè)新的樣本輸入,而改變對一個(gè)事物或目標的原有感覺(jué)。在這一點(diǎn)上,人類(lèi)做到了結識新朋友,不忘老朋友。”
其實(shí),除以上說(shuō)的三點(diǎn)之外,深度卷積神經(jīng)網(wǎng)絡(luò )還有其他問(wèn)題,比如說(shuō)它是黑箱式的。不管是連接權也好,還是網(wǎng)絡(luò )結構也好、超參數也好,都是沒(méi)有多大物理意義的,是不可解釋的。
通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò )這四個(gè)缺陷的深入分析,就可以大致知道,未來(lái)人工智能的前沿探索應該往哪些方向突破?哪些是值得我們特別關(guān)注的?
1)關(guān)于大數據依賴(lài)的問(wèn)題。應該發(fā)展小樣本或半監督、無(wú)監督的學(xué)習方法。
2)關(guān)于語(yǔ)義理解的問(wèn)題。要與知識圖譜相結合,與符號主義的知識推理相結合,發(fā)展特征提取+推理的創(chuàng )新性模型。
3)關(guān)于局部逼近網(wǎng)絡(luò )的問(wèn)題。不能因為一個(gè)新的樣本輸入而改變整個(gè)網(wǎng)絡(luò )的連接權,要防止把以前的特征全部沖刷掉。
4)關(guān)于神經(jīng)網(wǎng)絡(luò )的黑箱問(wèn)題。應發(fā)展可解釋的深度學(xué)習模型。
代碼開(kāi)源,反映出AI之下,核心商業(yè)思路和模式的全新變革
“在人工智能的一些基礎算法上,很多企業(yè)都已經(jīng)開(kāi)源開(kāi)放,并借以形成了自己的研發(fā)與產(chǎn)業(yè)生態(tài)。
“像谷歌的TensorFlow、Facebook的 Torch、微軟的CNTK、加州伯克利的Caffe、亞馬遜的MXNet、百度的 PaddlePaddle等,很多深度學(xué)習的代碼框架都已經(jīng)免費向開(kāi)發(fā)者開(kāi)放。從這個(gè)角度來(lái)講的話(huà),人工智能產(chǎn)品開(kāi)發(fā)的技術(shù)門(mén)檻反而是降低了。很多底層基礎性代碼不用你編了,你只需要在這個(gè)開(kāi)源代碼框架基礎之上,調整相應的網(wǎng)絡(luò )結構和超參數就行了。
“初創(chuàng )企業(yè)不宜去做PR性質(zhì)的單一基礎性工作,例如單純的算法刷分等,要專(zhuān)注及深耕細分領(lǐng)域大數據的應用價(jià)值,快速找到能夠變現的商業(yè)模式!人工智能芯片創(chuàng )業(yè)公司也有類(lèi)似的情況,應避免與芯片巨頭的正面交鋒。
“大公司軟硬件資源開(kāi)源開(kāi)放,雖然犧牲了一部分利益,但是他拿到了你的大數據。他得到了你對他代碼的優(yōu)化修改或用戶(hù)的反饋信息等,而這些對于產(chǎn)品的迭代非常重要,這是花錢(qián)都買(mǎi)不到的。這些大數據資源無(wú)疑將幫助他們縮短產(chǎn)品的成熟期,從而實(shí)現產(chǎn)品性能的快速迭代。”
從以前藏著(zhù)掖著(zhù)的商業(yè)機密、知識產(chǎn)權,到現在的開(kāi)源開(kāi)放,雖然對創(chuàng )業(yè)公司而言未必是好事一樁,但這也反映出了在人工智能的加速發(fā)展中,核心商業(yè)思路和模式的全新變革。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
