從算法、硬件到研究社區,全面回顧2016年機器學(xué)習領(lǐng)域主要進(jìn)展

鎂客 8年前 (2017-02-03)

人工智能圣杯雖然遙遠,但這并不妨礙機器學(xué)習繼續在2016年高歌猛進(jìn),其中,深度學(xué)習仍是最亮眼的明星。

人工智能圣杯雖然遙遠,但這并不妨礙機器學(xué)習繼續在2016年高歌猛進(jìn),其中,深度學(xué)習仍是最亮眼的明星。機器學(xué)習的重大進(jìn)展離不開(kāi)三個(gè)核心內容:算法(或軟件)、硬件和數據。本文僅從算法(或軟件)、硬件角度梳理2016年機器學(xué)習領(lǐng)域(主要是深度學(xué)習)主要進(jìn)展??紤]到技術(shù)進(jìn)步離不開(kāi)研究社區的協(xié)力與開(kāi)放,本文第三部分也對2016年研究社區重大事件進(jìn)行了梳理。

一、算法(或軟件)

能夠自主學(xué)習的機器、人與機器的自然交流一直是我們追求的人工智能圣杯。2016年,GANs 以及深度強化學(xué)習取得的進(jìn)展讓人類(lèi)距離自主學(xué)習機器又近了一步。NLP 領(lǐng)域里的一些重大進(jìn)展,比如機器翻譯,也使得人與機器的交流更加順暢。

1、生成模型

生成對抗網(wǎng)絡(luò )(GANs)讓我們距離無(wú)監督學(xué)習圣杯又近了一步。有學(xué)者指出2016年是深度學(xué)習的分水嶺,這要歸功于生成模型的突破性研究。

生成式對抗網(wǎng)絡(luò )早在2014年由 Ian Goodfellow 提出。2016年,GAN 開(kāi)始顯示出真正潛力,進(jìn)展非常迅速,相繼出現了條件生成對抗網(wǎng)絡(luò )(Conditional Generative Adversarial Nets)和信息生成對抗網(wǎng)絡(luò )(InfoGAN),深度卷積生成對抗網(wǎng)絡(luò )(Deep Convolutional Generative Adversarial Network, DCGAN)等,更加優(yōu)化的 GAN 模型已經(jīng)解決了之前限制深度學(xué)習發(fā)展的一些難題。

InfoGAN 模型由 OpenAI 研究員在 8 月提出。InfoGAN 能夠以無(wú)監督的方式生成包含數據集相關(guān)信息的表征。例如,當被應用于 MNIST 數據集的時(shí)候,它能夠在不需要人工標記數據的情況下推斷出數字的類(lèi)型(1、2、3……)、生成的樣本的轉動(dòng)(rotation)與寬度(width)。

GAN 的另一種延展是被稱(chēng)為 Conditional GAN 的模型。這些模型能夠生成考慮了外部信息(類(lèi)標簽、文本、其它圖像)的樣本,并使用它來(lái)迫使 G 生成特定類(lèi)型的輸出。

StackGAN。模型本質(zhì)就是 Conditional GAN,只不過(guò)它使用了兩層 Conditional GAN 模型,第一層模型 P(X1|z, c) 利用輸入的文字信息 c 生成一個(gè)較低分辨率的圖片。之后第二層模型 P(X|c,,X1) 基于第一層生成的圖片以及文字信息生成更加優(yōu)化的圖片。文中給出的實(shí)驗效果非常的驚人,可以生成 256x256 的非常真實(shí)的圖片。

PPGN。GAN 不光自身有變種和優(yōu)化,也能被其它算法融合吸收,發(fā)揮強大效果。2016 NIPS 會(huì )前幾天發(fā)布的 Plug & Play Generative Networks(PPGN,即插即用生成網(wǎng)絡(luò ))的最新進(jìn)展((Nguyen et al, 2016) 就是生成模型領(lǐng)域 State-of-the-art 論文。 PPGN是融合了包括 GAN 在內的很多算法和技巧的新算法,整合了對抗訓練、CNN 特征匹配、降噪自編碼、Langevin采樣等,它從 ImageNet 中生成了 227x227 的真實(shí)圖片,是目前在這個(gè)數據集上跑得最驚人的一套算法。PPGN 生成的圖像同類(lèi)差異化大,可根據指定生成不同類(lèi)別的圖像、多類(lèi)化,生成的圖像清楚分辨率高。

WaveNet。2016年9月,谷歌 DeepMind 發(fā)布博客介紹他們在文本轉語(yǔ)音系統上取得的重大進(jìn)展。DeepMind 表示,他們最新的深度生成模型 WaveNet 將機器語(yǔ)音合成的表現與人類(lèi)之間水平的差距至少縮減了 50%,也是目前文本到語(yǔ)音環(huán)節最好的深度生成模型。

計算機發(fā)出聲音,最常用的 TTS 方法可能是拼接式語(yǔ)音合成(Concatenative Synthesis),這種機械式方法使得計算機輸出音頻經(jīng)常產(chǎn)生語(yǔ)音毛刺、語(yǔ)調的詭異變化、甚至結巴,無(wú)法調整語(yǔ)音的強調性音節或情緒。另外一種方法是參數化方法,利用數學(xué)模型對已知的聲音進(jìn)行排列、組裝成詞語(yǔ)或句子來(lái)重新創(chuàng )造音頻,能讓機器輸出的音頻聽(tīng)起來(lái)不那么機器化。這兩種技術(shù)的共同點(diǎn)是簡(jiǎn)單、機械地將語(yǔ)音片段拼接起來(lái),而不是從零開(kāi)始創(chuàng )造出整個(gè)音頻波形。

WaveNet 正是一種從零開(kāi)始創(chuàng )造整個(gè)音頻波形輸出的技術(shù)。WaveNet 利用真實(shí)的人類(lèi)聲音剪輯和相應的語(yǔ)言、語(yǔ)音特征來(lái)訓練其卷積神經(jīng)網(wǎng)絡(luò )(convolutional neural networks),讓其能夠辨別這兩方面(語(yǔ)言和語(yǔ)音)的音頻模式。使用中,對WaveNet 系統輸入新的文本信息,也即相對應的新的語(yǔ)音特征,WaveNet 系統會(huì )重新生成整個(gè)原始音頻波形來(lái)描述這個(gè)新的文本信息。

2016年,DeepMind 還發(fā)表了強大的圖像生成模型 PixelRNN (PixelRNN 利用 RNN 建模圖像像素關(guān)系,突破傳統)、PixelCNN 以及視頻生成模型 VPN (Video Pixel Network) 。

2、深度強化學(xué)習

強化學(xué)習和使用深度神經(jīng)網(wǎng)絡(luò )的深度學(xué)習可以很漂亮地互相補充,強化學(xué)習與深度學(xué)習結合的方法出現強勁勢頭。

深度 | 從算法、硬件到研究社區,全面回顧2016年機器學(xué)習領(lǐng)域主要

AlphaGo。2013年以來(lái),DeepMind 團隊相繼在 NIPS 和 Nature上發(fā)表了用深度強化學(xué)習玩 Atari 游戲的論文。2016年1月,DeepMind AlphaGo 在圍棋大戰中擊敗歐洲冠軍。一個(gè)多月后,AlphaGo 再次震驚世界:4比1擊敗了世界頂級圍棋選手李世石。

AlphaGo 使用深度卷積網(wǎng)絡(luò ),將棋盤(pán)當做一張 19×19 的輸入「圖像」(每個(gè)位置一個(gè)像素)進(jìn)行處理。網(wǎng)絡(luò )把當前局面作為輸入,預測/采樣下一步的走棋,盡量讓機器落子向量接近人類(lèi)高手的落子結果。但是,只用策略網(wǎng)絡(luò )(policy network)不行,因為策略網(wǎng)絡(luò )沒(méi)有價(jià)值判斷功能,加了搜索之后,計算機才有價(jià)值判斷的能力,因此,AlphaGo 綜合了深度神經(jīng)網(wǎng)絡(luò )和 MCTS 。AlphaGo 利用強化學(xué)習進(jìn)行訓練,通過(guò)與自己對抗,逐步改善策略來(lái)挑選行動(dòng)(策略網(wǎng)絡(luò )),以評估誰(shuí)將獲勝(價(jià)值網(wǎng)絡(luò ),另一深度卷積網(wǎng)絡(luò ))。價(jià)值網(wǎng)絡(luò )的作用是減少搜索的深度,所以,AlphaGO 搜索深度并不是特別深,它并不是一下子搜索出直達比賽末尾的300多步,而是搜索更少的步數,比如20多步,并評估這些位置,而不是一路評估到底,看誰(shuí)最終能贏(yíng)。

AlphaGo 在蒙特卡洛樹(shù)搜索框架下,利用深度學(xué)習和強化學(xué)習進(jìn)行訓練和評估,實(shí)現巨大突破。在游戲上取得了不錯的成果后,深度強化學(xué)習也逐漸被引入NLP領(lǐng)域,比如較為熱點(diǎn)的研究方向基于強化學(xué)習的文本生成技術(shù)(NLG)。另外,加州大學(xué)伯克利分校副教授 Pieter Abbeel 正在研究將深度強化學(xué)習應用到機器人上,比如 BRETT 在學(xué)習提升自己在家務(wù)勞動(dòng)中的表現。

VIN。2016年 NIPS 最佳論文是一篇強化學(xué)習論文 Value iteration Network。這篇論文介紹了一個(gè)能學(xué)習設計策略,而不是完全被動(dòng)遵循策略的神經(jīng)網(wǎng)絡(luò )。同時(shí),這種新的強化學(xué)習觀(guān)并不是基于模型的(model-free)。VIN 的目的主要是解決深度強化學(xué)習泛化能力較弱的問(wèn)題。傳統的深度強化學(xué)習(比如 deep Q-learning)目標一般是采用神經(jīng)網(wǎng)絡(luò )學(xué)習一個(gè)從狀態(tài)(state)到?jīng)Q策(action)的直接映射。神經(jīng)網(wǎng)絡(luò )往往會(huì )記憶一些訓練集中出現的場(chǎng)景。所以,即使模型在訓練時(shí)表現很好,一旦我們換了一個(gè)與之前訓練時(shí)完全不同的場(chǎng)景,傳統深度強化學(xué)習方法就會(huì )表現的比較差。

作者提出,不光需要利用神經(jīng)網(wǎng)絡(luò )學(xué)習一個(gè)從狀態(tài)到?jīng)Q策的直接映射,還要讓網(wǎng)絡(luò )學(xué)會(huì )如何在當前環(huán)境下做長(cháng)遠的規劃(learn to plan),并利用長(cháng)遠的規劃輔助神經(jīng)網(wǎng)絡(luò )做出更好的決策。

在文章中,我們提出了一種特殊的網(wǎng)絡(luò )結構(value iteration module),這種結構和經(jīng)典的規劃算法 value iteration 有著(zhù)相同的數學(xué)表達形式。利用這種數學(xué)性質(zhì),VIN 將傳統的規劃算法(planning algorithm)嵌入了神經(jīng)網(wǎng)絡(luò ),使得網(wǎng)絡(luò )具有長(cháng)期規劃的能力。

VIN 中所使用的特殊結構 value iteration module,在很多問(wèn)題上都可以直接加入現有的強化學(xué)習框架,并用來(lái)改進(jìn)很多現有模型的泛化能力。

3、NLP 方面的重要進(jìn)展

實(shí)現人機流暢的交流需要解決一些問(wèn)題,比如文本理解,問(wèn)題回答以及機器翻譯等。

(1)機器翻譯

GNMT。2016年 9 月底,谷歌在 arXiv.org 上發(fā)表了論文Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,介紹了谷歌的神經(jīng)機器翻譯系統(GNMT),該系統實(shí)現了機器翻譯領(lǐng)域的重大突破。11 月,谷歌再發(fā)論文宣布了其在多語(yǔ)言機器翻譯上的突破:實(shí)現了 zero-shot 翻譯。

傳統統計機器翻譯(Statistical Machine Translation, SMT)技術(shù),SMT 方法的最大特點(diǎn)是基于數據驅動(dòng)的機器學(xué)習方法,只要提供足夠數量的雙語(yǔ)句對,在很短時(shí)間內可以自動(dòng)構建一套統計機器翻譯系統,翻譯性能超過(guò)基于規則的方法。2013年提出了神經(jīng)機器翻譯(Neural Machine Translation, NMT)技術(shù)。其思路與傳統 SMT 方法完全不同,它采用神經(jīng)網(wǎng)絡(luò )直接實(shí)現兩個(gè)句子之間的自動(dòng)翻譯,完全沒(méi)有規則方法和 SMT 方法的從小片段組裝成大片段翻譯的過(guò)程。2014年,Cho 和 Sutskever 提出了 Encoder-Decoder 架構的神經(jīng)網(wǎng)絡(luò )機器翻譯系統。2015年,Yoshua Bengio 團隊進(jìn)一步加入了Attention 的概念。Bengio 團隊的這個(gè)工作也奠定了后續很多NMT商業(yè)系統的基礎,也包括 Google 這次發(fā)布的GNMT。GNMT 基本框架仍然是帶 Attention 模塊的 Encoder-Decoder。

盡管有這些進(jìn)步,但 NMT 的速度和準確度還沒(méi)能達到成為 Google Translate 這樣的生產(chǎn)系統的要求。谷歌新論文描述了我們怎樣克服了讓 NMT 在非常大型的數據集上工作的許多挑戰,以及谷歌如何打造了一個(gè)在速度和準確度上都已經(jīng)足夠能為谷歌的用戶(hù)和服務(wù)帶來(lái)更好的翻譯的系統。

ByNet。DeepMind 提出了線(xiàn)性時(shí)間的神經(jīng)機器翻譯 ByNet。

我們提出了一種用于序列處理(sequence processing)的神經(jīng)架構。ByteNet 是一種兩個(gè)擴張的卷積神經(jīng)網(wǎng)絡(luò )(dilated convolutional neural networks)的堆疊;其中一個(gè)網(wǎng)絡(luò )用于編碼源序列(source sequence),另一個(gè)網(wǎng)絡(luò )用于解碼目標序列(target sequence)——這個(gè)過(guò)程中目標網(wǎng)絡(luò )動(dòng)態(tài)展開(kāi)從而生成可變長(cháng)度輸出。ByteNet 有兩個(gè)核心特性:它在與序列長(cháng)度成線(xiàn)性的時(shí)間上運行;它能保留序列的時(shí)間分辨率(temporal resolution)。ByteNet 解碼器在字符級的語(yǔ)言建模上獲得了頂尖水平,并超越了之前循環(huán)神經(jīng)網(wǎng)絡(luò )取得的最好結果。ByteNet 也在原始的字符級機器翻譯(raw character-level machine translation)上獲得了接近最好的神經(jīng)翻譯模型(運行在二次時(shí)間(quadratic time)中)所能取得的頂尖表現。由 ByteNet 學(xué)習到的隱含架構能反映出序列之間的預期對應。

(2)文本理解

JMT。Salesforce 的 MetaMind (http://metamind.io/) 建立了一個(gè)叫做 Joint Many-Tasks(JMT)的模型,目標是要創(chuàng )造出一個(gè)可以學(xué)習五個(gè)常見(jiàn)自然語(yǔ)言處理任務(wù)的模型:

詞性標注(Part-of-speech tagging)。指對句子中的每個(gè)詞都指派一個(gè)合適的詞性,比如說(shuō)名詞、動(dòng)詞、形容詞等。

詞塊分析(Chunking)。也叫做淺層句法分析(shallow parsing),其中涉及到很多任務(wù),像是尋找名詞和動(dòng)詞詞組等。

依存關(guān)系分析(Dependency parsing)。識別詞語(yǔ)之間的語(yǔ)法關(guān)系(比如說(shuō)形容詞修飾名詞)。

語(yǔ)義相關(guān)度(Semantic relatedness)。衡量?jì)蓚€(gè)句子之前的語(yǔ)義相關(guān)程度,其結果是用一個(gè)實(shí)值分數來(lái)表示的。

文字蘊含(Textual entailment)。確定前提的句子是否包含一個(gè)表示假設的句子??赡艹霈F的句子關(guān)系包括:蘊含、矛盾 和中立。

這個(gè)模型背后的魔力就在于它是端對端訓練的。也就是說(shuō),它能夠讓兩個(gè)不同層面的處理兵種,這樣淺層任務(wù)(不那么復雜的)可以得到改善,從深層(較復雜的任務(wù))中得出結論。我們之前的想法是只用淺層來(lái)改進(jìn)深層的任務(wù),而不是用其他的方式,所以這個(gè)采用不同的方式與之前的思路比較來(lái)說(shuō)是一個(gè)新的想法。除了詞性標注之外,這個(gè)模型在其他方面都取得了很好的成績(jì)。

(3)問(wèn)題回答

DCN。MetaMind 同樣提出了稱(chēng)之為 Dynamic Coattention Network (DCN) 的新模型來(lái)解決疑問(wèn)解答問(wèn)題,該模型建立在相當直觀(guān)的思路之上。想象下給你了一篇長(cháng)文并問(wèn)你一些問(wèn)題,你是想先看文章再聽(tīng)問(wèn)題呢,還是更想先聽(tīng)問(wèn)題再開(kāi)始閱讀文章?一般提前知道問(wèn)題是怎么樣的就會(huì )知道看文章要注意些什么,如果不知道問(wèn)題,那么你就會(huì )將你的注意力平均分配并記下每一點(diǎn)可能會(huì )被提問(wèn)的細節。DCN 也是在做這樣一件事,首先它生成一個(gè)內部表征,這個(gè)內部表征是基于文本并且由系統將要回答的問(wèn)題做為約束條件,然后就是按照可能的回答列表迭代,直到收斂到最后的回答。

(4)語(yǔ)音識別

2016年10月19日的一篇論文Achieving Human Parity in Conversational Speech Recognition中,微軟人工智能與研究部門(mén)的一個(gè)研究者和工程師團隊報告他們的語(yǔ)音識別系統實(shí)現了和專(zhuān)業(yè)速錄員相當甚至更低的詞錯率(WER),達到了 5.9%,而上個(gè)月這一數字還是 6.3%。 5.9% 的詞錯率已經(jīng)等同于人速記同樣一段對話(huà)的水平,而且這是目前行業(yè)標準 Switchboard 語(yǔ)音識別任務(wù)中的最低記錄。這個(gè)里程碑意味著(zhù),一臺計算機在識別對話(huà)中的詞上第一次能和人類(lèi)做得一樣好。

受到機器學(xué)習集成技術(shù)(machine learning ensemble techniques)的啟發(fā),該系統使用了一系列卷積和循環(huán)神經(jīng)網(wǎng)絡(luò )。I-vector 建模和 lattice-free MMI 訓練為所有聲學(xué)模型架構帶來(lái)了顯著(zhù)的提升。使用了多個(gè)前向和反向運行 RNNLM 的語(yǔ)言模型重新計分(Language model rescoring)與基于后驗的詞系統結合為系統性能帶來(lái)了 20% 的增益。最好的單個(gè)系統使用 ResNet 架構聲學(xué)模型和 RNNLM rescoring,在 NIST 2000 Switchboard 任務(wù)上實(shí)現了 6.9% 的詞錯率。結合系統取得了 6.3% 的詞錯率,代表了在這一基準任務(wù)上對先前成果的改進(jìn)。

LipNet。來(lái)自牛津大學(xué)、Google DeepMind 和加拿大高等研究院(CIFAR)的研究人員發(fā)表了一篇具有重要價(jià)值的論文,提出了 LipNet——一種可以將可變長(cháng)度的視頻序列映射成文本的模型,其使用了時(shí)空卷積、一個(gè) LSTM 循環(huán)網(wǎng)絡(luò )和聯(lián)結主義的時(shí)間分類(lèi)損失(connectionist temporal classification loss)。它是第一個(gè)將深度學(xué)習應用于模型的端到端學(xué)習的模型,可以將說(shuō)話(huà)者的嘴唇的圖像幀序列映射到整個(gè)句子上。這個(gè)端到端的模型在預測句子前不再需要將視頻拆分成詞。在 GRID 語(yǔ)料庫上,LipNet 實(shí)現了 93.4% 的準確度,超過(guò)了經(jīng)驗豐富的人類(lèi)唇讀者和之前的 79.6% 的最佳準確度,將自動(dòng)唇讀技術(shù)的前沿水平推進(jìn)到了前所未有的高度。在不久的將來(lái),這一視頻識別應用會(huì )非常有用。

4、可微神經(jīng)計算機

邁向通用人工智能的又一重要成果。除了深度強化學(xué)習,DeepMind 另一重要研究領(lǐng)域是記憶(memory),特別是如何將神經(jīng)網(wǎng)絡(luò )的決策智能和有關(guān)復雜結構化數據的存儲、推理能力結合起來(lái)的難題。

2016年 10 月,DeepMind 在 Nature發(fā)表了一篇論文Hybrid computing using a neural network with dynamic external memory,該論文介紹了一種記憶增強式的神經(jīng)網(wǎng)絡(luò )(memory-augmented neural network)形式——被稱(chēng)為可微神經(jīng)計算機(differentiable neural computer),研究表明其可以學(xué)習使用它的記憶來(lái)回答有關(guān)復雜的結構化數據的問(wèn)題,其中包括人工生成的故事、家族樹(shù)、甚至倫敦地鐵的地圖。研究還表明它還能使用強化學(xué)習解決塊拼圖游戲(block puzzle game)問(wèn)題。

人工神經(jīng)網(wǎng)絡(luò )非常擅長(cháng)感官信號處理、序列學(xué)習和強化學(xué)習,但由于缺乏外部記憶(external memory),它們在表征變量和數據結構以及長(cháng)時(shí)間存儲數據上的能力卻很有限。這里我們介紹一種名叫可微神經(jīng)計算機(DNC: differentiable neural computer)的機器學(xué)習模型,該模型由一個(gè)可以讀寫(xiě)外部記憶矩陣(external memory matrix)的神經(jīng)網(wǎng)絡(luò )構成,這類(lèi)似于傳統計算機中的隨機存取存儲器(RAM)。它既可以和傳統計算機一樣使用它的記憶(memory,注:對應于傳統計算機的「內存」)表征和操作復雜的數據結構,也能和神經(jīng)網(wǎng)絡(luò )一樣從數據中學(xué)習這么做的方法。當使用監督學(xué)習進(jìn)行訓練時(shí),我們發(fā)現 DNC 可以成功回答設計用來(lái)模仿自然語(yǔ)言中的推理和推斷問(wèn)題的合成問(wèn)題。我們表明 DNC 可以學(xué)習尋找特定點(diǎn)之間的最短路徑和推斷隨機生成的圖中所缺少的鏈接等任務(wù),然后還能將這些任務(wù)泛化到交通網(wǎng)和家族樹(shù)等特定的圖上。當使用強化學(xué)習進(jìn)行訓練時(shí),DNC 可以完成移動(dòng)塊拼圖任務(wù),其中變化的目標又符號的序列指定??偠灾?,我們的結果表明 DNC 有能力解決對沒(méi)有外部讀寫(xiě)記憶的神經(jīng)網(wǎng)絡(luò )而言難以解決的復雜的結構化任務(wù)。

5、深度學(xué)習與其他機器學(xué)習技術(shù)的融合

Deep Sequential Networks 與 side-information 結合起來(lái)以獲取更加豐富的語(yǔ)言模型。在 A Neural Knowledge Language Model 論文中,Bengio 的團隊將知識圖譜和 RNNs 結合起來(lái)。

交流知識是語(yǔ)言的一個(gè)主要目的。但是,目前的語(yǔ)言模型在編碼或解碼知識的能力上還存在顯著(zhù)的限制。這主要是因為它們是基于統計共現(statistical co-occurrences)獲取知識的,但大部分描述知識的詞基本上都不是被觀(guān)察到的命名實(shí)體(named entities)。在這篇論文中,我們提出了一種神經(jīng)知識語(yǔ)言模型(NKLM: Neural Knowledge Language Model ),該模型結合了知識圖譜提供的符號知識(symbolic knowledge)與 RNN 語(yǔ)言模型。在每一個(gè)時(shí)間步驟,該模型都能夠預測被觀(guān)察到的詞應該是基于哪種事實(shí)。然后,就會(huì )從詞匯庫生成或從知識圖譜中復制出一個(gè)詞。我們在一個(gè)名叫 WikiFacts 的新數據集上訓練和測試了這個(gè)模型。我們的實(shí)驗表明,NKLM 能在生成遠遠更小量的未知詞的同時(shí)顯著(zhù)提升困惑度(perplexity)。此外,我們發(fā)現其中被取樣的描述包含了曾在 RNN 語(yǔ)言模型中被用作未知詞的命名實(shí)體。

在 Contextual LSTM models for Large scale NLP Tasks 這篇研究中, Deepmind 提出了CLSTM (語(yǔ)境LSTM ,Contextual LSTM),是當前 RNN LSTM 的延伸,將語(yǔ)境特征(比如 ,主題 topics )吸收進(jìn)了模型。另外,語(yǔ)言模型的注意力和記憶建模方面也很多有趣研究,比如 Ask Me Anything: Dynamic Memory Networks for NLP(ICML)。

二、硬件

隨著(zhù)深度學(xué)習算法變得越來(lái)越復雜、所使用的數據集變得越來(lái)越大,對專(zhuān)用硬件的需求也正變得越來(lái)越大。2016 年,面向人工智能的平臺成了計算硬件開(kāi)發(fā)的一個(gè)主要的新方向。這一年,除了英特爾和英偉達這兩家芯片巨頭在人工智能方向連綿不斷的高調動(dòng)作,掌握核心科技的創(chuàng )業(yè)公司也在盡力改變著(zhù)市場(chǎng)格局(盡管其中大部分有潛力的都被收購了),此外,就連谷歌這樣的互聯(lián)網(wǎng)也從中看到了發(fā)展的空間。

傳統芯片廠(chǎng)商方面,英偉達借助 GPU 和深度學(xué)習算法的高度契合而順勢發(fā)展,股價(jià)飛漲,可以說(shuō)是 2016 年人工智能計算硬件領(lǐng)域的最大贏(yíng)家??梢灶A見(jiàn),英偉達將在整個(gè)2017年繼續占據主導地位,因為他們擁有最豐富的深度學(xué)習生態(tài)系統。

體量更大的巨頭英特爾自然也不會(huì )等著(zhù)這個(gè)新市場(chǎng)被競爭對手占領(lǐng),而收購似乎是個(gè)更快捷的追趕方法。2016 年,英特爾收購了多家人工智能創(chuàng )業(yè)公司,其中包括計算機視覺(jué)創(chuàng )業(yè)公司 Movidius 和深度學(xué)習芯片創(chuàng )業(yè)公司 Nervana 等。到 11 月份,有了 Nervana 和 2015 年收購的 FPGA 廠(chǎng)商 Altera 加持的英特爾公布了其人工智能路線(xiàn)圖,介紹了該公司在人工智能芯片市場(chǎng)上的公司戰略和產(chǎn)品生態(tài)系統。

另外順便一提,在這一領(lǐng)域存在感差很多的 AMD 在 2016 年年底也終于發(fā)力,宣布推出了其首款基于VEGA GPU 架構的機器學(xué)習芯片。這款芯片的研發(fā)旨在大幅提升計算機在處理深度神經(jīng)網(wǎng)絡(luò )相關(guān)工作上的表現,能夠更高效且更輕松執行相關(guān)工作。新的 Radeon Instinct 加速芯片將給從事深度學(xué)習訓練和推論的研究機構更強勁的 GPU 來(lái)開(kāi)展深度學(xué)習相關(guān)研究。

此外,高通在 2017 年年初的 CES 開(kāi)幕之前披露了其最新的 Snapdragon 835 的相關(guān)信息,除了其它方面的性能提升,在機器學(xué)習方面,其新增的功能包括支持客戶(hù)生成神經(jīng)網(wǎng)絡(luò )層、同時(shí)還支持谷歌的機器學(xué)習架構 TensorFlow。高通表示,Hexagon 682是首個(gè)支持TensorFlow和Halide 架構的移動(dòng) DSP。

另外,DSP 供應商 CEVA、FPGA 供應商 Xilinx 和處理器技術(shù)提供商 Imagination 等廠(chǎng)商也都已經(jīng)在機器學(xué)習領(lǐng)域進(jìn)行了布局。

互聯(lián)網(wǎng)巨頭似乎也從計算硬件領(lǐng)域發(fā)現了新的機會(huì )。2016 年 5 月,谷歌發(fā)布了一款新的定制化設計的芯片張量處理單元(TPU/Tensor Processing Unit),這款芯片是專(zhuān)門(mén)為基于谷歌已經(jīng)開(kāi)源的 TensorFlow 機器學(xué)習框架而量身定制的。亞馬遜已經(jīng)宣布了他們的基于FPGA的云實(shí)例。這是基于Xilinx UltraScale +技術(shù),在單個(gè)實(shí)例上提供了6800個(gè)DSP片和64 GB內存。微軟也通過(guò) Project Catapult 表明了對 FPGA 的支持。另外,這一年 IBM 在神經(jīng)形態(tài)計算上的進(jìn)展也得到了很大的關(guān)注,甚至可能預示著(zhù)一種人工智能發(fā)展的新方向。

在這場(chǎng)競賽中,創(chuàng )業(yè)公司也并未落后太遠。該領(lǐng)域已經(jīng)流入了 5.89 億美元的風(fēng)險投資和私募基金。前 NASA 局長(cháng)創(chuàng )建的 Knuedge 在銷(xiāo)聲十幾年后再次出現在大眾面前,宣布完成了 1 億美元的融資。Mobileye ,一家向寶馬、沃爾沃、通用、特斯拉等汽車(chē)公司提供 ADAS 的公司在自動(dòng)駕駛汽車(chē)領(lǐng)域處于領(lǐng)導地位。Wave Computing、Kneron 以及中國的寒武紀和深鑒科技等公司都在努力開(kāi)發(fā)自家的深度學(xué)習專(zhuān)用芯片平臺。而這些公司在 2016 年同樣也取得了相當不俗的表現,比如源自中科院計算機研究所的寒武紀就在 2016 年推出的寒武紀 1A 處理器,據稱(chēng)這是世界首款商用深度學(xué)習專(zhuān)用處理器。

學(xué)術(shù)界也并未避開(kāi)這一領(lǐng)域。最近,MIT 的研究人員展現了比手機 GPU 快 10 倍的芯片 Eyeriss,能夠在手機本地運行深度學(xué)習算法。

創(chuàng )業(yè)公司 投資方 產(chǎn)品描述

Mobileye(199 年)耶路撒冷, 5.15 億美元, IPO) Fidelity Investments, Goldman Sachs, Blackrock 為自動(dòng)駕駛汽車(chē)設計基于深度學(xué)習的計算機視頻 ASICs

Nervana Systems(2014 年,圣地亞哥,2400 萬(wàn)美元,被英特爾收購) In-Q-Tel, Lux Capital, Draper Fisher Jurvetson 為基于深度學(xué)習系統的芯片設計定制的 ASIC。

Knuedge(2005 年,圣地亞哥,1億美元,處于早期階段) 未知 為機器學(xué)習應用和 HPC 數據中心設計神經(jīng)形態(tài)芯片。

Movidius(2005 年,圣馬特奧,8650 萬(wàn)美元,E 輪) West Summit Capital, Robert Bosch Venture Capital 為 IoT 設備設計深度學(xué)習視覺(jué)處理芯片。

Teradeep(2014 年,圣克拉拉,未知,早期階段) Xilinx 科技公司合伙人 為 IoT 設計基于深度學(xué)習的嵌入式計算機視覺(jué)系統。

CoreViz(2014 年,帕羅奧圖,未知,早期階段) Graph Ventures 為數據中心、汽車(chē)、手機系統設計低能耗的視覺(jué)處理芯片。

創(chuàng )業(yè)公司一欄中的記錄方式為(創(chuàng )立年份、城市、融資、公司所處階段),該表只展示了一些主要的投資者。

三、研究社區

1、開(kāi)放

世界上最大的科技公司,頂尖大學(xué)甚至 DARPA 都在開(kāi)源他們的人工智能系統。

谷歌。2016年3月,谷歌宣布加入開(kāi)放計算項目(Open Compute Project),通過(guò)這個(gè)項目,將其服務(wù)器和數據中心的解決方案開(kāi)源。5月,谷歌開(kāi)源最精確自然語(yǔ)言解析器 SyntaxNet。6月,新開(kāi)源「寬度&深度學(xué)習」框架。8月,Google Research 發(fā)布博客稱(chēng)開(kāi)源了在 Annotated English Gigaword 上進(jìn)行新聞標題生成任務(wù)的 TensorFlow 模型代碼。12月,谷歌開(kāi)源了一款用于交互式可視化和高維數據分析的網(wǎng)頁(yè)工具 Embedding Projector,其作為 TensorFlow 的一部分,能帶來(lái)類(lèi)似 A.I. Experiment 的效果。同時(shí),谷歌也在 projector.tensorflow.org 放出了一個(gè)可以單獨使用的版本,讓用戶(hù)無(wú)需安裝和運行 TensorFlow 即可進(jìn)行高維數據的可視化。12月,谷歌還開(kāi)源了機器閱讀理解數據集 MC-AFP。

Facebook。2016年6月,Facebook 發(fā)布最新開(kāi)源 Torchnet工具包。這個(gè)工具包可快速建立有效且可重復使用的學(xué)習系統,從而促進(jìn)深度學(xué)習協(xié)同發(fā)展,加速人工智能研究。Facebook 的圖像識別功能一直為人所贊嘆,也是一些專(zhuān)業(yè)人士介紹相關(guān)技術(shù)的范例。8月,Facebook 官方發(fā)布博客稱(chēng)開(kāi)源 DeepMask 分割構架、SharpMask 分割精煉模塊、MultiPathNet 的代碼。FastText是 Facebook 開(kāi)發(fā)的一款快速文本分類(lèi)器,提供簡(jiǎn)單而高效的文本分類(lèi)和表征學(xué)習的方法,性能比肩深度學(xué)習而且速度更快。8月,Facebook 官方博客發(fā)文稱(chēng)開(kāi)源 fastText。9月,Facebook 開(kāi)源重磅項目 CommAI-env,一個(gè)開(kāi)發(fā)基于通信的人工智能系統的平臺。12月,Facebook 宣布開(kāi)源 TorchCraft,它在星際爭霸與深度學(xué)習環(huán)境 Torch 之間架起了一道橋梁。TorchCraft 可讓每個(gè)人編寫(xiě)出星際爭霸人工智能玩家Bot。另外,Facebook 還開(kāi)源了圍棋人工智能系統DarkForest。

微軟。2016年1月,微軟發(fā)布了深度學(xué)習工具包 CNTK。7月,微軟創(chuàng )建的 Malmo 項目將 Minecraft 作為高級人工智能研究的測試平臺,在開(kāi)源許可下開(kāi)放給了 GitHub 上從新手到老手等所有程序員。在此之前,這一系統只對很少的計算機科學(xué)家開(kāi)放過(guò)私人預覽,它被設計用于幫助研究者開(kāi)發(fā)先進(jìn)的、更為普遍能做像學(xué)習、對話(huà)、決策以及完成復雜任務(wù)等工作的人工智能。這一系統將會(huì )幫助研究者們開(kāi)發(fā)用于強化學(xué)習的新技術(shù)和新方法。目前微軟現在正努力讓 Malmo 可以在 Universe 中使用。10月,微軟開(kāi)放了LightGBM(Light Gradient Boosting Machine),一個(gè)基于決策樹(shù)算法的快速的、分布式的、高性能 gradient boosting(GBDT、GBRT、GBM 或 MART)框架,可被用于排行、分類(lèi)以及其他許多機器學(xué)習任務(wù)中。12月,微軟發(fā)布數據集MS MARCO。其背后的團隊聲稱(chēng)這是目前這一類(lèi)別中最有用的數據集,因為這個(gè)數據集是基于匿名的真實(shí)數據構建的。通過(guò)將該數據集免費開(kāi)放給更多的研究者,該團隊希望能夠促進(jìn)機器閱讀領(lǐng)域的研究突破,就像之前研究者已經(jīng)在圖像識別和語(yǔ)音識別領(lǐng)域所取得顛覆性突破一樣。

谷歌、微軟、Facebook 等傳統的人工智能技術(shù)巨頭之外,百度近來(lái)也加入到了技術(shù)開(kāi)源的浪潮之中。2016年1月,百度宣布開(kāi)源人工智能代碼,百度硅谷實(shí)驗室已經(jīng)向 GitHub 上傳了 Warp-CTC C 代碼庫。與此同時(shí),百度在一篇博客文章中鼓勵開(kāi)發(fā)者試用這些代碼。繼 9月PaddlePaddle 之后,百度又宣布開(kāi)源了一項深度學(xué)習基準 DeepBench。

2016年12月,DeepMind 開(kāi)源3D人工智能訓練平臺。DeepMind Lab 是一個(gè)類(lèi)全3D游戲平臺,為基于智能體的人工智能研究量身打造。和 Malmo 類(lèi)似,也允許研究者創(chuàng )建迷宮,讓不同算法學(xué)習如何尋路,獲得獎勵。DeepMind 正在嘗試將「更自然的元素」(如起伏的地形和植物)整加入到這個(gè)虛擬世界中。開(kāi)源后,DeepMind 希望在其他研究者的幫助下,這個(gè)平臺能夠更加復雜,從而訓練更聰明的訓練算法。

兩天以后,OpenAI 發(fā)布了一個(gè)「元平臺」Universe。它允許人工智能程序在其中與最初為人類(lèi)玩家設計的十幾款 3D 游戲互動(dòng),另外,這個(gè)環(huán)境還包含了一些網(wǎng)絡(luò )瀏覽器與手機 app。相比 DeepMind Lab 的 3D 世界,OpenAI 的元平臺 Universe則更進(jìn)一步。通過(guò)為同一個(gè)人工智能程序提供多種不同類(lèi)型的環(huán)境,這一平臺或許可以解決領(lǐng)域內最棘手的問(wèn)題:如何創(chuàng )建一個(gè)可以解決任何新問(wèn)題的算法。

大學(xué)方面。2016年9月,伯克利大學(xué)和 Adobe 在 Github 上開(kāi)源了新的深度學(xué)習圖像編輯工具 iGAN。神經(jīng)機器翻譯是近段時(shí)間以來(lái)推動(dòng)機器翻譯發(fā)展的主要推動(dòng)力。2016年12月,哈佛大學(xué)自然語(yǔ)言處理研究組(Harvard NLP)宣布開(kāi)源了其研發(fā)的神經(jīng)機器翻譯系統 OpenNMT,該系統使用了 Torch 數學(xué)工具包。該研究組在官網(wǎng)上表示該系統已經(jīng)達到生產(chǎn)可用的水平(industrial-strength)。

DARPA 已經(jīng)向開(kāi)源機器學(xué)習技術(shù)邁出了一大步。事實(shí)上,DARPA XDATA項目產(chǎn)生了一個(gè)目前最先進(jìn)的機器學(xué)習、可視化和其他技術(shù)的目錄,任何人都可以下載、使用和修改這些技術(shù)以打造定制化的人工智能工具。

下面簡(jiǎn)單列出了 2016 年最受歡迎的深度學(xué)習工具:

TensorFlow,來(lái)自谷歌,地址:https://github.com/tensorflow/tensorflow

Keras,來(lái)自 François Chollet,地址:https://github.com/fchollet/keras

CNTK,來(lái)自微軟,地址:https://github.com/Microsoft/CNTK

MXNet,來(lái)自 DMLC,被亞馬遜采用,地址:https://github.com/dmlc/mxnet

Theano,來(lái)自蒙特利爾大學(xué),地址:https://github.com/Theano/Theano

Torch,來(lái)自 Ronan Collobert, Koray Kavukcuoglu, Clement Farabet,被 Facebook 廣泛使用,地址:https://github.com/torch/torch7

2、合作

OpenAI 是一個(gè)非營(yíng)利性組織,它旨在建立學(xué)界和工業(yè)界之間的合作關(guān)系,并將其研究結果免費公開(kāi)。OpenAI 在 2015 年建立,并在 2016 年開(kāi)始發(fā)表它的研究結果(通過(guò) InfoGAN 出版物、Universe 平臺、this one 會(huì )議)。OpenAI 的目標就是確保人工智能技術(shù)對盡可能多的人來(lái)說(shuō)都是可行的,并且防止出現超人工智能。

另一方面,亞馬遜、DeepMind、谷歌、Facebook、IBM 和微軟還在人工智能之上達成了一項合作,其目標是提升公眾對這一領(lǐng)域的理解、支持最佳的實(shí)踐和為討論和參與開(kāi)發(fā)一個(gè)開(kāi)放的平臺。

另外,Yoshua Bengio 新書(shū)《Deep Learning》中文版已經(jīng)發(fā)布,該書(shū)由北京大學(xué)張志華老師團隊負責翻譯。2016年6月,吳恩達宣布開(kāi)放訂閱自己的新書(shū)《machine learning yearning》。后來(lái),吳恩達推特發(fā)文稱(chēng)已經(jīng)郵件發(fā)送了該書(shū)的前12個(gè)章節。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到