【重磅】谷歌開(kāi)源大規模語(yǔ)言建模庫,10億+數據,探索 RNN 極限

韓璐 9年前 (2016-09-13)

谷歌今天宣布開(kāi)源大規模語(yǔ)言建模模型庫,這項名為“探索RNN極限”的研究今年 2 月發(fā)表時(shí)就引發(fā)激論,如今姍姍來(lái)遲的開(kāi)源更加引人矚目。

【編者按】本文轉載自新智元,來(lái)源:arXiv.org,譯者:胡祥杰

【重磅 】 谷歌開(kāi)源大規模語(yǔ)言建模庫,10億+數據,探索 RNN 極限

開(kāi)源說(shuō)明

根據谷歌大腦團隊在Github發(fā)布的消息,他們這次發(fā)布開(kāi)源了一個(gè)在英語(yǔ)語(yǔ)料庫 One Billion Word Benchmark(http://arxiv.org/abs/1312.3005)預先訓練過(guò)的模型。這個(gè)數據庫含有大約10億個(gè)單詞,詞匯有80萬(wàn)單詞,大部分都是新聞數據。由于訓練中句子是被打亂了的,模型可以不理會(huì )文本,集中句子層面的語(yǔ)言建模。

在此基礎上,作者在論文描述了一個(gè)模型,混合了字符CNN(character CNN)、大規模深度LSTM,以及一個(gè)專(zhuān)門(mén)的Softmanx架構,最終得到的結果可以說(shuō)是迄今最好的。

代碼發(fā)布

開(kāi)源部分包括:

1.TensorFlow GraphDef proto buffer文本文件

2.TensorFlow 預訓練 checkpoint shards

3.評估預訓練模型的代碼

4.詞匯表

5.LM-1B評估測試

代碼支持4種評估模式:

1.提供數據庫,計算模型的perplexity

2.提供前綴,預測后面一個(gè)單詞

3.softmax嵌入項,字符級別的CNN單詞嵌入項

4.輸入句子,將轉存LSTM狀態(tài)的嵌入項

結果

【重磅 】 谷歌開(kāi)源大規模語(yǔ)言建模庫,10億+數據,探索 RNN 極限

更多信息請訪(fǎng)問(wèn):https://github.com/tensorflow/models/tree/master/lm_1b

研究論文:探索語(yǔ)言建模的極限

作者:Rafal Jozefowicz,Oriol Vinyals,Mike Schuster,Noam Shazeer,Yonghui Wu

摘要

本文中,作者探討了近年來(lái)遞歸神經(jīng)網(wǎng)絡(luò )(RNN)在語(yǔ)言理解的核心——大規模語(yǔ)言建模(LM)方面的發(fā)展。為了解決語(yǔ)言建模中的兩大挑戰:語(yǔ)料庫和詞匯量,以及復雜的、長(cháng)期的語(yǔ)言結構,作者拓展了現有模型,在One Billion Word Benchmark上對CNN或LSTM做了徹底研究。單一模型最好成績(jì)將結果從 51.3 提高到30.0(同時(shí)將參數數量減少了20倍),模型融合的結果創(chuàng )下了歷史記錄,將混淆度(perplexity)從41.0下降到23.7。我們將這些模型開(kāi)源,供所有NLP和ML研究者研究和提高。

【重磅 】 谷歌開(kāi)源大規模語(yǔ)言建模庫,10億+數據,探索 RNN 極限

論文呈現的模型中一個(gè)高層的圖表。a指的是一個(gè)標志的LSTM 語(yǔ)言建模;b代表一個(gè)LM,其中輸入和Softmax嵌入被一個(gè)字符CNN取代。c中,我們用一下一個(gè)單詞預測LSTM網(wǎng)絡(luò )替代Softmax。

語(yǔ)言建模(LM)是自然語(yǔ)言處理和自然理解模型任務(wù)的一個(gè)核心任務(wù),能對句子結構分步進(jìn)行展示,它展示的不僅是語(yǔ)言的復雜內容,比如語(yǔ)法結構,還能提取語(yǔ)料庫可能包含的一定數量信息。確實(shí),模型能夠把較低的概率指派到那些語(yǔ)法上正確的句子上,但是卻不太可能幫助完成其他基礎的語(yǔ)言理解任務(wù),比如,回答問(wèn)題、機器翻譯或者文本摘要。

LM在傳統的NLP任務(wù)中扮演著(zhù)關(guān)鍵的角色,例如,語(yǔ)音識別、機器翻譯、文本摘要。通常(但不是一直),訓練語(yǔ)言模型會(huì )提升下游任務(wù)的潛在價(jià)值,比如語(yǔ)音識別中的詞語(yǔ)錯誤率,或者翻譯中的BLEU分數),這會(huì )讓訓練更好的LM自身具有更高價(jià)值。

進(jìn)一步說(shuō),在大量的數據上進(jìn)行訓練,語(yǔ)言模型會(huì )從訓練數據中簡(jiǎn)練地提取解碼后的知識。比如,當用電影字幕進(jìn)行訓練時(shí),這些語(yǔ)言模型能夠生成關(guān)于物體顏色、人物身份等信息的大難。最近提出的序列到序列模型,使用了有條件的語(yǔ)言模型,作為解決多任務(wù)難題的一個(gè)關(guān)鍵,包括機器翻譯和視頻生成等 。

深度學(xué)習和遞歸神經(jīng)網(wǎng)絡(luò )(RNN)在過(guò)去的幾年中極大地推動(dòng)了語(yǔ)言建模研究的發(fā)展,讓研究者可以在更多的任務(wù)上進(jìn)行探索,在這些任務(wù)中,強限制性的獨立假設都是不實(shí)際的。

雖然事實(shí)上,簡(jiǎn)單的模型,比如N-grams,只使用極少的前詞(privious words)來(lái)預測接下里會(huì )出現的詞,它們對于高質(zhì)量、低混淆的語(yǔ)言建模來(lái)說(shuō)一談是一個(gè)非常關(guān)鍵的組成部分。

確實(shí),最近絕大部分對大型語(yǔ)言建模的研究已經(jīng)證明了RNN配合N-grams使用效果非常好,因為它們可能有一些不同的優(yōu)勢,能對N-gram模型進(jìn)行補充。但是,如果單獨使用RNN的話(huà),效果就會(huì )很差。

我們相信,雖然很多工作都在小型的數據集,比如Penn Tree Bank(PTB)上展開(kāi),但是,更大型的任也是很重要的,因為過(guò)擬合并不是目前語(yǔ)言建模中的一個(gè)主要限制,而只是PTB任務(wù)中的一個(gè)主要特點(diǎn)。

大型語(yǔ)料庫上的結果通常會(huì )更好,這很重要,因為許多在小型數據庫上運行得很好的想法在大型數據庫上做進(jìn)一步提升時(shí)都失敗了。進(jìn)一步來(lái)看,考慮到當下的硬件趨勢和網(wǎng)頁(yè)大量可用的文本數據,進(jìn)行大型的建模將會(huì )比過(guò)去更加簡(jiǎn)單。所以,我們希望我們的工作能給研究者帶來(lái)啟發(fā)和幫助,讓他們在PTB之外可以使用傳統的語(yǔ)言模型。

出于這一目的,我們把自己的模型和訓練內容進(jìn)行開(kāi)源。

我們聚焦在一個(gè)著(zhù)名的大型LM基準:One Billion Word Benchmark數據集。這一數據集比PTB要大很多,同時(shí)挑戰也多很多。與計算機視覺(jué)領(lǐng)域的Imagenet類(lèi)似,我們認為,在大型數據集上研究,并且在清晰的基準上進(jìn)行建模將能提上語(yǔ)言建模。

我們工作的貢獻主要有以下幾個(gè):

1.我們探索、擴展并嘗試在大規模LM上整合當下的一些研究;

2.具體地,我們設計了一個(gè)Softmax loss,基于特性水平的CNN,在訓練上效率很高,在準確度上與完整的Softmax一致,而完整版的要求更多維的參數;

3.我們的研究提升了當下最著(zhù)名的大規模LM任務(wù):?jiǎn)我荒P偷?從51.3降到了30.0,同時(shí),參數的系數減少了20;

4.我們證明了,幾個(gè)不同模型的組合能把這一任務(wù)的perplexity降到23.7,這是一個(gè)顯著(zhù)的提升。

在論文的第二部分,我們將會(huì )對語(yǔ)言建模中的重要概念和前人研究進(jìn)行綜述。第三部分,我們會(huì )提出對神經(jīng)語(yǔ)言建模這一領(lǐng)域的貢獻,重點(diǎn)在大規模遞歸神經(jīng)網(wǎng)絡(luò )的訓練。第4和第5部分的目的是盡可能地描述我們的經(jīng)驗和對項目的理解,同時(shí)把我們的工作與其他相關(guān)的研究方法進(jìn)行對比。

評價(jià)及討論

Reddit、HN和Twitter上的反響都挺好,不過(guò)也有人指出了這項研究的一些缺點(diǎn)。根據shortscience.org上的留言;

正如我在上文提到的那樣,perplexity 從某處程度上來(lái)是一個(gè)讓人困惑的指標,大的混淆(perplexity)并不反映真正的提升,而是帶來(lái)樓主“夸大”效應。

這篇論文只提供了語(yǔ)言建模的提升,但是,LM一般都會(huì )被嵌入到復雜的使用場(chǎng)景中,比如語(yǔ)音識別或者機器翻譯。如果本論文中提供的LM可以分享一下與一些端到端的產(chǎn)品融合的結果,那會(huì )更有見(jiàn)解性。鑒于論文的作者在谷歌大腦團隊工作,這一要求并不過(guò)分。

據我所知,本論文使用的數據庫來(lái)自新聞報道,這種類(lèi)型的數據比起口語(yǔ)數據更加規范。在實(shí)際的應用中,我們面對的通常是非正式化的數據(比如搜索引擎和語(yǔ)音識別)。論文中提到的最好的模型,能否適應更加實(shí)際的應用,目前依然是一個(gè)問(wèn)題。再次的,對于谷歌大腦團隊來(lái)說(shuō),把這一模型融合到既有的系統中進(jìn)行測試,并不是什么難事。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到