【重磅】谷歌發(fā)布 Zero-Shot 神經(jīng)機器翻譯系統:AI 巴別塔有望成真

鎂客 9年前 (2016-11-23)

系統可以實(shí)現“零數據翻譯”,即能夠在從來(lái)沒(méi)有見(jiàn)過(guò)的語(yǔ)言之間進(jìn)行翻譯,這意味著(zhù)傳說(shuō)中的“巴別塔”有望成真。

【導讀】谷歌今日更新博客,介紹了谷歌神經(jīng)機器翻譯系統重大更新,實(shí)現了用單一模型對多語(yǔ)種通用表征。這種新的模型體積不僅與多語(yǔ)言翻譯模型一樣,參數相同,而且速度更快、質(zhì)量更高。不僅如此,系統還實(shí)現“零數據翻譯”,也即能夠在從來(lái)沒(méi)有見(jiàn)過(guò)的語(yǔ)言之間進(jìn)行翻譯。這意味著(zhù)傳說(shuō)中的“巴別塔”有望成真。

【重磅】谷歌發(fā)布 Zero-Shot 神經(jīng)機器翻譯系統:AI 巴別塔有望成真(

過(guò)去10年中,谷歌翻譯已從僅支持幾種語(yǔ)言發(fā)展到了支持 103 種,每天翻譯超過(guò)了 1400 億字。為了實(shí)現這一點(diǎn),我們需要構建和維護許多不同的系統,以便在任何兩種語(yǔ)言之間進(jìn)行轉換,由此產(chǎn)生了巨大的計算成本。神經(jīng)網(wǎng)絡(luò )改革了許多領(lǐng)域,我們確信可以進(jìn)一步提高翻譯質(zhì)量,但這樣做意味著(zhù)重新思考谷歌翻譯背后的技術(shù)。

今年 9 月,谷歌翻譯改為啟用谷歌神經(jīng)機器翻譯(GNMT)的新系統,這是一個(gè)端到端的學(xué)習框架,可以從數百萬(wàn)個(gè)示例中學(xué)習,并在翻譯質(zhì)量方面有顯著(zhù)提升。不過(guò),雖然啟用 GNMT 的幾種語(yǔ)言翻譯質(zhì)量得到了提升,但將其擴展到所有 103 種谷歌翻譯支持的語(yǔ)種,卻是一個(gè)重大的挑戰。

實(shí)現零數據翻譯(Zero-Shot Translation)

在論文《谷歌多語(yǔ)言神經(jīng)機器翻譯系統:實(shí)現零數據翻譯》(Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation)中,我們通過(guò)擴展以前的 GNMT 系統解決這一挑戰,使單個(gè)系統能夠在多種語(yǔ)言之間進(jìn)行翻譯。我們提出的架構不需要改變基本的 GNMT 系統,而是在輸入句子的開(kāi)頭使用附加的“token”,指定系統將要翻譯的目標語(yǔ)言。除了提高翻譯質(zhì)量,我們的方法還實(shí)現了“Zero-Shot Translation”,也即在沒(méi)有先驗數據的情況下,讓系統對從未見(jiàn)過(guò)的語(yǔ)言進(jìn)行翻譯。

下圖展示了最新 GNMT 的工作原理。假設我們使用日語(yǔ)和英語(yǔ)以及韓語(yǔ)和英語(yǔ)之間相互翻譯為例,訓練一個(gè)多語(yǔ)言系統,如動(dòng)畫(huà)中藍色實(shí)線(xiàn)所示。這個(gè)新的多語(yǔ)言系統與單個(gè) GNMT 系統大小一樣,參數也一樣,能夠在日英和韓英這兩組語(yǔ)言對中進(jìn)行雙語(yǔ)翻譯。參數共享使系統能夠將“翻譯知識”(translation knowledge)從一個(gè)語(yǔ)言對遷移到其他語(yǔ)言對。這種遷移學(xué)習和在多種語(yǔ)言之間進(jìn)行翻譯的需要,迫使系統更好地利用其建模能力。

【重磅】谷歌發(fā)布 Zero-Shot 神經(jīng)機器翻譯系統:AI 巴別塔有望成真(

由此,我們想到:能夠讓系統在從未見(jiàn)過(guò)的語(yǔ)言對之間進(jìn)行翻譯嗎?例如韓語(yǔ)和日語(yǔ)之間的翻譯,系統并沒(méi)有接受過(guò)日韓之間翻譯的訓練。但答案是肯定的——雖然從來(lái)沒(méi)有教過(guò)它但,新的系統確實(shí)能夠生成日韓兩種語(yǔ)言之間合理的翻譯。我們將其稱(chēng)為“零數據”(zero-shot)翻譯,如動(dòng)畫(huà)中的黃色虛線(xiàn)所示。據我們所知,這還是首次將這種類(lèi)型的遷移學(xué)習應用機器翻譯中。

零數據翻譯的成功帶來(lái)了另一個(gè)重要的問(wèn)題:系統是否學(xué)會(huì )了一種通用的表征,其中不同語(yǔ)言中具有相同意義的句子都以類(lèi)似的方式表示,也即所謂的“國際通用語(yǔ)”(interlingua)?使用內部網(wǎng)絡(luò )數據的三維表征,我們能夠看見(jiàn)系統在翻譯日語(yǔ)、韓語(yǔ)和英語(yǔ)這幾種語(yǔ)言時(shí),在各種可能的語(yǔ)言對之間進(jìn)行轉換(比如日語(yǔ)到韓語(yǔ)、韓語(yǔ)到英語(yǔ)、英語(yǔ)到日語(yǔ)等等)時(shí),內部發(fā)生的情況。

【重磅】谷歌發(fā)布 Zero-Shot 神經(jīng)機器翻譯系統:AI 巴別塔有望成真(

上圖中的(a)部分顯示了這些翻譯的總體幾何構成。圖中不同顏色的點(diǎn)代表不同的意思;意思相同的一句話(huà),從英語(yǔ)翻譯為韓語(yǔ),與從日語(yǔ)翻譯為英語(yǔ)的顏色相同。我們可以從上圖中看到不同顏色的點(diǎn)各自形成的集合(group)。(b)部分是這些點(diǎn)集的其中一個(gè)放大后的結果,(c)部分則由原語(yǔ)言的顏色所示。在單個(gè)點(diǎn)集中,我們能夠看到日韓英三種語(yǔ)言中,擁有相同含義的句子聚在一起。這意味著(zhù)網(wǎng)絡(luò )必定是對句子的語(yǔ)義進(jìn)行編碼,而不是簡(jiǎn)單地記住短語(yǔ)到短語(yǔ)之間的翻譯。由此,我們認為這代表了網(wǎng)絡(luò )中存在了一種國際通用語(yǔ)(interlingua)。

我們在論文中還寫(xiě)下了更多的結果和分析,希望這些的發(fā)現不僅能夠幫助從事機器學(xué)習或機器翻譯的研究人員,還能對于語(yǔ)言學(xué)家和對使用單一系統處理多語(yǔ)言感興趣的人有用。

最后,上述多語(yǔ)言谷歌神經(jīng)機器翻譯系統(Multilingual Google Neural Machine Translation)從今天開(kāi)始將陸續為所有谷歌翻譯用戶(hù)提供服務(wù)。當前的多語(yǔ)言系統能夠在最近推出的16個(gè)語(yǔ)言對中的 10 對中進(jìn)行轉化,提高了翻譯質(zhì)量,并且簡(jiǎn)化了生產(chǎn)架構。

商業(yè)部署后,實(shí)現技術(shù)上的突破

正如前文所說(shuō),今年 9 月,谷歌宣布對部分語(yǔ)種啟用谷歌神經(jīng)機器翻譯(GNMT)的新系統,并在幾種率先使用的測試語(yǔ)種(包括漢語(yǔ))翻譯質(zhì)量方面得到了顯著(zhù)提升。下面的動(dòng)圖展示了 GNMT 進(jìn)行漢英翻譯的過(guò)程。首先,網(wǎng)絡(luò )將漢字(輸入)編碼成一串向量,每個(gè)向量代表了當前讀到它那里的意思(即 e3 代表“知識就是”,e5 代表“知識就是力量”)。整句話(huà)讀完之后開(kāi)始解碼,每次生成一個(gè)作為輸出的英語(yǔ)單詞(解碼器)。

【重磅】谷歌發(fā)布 Zero-Shot 神經(jīng)機器翻譯系統:AI 巴別塔有望成真(

要每一步生成一個(gè)翻譯好的英語(yǔ)單詞,解碼器需要注意被編碼中文向量的加權分布中,與生成英語(yǔ)單詞關(guān)系最為密切的那個(gè)(上圖中解碼器 d 上面多條透明藍線(xiàn)中顏色最深的那條),解碼器關(guān)注越多,藍色越深。

使用人類(lèi)對比評分指標,GNMT 系統生成的翻譯相比此前有了大幅提高。在幾種重要語(yǔ)言中,GNMT 將翻譯錯誤降低了 55%-58%。

不過(guò),當時(shí)也有很多研究人員認為,當時(shí)谷歌翻譯取得的“里程碑”,與其說(shuō)是技術(shù)突破,不如說(shuō)是工程上的勝利——大規模部署本身確實(shí)需要軟硬件方面超強的實(shí)力,尤其是想谷歌翻譯這樣支持 1 萬(wàn)多種語(yǔ)言的商業(yè)應用,對速度和質(zhì)量的要求都非常的高。但是,神經(jīng)機器翻譯的技術(shù)早已存在,借鑒了語(yǔ)言和圖像處理方面的靈感,是多種技術(shù)的整合。

現在,只用了大約 2 個(gè)月的時(shí)間(論文首次上傳到 arXiv 是 11 月 14 日),谷歌翻譯和谷歌大腦團隊就實(shí)現了技術(shù)上的突破——讓系統在從未見(jiàn)過(guò)的語(yǔ)言對之間進(jìn)行翻譯,也即所謂的“zero-shot translation”。

不僅如此,谷歌研究人員還在論文最后做了分析,新的模型代表了實(shí)現一種“國際通用語(yǔ)”模型的可能。有評論稱(chēng),這可以說(shuō)是實(shí)現“巴別塔”的第一步。

谷歌神經(jīng)機器翻譯系統架構

就在幾天前,國外研究員 Smerity 在他的博客上發(fā)布了一篇分析谷歌神經(jīng)機器翻譯(GNMT)架構的文章,在 HackerNews、Reddit 等網(wǎng)站都引發(fā)了很多討論。

Smerity 在博文中指出,GNMT 的架構并不標準,而且在很多情況下偏離主流學(xué)術(shù)論文中提出的架構。但是,根據谷歌特定的需求,谷歌修改了系統,重點(diǎn)保證系統的實(shí)用性而并非追求頂尖結果。

【重磅】谷歌發(fā)布 Zero-Shot 神經(jīng)機器翻譯系統:AI 巴別塔有望成真(

【論文】谷歌的多語(yǔ)言神經(jīng)機器翻譯系統:實(shí)現 zero-shot 翻譯

【重磅】谷歌發(fā)布 Zero-Shot 神經(jīng)機器翻譯系統:AI 巴別塔有望成真(

摘要

我們提出了一種使用單一神經(jīng)機器翻譯(NMT)模型,在多語(yǔ)種之間進(jìn)行翻譯簡(jiǎn)潔而優(yōu)雅的解決方案。不需要修改谷歌現有的基礎系統模型架構,而是在輸入句子的前面加入人工 標記(token)明確其要翻譯成的目標語(yǔ)言。模型的其他部分(包括編碼器、解碼器和注意模型)保持不變,而且可以在所有語(yǔ)言上共享。使用一個(gè)共享的 wordpiece vocabulary,這種方法能夠使用單一模型實(shí)現多語(yǔ)種神經(jīng)機器翻譯,而不需要增加參數,相比此前提出的方法更為簡(jiǎn)單。實(shí)驗表明,這種新的方法大部分時(shí)候能提升所有相關(guān)語(yǔ)言對的翻譯質(zhì)量,同時(shí)保持總的模型參數恒定。

在 WMT' 14 基準上,單一多語(yǔ)言模型在英法雙語(yǔ)翻譯上實(shí)現了與當前最好技術(shù)相同的結果,并在英德雙語(yǔ)翻譯上超越當前最佳的結果。同時(shí),單一多語(yǔ)言模型分別在 WMT'14 和 WMT'15 基準上,超越了當前最佳的法英和德英翻譯結果。在用于生產(chǎn)的語(yǔ)料庫上,多達 12 個(gè)語(yǔ)言對的多語(yǔ)言模型能夠實(shí)現比許多單獨的語(yǔ)言對更好的表現。

【重磅】谷歌發(fā)布 Zero-Shot 神經(jīng)機器翻譯系統:AI 巴別塔有望成真(

除了提升該模型訓練所用的語(yǔ)言對的翻譯質(zhì)量之外,新的模型還能在訓練過(guò)程中將沒(méi)有見(jiàn)過(guò)的語(yǔ)言對相互聯(lián)系起來(lái)(bridging),表明用于神經(jīng)翻譯的遷移學(xué)習和零數據翻譯是可能的。最后,我們分析了最新模型對通用語(yǔ)言間表征的跡象,還展示了一些混合語(yǔ)言時(shí)會(huì )出現的有趣案例。


【編者按】本文轉載自新智元。文章來(lái)源: Google Research。作者:Mike Schuster (Google Brain), Melvin Johnson (Google Translate) and Nikhil Thorat (Google Brain )。編譯者:李靜怡

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到