【AI原力覺(jué)醒】《紐約時(shí)報》兩萬(wàn)字長(cháng)文,深度剖析谷歌大腦簡(jiǎn)史

韓璐 9年前 (2016-12-15)

文章中闡述了谷歌大腦團隊如何用神經(jīng)網(wǎng)絡(luò )改變谷歌翻譯這一谷歌重要產(chǎn)品,還探討了機器學(xué)習將如何重塑計算機這一概念本身。

【AI原力覺(jué)醒】《紐約時(shí)報》兩萬(wàn)字長(cháng)文,深度剖析谷歌大腦簡(jiǎn)史

序言:谷歌機器翻譯的威力

(文/Gideon Lewis-Kraus)11月的一個(gè)周五晚上,東京大學(xué)著(zhù)名的人機交互教授Jun Rekimoto正準備在線(xiàn)上進(jìn)行一次報告。忽然,他在社交網(wǎng)絡(luò )上發(fā)現一個(gè)消息,谷歌翻譯忽然之間有了巨大的提升。他親自訪(fǎng)問(wèn)了谷歌翻譯的頁(yè)面開(kāi)始體驗。他被震驚了。躺到床上后,谷歌翻譯的威力還縈繞在他腦海中,讓他無(wú)法停止想象。

他起身在自己的博客上寫(xiě)下了自己的發(fā)現。首先,他比較了兩位日本翻譯家所翻譯的《偉大的蓋茨比》中的幾句話(huà)與谷歌翻譯的結果。他認為,谷歌翻譯的結果在日語(yǔ)上非常流暢。他認為,谷歌的翻譯雖然有些不自然,但是比起翻譯家的作品,對他個(gè)人而言,卻更加易懂。

隨后,他又在谷歌翻譯上輸入日文(海明威的作品日文版),進(jìn)而翻譯為英文,結果發(fā)現機器翻譯與海明威英文原著(zhù)有著(zhù)驚人的相似度。

四天之后,大量的記者、企業(yè)家和廣告商匯集到了谷歌位于倫敦的工程辦公室,這里會(huì )有一個(gè)特殊的消息公布,大家都開(kāi)始猜測是不是會(huì )發(fā)布翻譯工具包。

倫敦市長(cháng)Sadiq Khan首先發(fā)言,隨后,谷歌首席執行官Sundar Pichai上臺。Pichai在倫敦的任務(wù)有一部分是為谷歌新的大樓舉行典禮。他曾經(jīng)在多個(gè)場(chǎng)合中提到,谷歌的未來(lái),是要以“AI為先”。這句話(huà)的實(shí)際含義非常復雜,也引來(lái)了諸多推測。而實(shí)際上,這句話(huà)的含義,指的是很快這家公司的產(chǎn)品代表的將不再是傳統計算機編程的成果,而是“機器學(xué)習”。

【AI原力覺(jué)醒】《紐約時(shí)報》兩萬(wàn)字長(cháng)文,深度剖析谷歌大腦簡(jiǎn)史

谷歌CEO SundarPichai在他位于加州山景城的辦公室外面。來(lái)源:Brian Finke for The New York Times

谷歌很少提到的一個(gè)部門(mén)——谷歌大腦,創(chuàng )建于5年前,遵循的這樣一條簡(jiǎn)單的原理:人工的“神經(jīng)網(wǎng)絡(luò )”能通過(guò)試錯,來(lái)熟知世界,正如嬰兒所做的那樣,這將為機器帶來(lái)一些像人一樣的靈活性。這一概念并不新鮮,它出現在20世紀40年代早期,但是絕大部分計算機科學(xué)家認為這是很難實(shí)現的、甚至是神秘的。2011年開(kāi)始,谷歌大腦開(kāi)始用這一方法進(jìn)軍人工智能,希望能解決傳統方法嘗試了數十年都沒(méi)有突破的難題。語(yǔ)音識別此前一直做得不好,但是谷歌大腦采用新方法后,讓安卓手機上的語(yǔ)音識別幾乎做到了人類(lèi)水平。在圖像識別上也是如此,一年多以前,谷歌大腦首次把這一技術(shù)應用到了商業(yè)化的產(chǎn)品中。

谷歌翻譯從2006年開(kāi)始推出,已經(jīng)成為谷歌最可信最流行的產(chǎn)品之一。Pichai在演講中提到,難民危機使得谷歌再次意識到,跨地區性的翻譯多么重要。他背后的顯示屏展示了最近在谷歌上阿拉伯語(yǔ)和德語(yǔ)之間的翻譯請求數量在增多。

谷歌決心圍繞AI重組公司,是整個(gè)產(chǎn)業(yè)界機器學(xué)習熱的第一個(gè)重要證明。在過(guò)去的4年間,至少有6家公司——谷歌、Facebook、蘋(píng)果、亞馬遜和微軟,以及百度,都在搶奪AI人才,特別是在大學(xué)中。企業(yè)對資源和自由的承諾,已經(jīng)吸引了一些學(xué)術(shù)界人士。起薪7位數也不再是什么新鮮事。另外,學(xué)術(shù)會(huì )議參會(huì )人數幾乎翻了四倍。他們關(guān)注的不再是零碎的創(chuàng )新,而是要控制作為整體的代表的計算平臺——普遍性的、無(wú)處不在的人工智能。

“人工智能”一詞被提起時(shí),好像它的意思是不言而喻的,但它一直都是爭議的根源。想象一下,如果你回到20世紀70年代,在街上攔住一個(gè)人,拿出一個(gè)智能手機,向他展示谷歌地圖。一旦你設法說(shuō)服她,你不是一個(gè)奇怪穿著(zhù)的巫師,從你的口袋里拿出的不是一個(gè)黑色護身符,而只是一個(gè)比阿波羅穿梭機更強大的電腦,谷歌地圖幾乎肯定似可以讓他認為是“人工智能”的一個(gè)好例子。在一個(gè)非常真實(shí)的意義上,它確實(shí)是。它可以做任何人類(lèi)在地圖上能做的工作,比如讓你從你的酒店到機場(chǎng),而且它可以做得更快更可靠。它也可以做人類(lèi)顯然不能做的事情:它可以評估交通,計劃最好的路線(xiàn),在你走錯路時(shí)重新定位自己。

Pichai在演講中重新區分了現在的AI 應用和通用人工智能的目標。通用人工智能將不是關(guān)于具體指令的遵守,而是帶有闡釋性和理解性的推動(dòng)。它將成為一種通用的工具,為通用環(huán)境、通用目的而設計。Pichai認為,谷歌的未來(lái)所仰仗的,就是類(lèi)似通用人工智能的這種東西。想象一下,如果你能告訴谷歌地圖,我要去機場(chǎng),但是我還要在半路去給侄子買(mǎi)禮物。然后讓它給你計劃路線(xiàn)。這就是一種更通用版本的智能,一個(gè)無(wú)處不在的助手。就像電影《Her》中描述的那樣,她能知道所有的事情,比如,你侄子的年齡、你通常會(huì )在禮物上花費多少、怎么找到一家營(yíng)業(yè)的商店。這一般是親密的朋友會(huì )知道的事。但是,一個(gè)真正智能的地圖還能知道更多,它知道你真正想要什么。根據你此前的行為會(huì )給你做出判斷。

現在流行的AI助手:蘋(píng)果的Siri、Facebook的M和亞馬遜的Echo,都是機器學(xué)習的產(chǎn)物,有著(zhù)相同的作用。企業(yè)的機器學(xué)習夢(mèng)想是無(wú)窮盡的,他們的目的是對消費者有更深的洞察。

下文講述的故事,就是從一兩個(gè)人,到三四個(gè)人,再到最后100多人的谷歌大腦,是如何在這一方向上取得巨大進(jìn)展的。

第一部分:會(huì )學(xué)習的機器

1. 谷歌大腦的誕生

【AI原力覺(jué)醒】《紐約時(shí)報》兩萬(wàn)字長(cháng)文,深度剖析谷歌大腦簡(jiǎn)史

雖然Jeff Dean的頭銜是高級研究員(senior fellow),實(shí)際上確實(shí)谷歌大腦的大腦。Dean身材消瘦,瘦長(cháng)的臉上眼窩深陷,透露著(zhù)一股熱誠。作為醫學(xué)人類(lèi)學(xué)家和公共衛生流行病學(xué)家的兒子,Dean從小周游世界——美國的明尼蘇達州、夏威夷、波士頓、阿肯色州,此外日內瓦、烏干達、索馬里、亞特蘭大等地,他在高中和大學(xué)期間寫(xiě)的軟件被世界衛生組織拿去用。他25歲左右,也就是1999年以來(lái)就一直在Google工作,從那時(shí)起,他在幾乎參與了開(kāi)發(fā)所有重大項目的核心軟件系統。關(guān)于他的種種傳說(shuō)Jeff Dean Facts在公司里成了一種文化。

2011年初的一天,Dean遇到了吳恩達,那時(shí)候吳恩達還是斯坦福計算機科學(xué)教授,是谷歌的顧問(wèn)。吳恩達告訴了Dean他自己幫助在谷歌內部建立的一個(gè)項目——Project Marvin(以著(zhù)名的AI先驅馬文·明斯基命名),用于研究“神經(jīng)網(wǎng)絡(luò )”,模仿人類(lèi)大腦結構的數字網(wǎng)格。Dean 1990年在明尼蘇達大學(xué)讀本科時(shí)也做過(guò)類(lèi)似技術(shù)的原始版,當時(shí)那段時(shí)間神經(jīng)網(wǎng)絡(luò )還算流行?,F在,在過(guò)去的五年中,從事神經(jīng)網(wǎng)絡(luò )研究的學(xué)者數量已經(jīng)開(kāi)始再次增長(cháng),從很少幾個(gè)到幾十個(gè)。吳恩達告訴 Dean,由谷歌X實(shí)驗室支持的Project Marvin已經(jīng)取得了一些好的結果。

Dean對這個(gè)項目很感興趣,于是拿出他20%的時(shí)間參與進(jìn)來(lái)——每個(gè)Google員工都要拿出20%的時(shí)間從事自己核心業(yè)務(wù)以外的工作。很快,Dean建議吳恩達邀請有神經(jīng)科學(xué)背景的同事Greg Corrado加入,那時(shí)候Corrado聽(tīng)說(shuō)過(guò)人工神經(jīng)網(wǎng)絡(luò ),但了解不多。后來(lái),吳恩達最好的一個(gè)研究生Quoc Le也作為項目的第一個(gè)實(shí)習生加入了團隊。到那時(shí),一些Google工程師開(kāi)始用Google Brain稱(chēng)呼Project Marvin。

從“人工智能”這個(gè)詞在1956年夏天達特茅斯會(huì )議誕生時(shí)起,大多數研究人員一直認為創(chuàng )造AI的最佳方法是寫(xiě)一個(gè)非常大的、全面的程序,包含了邏輯推理的規則和有關(guān)世界的充分的知識。這種觀(guān)點(diǎn)通常被稱(chēng)為“符號AI”,它對認知的定義是基于符號邏輯的。

符號AI有兩個(gè)主要問(wèn)題。一是非常耗費人力和時(shí)間,二是只有在規則和定義非常清楚的領(lǐng)域才能有用:比如數學(xué)或國際象棋。使用符號AI做機器翻譯效果極差,因為語(yǔ)言雖有規則,但復雜多變,并且還有很多例外。但對于數學(xué)和國際象棋來(lái)說(shuō),符號AI工作得很好,而符號AI的支持者也認為,沒(méi)有什么比數學(xué)和國際象棋更能代表“通用智能”。

但符號AI系統能做的事情是有限的。20世紀80年代,CMU的一位機器人研究員指出,讓計算機做成人能做的事情很簡(jiǎn)單,但讓計算機做一歲兒童做的事情幾乎不可能,比如拿起一個(gè)球或識別一只貓。到20世紀90年代,盡管在國際象棋上取得了很大的進(jìn)步,我們仍然離通用人工智能很是遙遠。

關(guān)于A(yíng)I還有一個(gè)不同的看法,這種觀(guān)點(diǎn)認為計算機將從底層(數據)而不是從頂層(規則)學(xué)習。這個(gè)概念可追溯到20世紀40年代初,當時(shí)研究人員發(fā)現靈活自如智能的最佳模型就是人類(lèi)大腦本身。說(shuō)到底,大腦只是由神經(jīng)元組成的,神經(jīng)元之間可以相互通電(或不通電)。單個(gè)神經(jīng)元并不重要,重要的是神經(jīng)元的整體連接。這種簡(jiǎn)單的結構為大腦提供了很多優(yōu)勢,能夠適應環(huán)境。大腦可以在信息很差或缺失的情況下工作;可以承受重大的損害,也不會(huì )完全失去控制;可以以非常有效的方式存儲大量的知識;可以清楚區分不同的模式,同時(shí)又保留足夠的混亂以處理歧義。

你可以用電子元件模擬這種結構,1943年的實(shí)驗表明,簡(jiǎn)單的人工神經(jīng)元網(wǎng)絡(luò )可以執行基本的邏輯運算。這些電子元件至少在理論上,可以學(xué)習我們人類(lèi)做事的方式。在生活中,我們會(huì )通過(guò)各種試錯改變神經(jīng)元對之間的突觸連接的強弱。人工神經(jīng)網(wǎng)絡(luò )也可以做到類(lèi)似的事情,通過(guò)不斷試錯,改變人工神經(jīng)元之間的數字關(guān)系。人工神經(jīng)網(wǎng)絡(luò )不需要使用固定的規則預編程,它可以改變自身以反映所吸收的數據中的模式。

這種對人工智能的看法可以說(shuō)是演化論而不是創(chuàng )造論。如果你想要一個(gè)靈活的機制,能夠適應環(huán)境,你最開(kāi)始就不想灌輸它固定的規則。你可以從非?;镜哪芰?mdash;—感官知覺(jué)和運動(dòng)控制開(kāi)始,希望更高的技能有機地出現。人類(lèi)不是通過(guò)背誦字典和語(yǔ)法書(shū)學(xué)習理解語(yǔ)言,所以為什么要讓計算機這樣做呢?

谷歌大腦是第一個(gè)對上述想法進(jìn)行商用投資的機構。Dean、Corrado和吳恩達(兼職)開(kāi)始合作,立即就取得了進(jìn)展。他們從最近的理論大綱以及自20世紀80年代和90年代的想法中吸取靈感,并利用谷歌無(wú)與倫比的數據儲備和龐大的計算基礎設施。他們將大量“標記”數據輸入網(wǎng)絡(luò ),計算機的輸出不斷改進(jìn),愈發(fā)接近現實(shí)。

“動(dòng)物演化出眼睛是一個(gè)巨大的發(fā)展,”Dean有一天告訴我。我們像往常一樣坐在會(huì )議室里,Dean在白板上畫(huà)了一條繁復彎曲的時(shí)間線(xiàn),表現Google Brain以及這個(gè)團隊與神經(jīng)網(wǎng)絡(luò )的歷史關(guān)系。“現在計算機也有眼睛了。我們可以以此為基礎讓計算機理解照片。機器人將得到徹底地改變。機器人將能夠在一個(gè)未知的環(huán)境中,處理許多不同的問(wèn)題上。”他們在機器人身上開(kāi)發(fā)的這些能力可能看起來(lái)很原始,但其意義卻是深遠的。

2. 多倫多大學(xué)教授Hinton成為谷歌的實(shí)習生

【AI原力覺(jué)醒】《紐約時(shí)報》兩萬(wàn)字長(cháng)文,深度剖析谷歌大腦簡(jiǎn)史

Geoffrey Hinton在谷歌多倫多辦公室。他的想法為谷歌神經(jīng)網(wǎng)絡(luò )機器翻譯方法奠定了基礎。來(lái)源:Brian Finke for The New York Times

Dean表示,Google Brain成立后一年左右,開(kāi)發(fā)具有一歲兒童智力的機器的實(shí)驗取得了巨大的進(jìn)展。谷歌的語(yǔ)音識別團隊將其舊系統的一部分改為神經(jīng)網(wǎng)絡(luò ),并且效果得到很大提升,甚至取得了近20年中最好的成果。谷歌物體識別系統的能力也提高了一個(gè)數量級。這不是因為Google Brain團隊成員在短短一年間產(chǎn)生了一系列超棒的新想法,而是因為谷歌終于投入了資源——計算機和越來(lái)越多的人力。

Google Brain成立的第二年,Geoffrey Hinton加入了,而吳恩達則離開(kāi)(現在是百度首席科學(xué)家,領(lǐng)導1300人規模的AI團隊)。Hinton當時(shí)只想離開(kāi)多倫多大學(xué)在谷歌待三個(gè)月,所以由于各種原因,谷歌不得不被聘他為實(shí)習生。在實(shí)習生培訓過(guò)程中,輔導人員會(huì )說(shuō)“輸入你的LDAP(即用戶(hù)登錄碼)”,Hinton會(huì )舉手問(wèn):“什么是LDAP?”在場(chǎng)所有二十幾歲的年輕人,只知道人工智能的皮毛,都在想“那個(gè)老家伙是誰(shuí)?為什么他連LDAP都不懂?”

Hinton說(shuō),直到有一天,有人在午餐時(shí)對他說(shuō)“Hinton教授!我選修了你的課!你在這里做什么?”自此以后,再也沒(méi)有人質(zhì)疑Hinton作為實(shí)習生的存在。

幾個(gè)月后,Hinton和他的兩個(gè)學(xué)生在ImageNet大型圖像識別競賽中取得了驚人的成果,讓計算機不僅識別出猴子,而且區分蜘蛛猴和吼猴,以及各種各樣不同品種的貓。谷歌很快就向Hinton和他的學(xué)生提出了Offer。他們也都接受了。“我以為他們對我們的知識產(chǎn)權感興趣,”Hinton說(shuō):“結果他們對我們這幾個(gè)人感興趣。”

Hinton出身于一個(gè)古老的英國家族。他的曾祖父George Boole在符號邏輯方面的基礎工作為計算機專(zhuān)業(yè)打下基礎;Hinton的另一個(gè)曾祖父是著(zhù)名的外科醫生,Hinton的父親是一個(gè)熱愛(ài)冒險家的昆蟲(chóng)學(xué)家,Hinton父親的表哥在Los Alamos研究所工作,等等等等。Hinton先后在劍橋大學(xué)和愛(ài)丁堡大學(xué)學(xué)習,然后在卡內基梅隆大學(xué)讀博士,最后到了多倫多大學(xué),現在Hinton大部分時(shí)間都在多倫多大學(xué)。(Hinton的工作長(cháng)期以來(lái)一直受到加拿大政府的慷慨支持。)我在Hinton的辦公室訪(fǎng)問(wèn)了他。Hinton說(shuō)話(huà)睿智詭異,比如“計算機會(huì )比美國人更早理解諷刺”。

Hinton從上世紀60年代末在劍橋大學(xué)讀本科開(kāi)始,一直致力于研究神經(jīng)網(wǎng)絡(luò ),也被認為是該領(lǐng)域的先驅。很長(cháng)時(shí)間以來(lái),每當Hinton說(shuō)起機器學(xué)習,人們都用不屑的眼神看著(zhù)他。神經(jīng)網(wǎng)絡(luò )一度被視為學(xué)術(shù)死路,主要是由于感知機(Perceptron)這個(gè)當時(shí)得到過(guò)度吹捧的概念。感知機是康奈爾心理學(xué)家Frank Rosenblatt在20世紀50年代末開(kāi)發(fā)的一個(gè)人工神經(jīng)網(wǎng)絡(luò )。當時(shí)《紐約時(shí)報》報道,感知機項目自助者美國海軍期望它“能夠走路、說(shuō)話(huà)、會(huì )看、會(huì )寫(xiě),會(huì )生產(chǎn)(reproduce)自己,意識到自己的存在”。結果這些感知機基本都沒(méi)實(shí)現。馬文·明斯基(Marvin Minsky)在1954年普林斯頓的論文中以神經(jīng)網(wǎng)絡(luò )為研究主題,但他對Rosenblatt關(guān)于神經(jīng)范式所做的夸張說(shuō)法已經(jīng)厭倦了。(明斯基也在爭取國防部的研究資金。)后來(lái),明斯基與MIT的同事合作出版了一本書(shū),證明有一些非常簡(jiǎn)單的問(wèn)題是感知器永遠不能解決的。

明斯基當時(shí)對感知機的批評只涉及只有一個(gè)“層”的網(wǎng)絡(luò ),也就是在輸入和輸出之間只有一層神經(jīng)網(wǎng)絡(luò )——后來(lái)明斯基闡述了與當代深度學(xué)習非常相似的想法。但是,當時(shí)Hinton就已經(jīng)知道,如果使用很多層神經(jīng)網(wǎng)絡(luò ),就可以執行復雜的任務(wù)。簡(jiǎn)單說(shuō),神經(jīng)網(wǎng)絡(luò )就是一臺機器,能夠從數據中發(fā)現模式并以此進(jìn)行分類(lèi)或預測。有一層神經(jīng)網(wǎng)絡(luò ),你可以找到簡(jiǎn)單的模式;有多層神經(jīng)網(wǎng)絡(luò ),就可以找出模式中的模式。以圖像識別為例,執行圖像識別的神經(jīng)網(wǎng)絡(luò )主要使用“卷積神經(jīng)網(wǎng)絡(luò )”(這在1998年的一篇開(kāi)創(chuàng )性論文中闡述的概念,該論文的主要作者、法國人Yann LeCun跟著(zhù)Hinton在多倫多大學(xué)做了博士后,現任Facebook人工智能實(shí)驗室負責人),網(wǎng)絡(luò )的第一層學(xué)習識別圖像非?;镜囊曈X(jué)效果“邊緣”,也就是一個(gè)像素旁邊沒(méi)有什么任何東西(反之亦然)。接下來(lái)網(wǎng)絡(luò )的每一層都在前一層中尋找模式。邊緣的模式可以是圓形,也可以是矩形。圓形或矩形的圖案可能是面部,等等。這種方法類(lèi)似于人眼將信息組合在一起的方式,從視網(wǎng)膜中的光線(xiàn)感受器返回信息到大腦的視覺(jué)皮層。在每個(gè)步驟中,不立即相關(guān)的細節被丟棄。如果幾個(gè)邊緣和圓圈合在一起成為一張臉,你不會(huì )在乎在視野中這張臉的位置;你只會(huì )在乎它是一張臉。

多層也即“深度”神經(jīng)網(wǎng)絡(luò )的問(wèn)題是試錯法部分非常復雜。單層的網(wǎng)絡(luò )很容易,多層的訓練起來(lái)就復雜了。Hinton和其他幾個(gè)人發(fā)明了一個(gè)方法(或者說(shuō),改進(jìn)了一個(gè)舊的方法)解決這個(gè)多層出錯的問(wèn)題,那是在20世紀70年代末到80年代,為此計算機科學(xué)家對神經(jīng)網(wǎng)絡(luò )的興趣又短暫地復燃了一會(huì )兒。“人們對此非常興奮,”Hinton說(shuō):“但我們把它夸大了。”于是,計算機科學(xué)家很快回到了認為像Hinton那樣的人是怪人和神秘主義者的狀態(tài)。

不過(guò),這些想法在哲學(xué)家和心理學(xué)家之間仍然很受歡迎,他們稱(chēng)之為“連接主義”或“并行分布式處理”。盡管加拿大政府很慷慨,但就是沒(méi)有足夠的計算機力或足夠多的數據。Hinton 表示,支持我們想法的人不斷說(shuō):“是的,只要有一個(gè)大的機器就會(huì )工作了,但這不是一個(gè)非常有說(shuō)服力的論據。”

3. 深度學(xué)習的深度解讀

當Pichai在說(shuō)谷歌將以“AI為先”時(shí),他并不僅僅在描述公司的商業(yè)戰略,也同時(shí)把這一長(cháng)久以來(lái)都沒(méi)有起到多大作用的概念扔給了公司。Pichai在資源上的分配保證了像Jeff Dean和Hinton之類(lèi)的人,有足夠的計算能力和數據,來(lái)取得可靠的進(jìn)展。一個(gè)人類(lèi)的大腦保守估計有1000億個(gè)排列著(zhù)的神經(jīng)元。每一個(gè)神經(jīng)元與10萬(wàn)個(gè)類(lèi)似的神經(jīng)元相連,也就是說(shuō),突觸的數量在100萬(wàn)億到1000萬(wàn)億之間。對于20世紀40年代提出的一個(gè)簡(jiǎn)單的人工智能神經(jīng)網(wǎng)絡(luò )來(lái)說(shuō),即使要簡(jiǎn)單的復制這一網(wǎng)絡(luò )都是不可想象的。我們現在離建造這樣一個(gè)網(wǎng)絡(luò )依然還有很遠的路要走,但是,谷歌大腦的投資,至少可以讓人工神經(jīng)網(wǎng)絡(luò )可以與大腦的某一切片功能相當。

要理解擴展性(Scale)為什么那么重要,你需要理解更多的細節,也就是,機器究竟對數據作做了什么?我們對AI的普遍性的恐懼,大都來(lái)源于認為它們會(huì )像一個(gè)神秘的學(xué)者一般在圖書(shū)館挖掘學(xué)習知識,然后,從前只會(huì )裁紙的機器或許有一天能像對待一只螞蟻或者萵苣一樣對待人類(lèi)。但這并不是AI的工作方式。它們所做的全部事情都是搜索信息,尋找共同點(diǎn),最開(kāi)始是基本的模式,隨后會(huì )變復雜,最后,最大的危險在于,我們所喂給它們的信息從一開(kāi)始就是錯誤或者帶有偏見(jiàn)的。

“知道什么”和“做什么”的權衡具有真正的文化及社會(huì )影響。在聚會(huì )上,Schuster走到我跟前,訴說(shuō)向媒體解釋他們的論文的挫折。他問(wèn)我:“你看了最早出來(lái)的新聞嗎?”他復述早報上的一個(gè)標題,一個(gè)字一個(gè)字地指著(zhù)念:“谷歌說(shuō)AI翻譯已經(jīng)與人類(lèi)無(wú)差”。在論文即將完成的最后幾周,團隊沒(méi)停下過(guò)奮斗。Schuster經(jīng)常重復地向人解釋?zhuān)撐谋磉_的是“谷歌翻譯比以前好多了,但還不如人類(lèi)好”。他表達的很明確,他們的努力不是說(shuō)要替代人類(lèi),而是輔助人類(lèi)。

4. 識別貓臉的論文

在谷歌大腦成立的第一年到第二年間,他們讓機器掌握一歲小孩的技能的努力幸運地達成了,所以,他們的團隊也從谷歌X實(shí)驗室“畢業(yè)”,轉變?yōu)楦蟮难芯繖C構。(谷歌X的主管曾經(jīng)說(shuō)過(guò),谷歌大腦負擔了所有X實(shí)驗室的成本支出。)他們的人數在當時(shí)仍然少于10個(gè)人,對于最終會(huì )實(shí)現什么,也只有一些模糊的感覺(jué)。但是,即便是在當時(shí),他們的思想也走在了前面,想著(zhù)接下來(lái)會(huì )發(fā)生什么。人類(lèi)的思維中,首先學(xué)習的是形狀,比如說(shuō)一個(gè)球,然后也會(huì )很舒服地接受所學(xué)到的知識,停留一段時(shí)間,但是遲早的電腦會(huì )需要問(wèn)關(guān)于這個(gè)球的事,這就過(guò)渡到了語(yǔ)言。

在這一方向上,谷歌大腦做的第一件事是“識別貓”,這也是令谷歌大腦聲名大噪的一件事。“識別貓”的論文展示的是,帶有超過(guò)10億個(gè)“突觸”連接的神經(jīng)網(wǎng)絡(luò ),這比當時(shí)任何公開(kāi)的神經(jīng)網(wǎng)絡(luò )模型都要大好幾百倍,但是與人類(lèi)的大腦相比,依然小了好幾個(gè)數量級。這一神經(jīng)網(wǎng)絡(luò )能識別原始的、費標簽的數據,并識別高難度的人類(lèi)概念。谷歌大腦的研究者向神經(jīng)網(wǎng)絡(luò )展示了幾百萬(wàn)幀靜態(tài)的Youtube視頻,然后,神經(jīng)網(wǎng)絡(luò )的感覺(jué)中樞開(kāi)始運轉,分離出了一個(gè)穩定的模型。和所有的小孩一樣,這一模型能毫不猶豫地識別出貓的臉。

研究員從未把關(guān)于貓的先驗知識編程輸入到機器中,機器直接與現實(shí)世界交互并且抓住了“貓”這一概念。(研究者發(fā)現,這一神經(jīng)網(wǎng)絡(luò )就好像核磁共振成像一般,貓的臉部的陰影會(huì )激活人工神經(jīng)元,讓它們產(chǎn)生集體的喚醒。)

當時(shí),絕大多數機器的學(xué)習都受到標簽數據的數量限制。“識別貓”的論文展示了,機器同樣能識別原始的非標簽數據,有時(shí)候或許是人類(lèi)自身都還沒(méi)建立起知識的數據。這一研究看起來(lái)并不僅僅是讓機器識別貓臉的巨大進(jìn)步,對于人工智能的整體發(fā)展都有很大意義。

“識別貓”的研究第一作者是Quoc Le。Le又矮又瘦,說(shuō)話(huà)輕柔但語(yǔ)速極快,他從小在越南長(cháng)大,父母都是農民,小時(shí)候家里甚至都沒(méi)有電。但是,他在數學(xué)上的天賦顯然來(lái)自他的童年時(shí)期。20世紀90年代,他還在上學(xué)時(shí),就曾經(jīng)嘗試開(kāi)發(fā)聊天機器人。他在想,這會(huì )有多困難呢?

“但是實(shí)際上”,他告訴《紐約時(shí)報》的記者,“這非常難”。

隨后,他離開(kāi)了越南到澳大利亞的堪培拉大學(xué)學(xué)習,主要研究計算機視覺(jué)一類(lèi)的AI任務(wù)。當時(shí),這一領(lǐng)域使用的方法,是要給機器填入大量的關(guān)于事物的定義性概念,這讓他覺(jué)得像是在作弊。Le當時(shí)并不知道,或者說(shuō)不是清楚地知道,世界上另外一些地方至少有幾十名計算機科學(xué)家和他一樣,也同時(shí)在情不自禁地想象:機器是能夠從零開(kāi)始學(xué)習的。

2006年,Le在德國的馬克斯普朗克研究所生物控制部門(mén)任職。在那里的一個(gè)讀書(shū)小組中,他看到了Geoffrey Hinton的兩篇論文,他覺(jué)得自己的雙眼瞬間明亮了。

“當時(shí)有很大的爭議”,他告訴我說(shuō),“非常非常大的爭議”。他看了一眼自己畫(huà)在白板上曲線(xiàn),又輕聲重復到,“我從來(lái)沒(méi)有見(jiàn)到過(guò)那么大的爭議。”

他記得自己在閱讀小組中站起來(lái),并說(shuō):“這就是未來(lái)。” 他回憶說(shuō),在當時(shí),這并不是一個(gè)很受歡迎的決定。他在澳大利亞的舊導師曾寫(xiě)郵件問(wèn)他,“你為什么做了這個(gè)決定?”

“當時(shí)我并沒(méi)有想到好的答案,我只是好奇”,他說(shuō),“(論文)提出了一個(gè)很成功的范式,但是老實(shí)說(shuō),我只是對這一范式感到好奇。”隨后,他去了斯坦福,加入了吳恩達的團隊,開(kāi)始追求Hinton的理念。“2010年年底,我已經(jīng)非常確信,會(huì )有一些事情發(fā)生了。”

隨后,他到倫敦開(kāi)始第一份實(shí)習,并完成了畢業(yè)論文,這也是“識別貓”的論文的前身。

在一個(gè)簡(jiǎn)單的層面上,Le想看看計算機是否可以被訓練,從而自己識別對于給定圖像絕對必要的信息。他給神經(jīng)網(wǎng)絡(luò )填入了一個(gè)他從YouTube采取的靜態(tài)片段。然后他告訴神經(jīng)網(wǎng)絡(luò )丟棄圖像中包含的一些信息,雖然他沒(méi)有指定應該或不應該丟棄的東西。機器拋棄了一些信息,最初是隨機的。然后他告訴計算機:“剛才是開(kāi)玩笑!現在重新創(chuàng )建初始圖像,你只是根據你保留的信息進(jìn)行顯示。”就像他要求機器找到一種方法來(lái)“總結”圖像,然后從摘要再回溯到最初的圖像。如果摘要是基于不相關(guān)的數據,如天空的顏色,而不是胡須,機器就不能執行好的重建。

機器的反應跟遠古時(shí)期的人類(lèi)很像,他們對于一只老虎的印象,是在自己看見(jiàn)猙獰的老虎時(shí)跑開(kāi)的過(guò)程中留下的。但是,與人類(lèi)的祖先不同的是,Le的神經(jīng)網(wǎng)絡(luò ),需要進(jìn)行一次一次又一次的嘗試。每一次,從數學(xué)的層面上,都會(huì )選擇對不同的信息進(jìn)行優(yōu)化,然后表現會(huì )越來(lái)越好。

但是,神經(jīng)網(wǎng)絡(luò )是黑箱。它確實(shí)產(chǎn)生了一個(gè)模型,但是模型本身通常很難被人類(lèi)理解或者觀(guān)察到。

Le并沒(méi)有覺(jué)得“貓臉識別”的成果讓他變得更有發(fā)言權,但是,他感受到了一種動(dòng)力,這種研究也許跟他早年希望開(kāi)發(fā)的聊天機器人有聯(lián)系。在“識別貓”的論文發(fā)表以后,他意識到,如果你能讓一個(gè)神經(jīng)網(wǎng)絡(luò )對照片進(jìn)行總結,你也可以讓它對一些句子進(jìn)行總結。在接下來(lái)的兩年中,這些想法一直纏繞著(zhù)Le,以及他在谷歌大腦的同事——Thomas Mikolov。

有一段時(shí)間,他們與谷歌的高管分享同一個(gè)辦公室。后來(lái)有一天他們從管理員處得到一封電子郵件,要求他們不要再讓團隊成員在Larry Page和Sergey Brin的套房前面的沙發(fā)上睡覺(jué)。后來(lái),他們終于在街道對面分到了一個(gè)辦公室。

在談到Mikolov時(shí),Le變得很?chē)烂C,但是又不斷提起他們的合作。后來(lái)才知道,原來(lái)Mikolov 后來(lái)去了Facebook。

【AI原力覺(jué)醒】《紐約時(shí)報》兩萬(wàn)字長(cháng)文,深度剖析谷歌大腦簡(jiǎn)史

Google Brain團隊成員2012年合影,他們著(zhù)名的“計算機識別貓臉”展示了神經(jīng)網(wǎng)絡(luò )分析未標記數據的能力。來(lái)源:谷歌

他們在這段時(shí)間試圖設計出的神經(jīng)網(wǎng)絡(luò )架構,不僅可以適應簡(jiǎn)單的照片分類(lèi),這是靜態(tài)的,而且還復雜的結構,隨著(zhù)時(shí)間的推移變化的,如語(yǔ)言或音樂(lè )。這些概念許多是在20世紀90年代首次提出的。Le和他的同事回到了那些長(cháng)期被忽視的概念中,看看他們可以收集什么。他們知道,一旦你建立了一個(gè)具有基本語(yǔ)言預測能力的設施,你就可以繼續做其他各種智能的事情, 例如預測一個(gè)合適的電子郵件回復,或預測一個(gè)智能的談話(huà)的流程。你就可以側重于那種看起來(lái)很像思維的能力,至少從表面看是這樣的。

第二部分:語(yǔ)言機器

語(yǔ)言學(xué)的轉折

谷歌大腦中現在有上百名的成員,但是它看起來(lái)并不像是一個(gè)有著(zhù)明顯的層級結構的部分,而是更像一個(gè)俱樂(lè )部或者學(xué)術(shù)團體,或者一個(gè)小酒吧。團隊成員不少是來(lái)自谷歌整個(gè)體系中最自由、最受敬仰的員工。他們現在在一個(gè)兩層蛋殼建筑中辦公,有巨大的窗戶(hù):他們的小廚房有一個(gè)桌式足球我從來(lái)沒(méi)有見(jiàn)過(guò)使用;Rock Band我從來(lái)沒(méi)有見(jiàn)過(guò)使用;和一個(gè)Go工具箱我看到使用了幾次。

我在6月份第一次到谷歌大腦辦公室時(shí),還有許多空余的辦公位,但是現在已經(jīng)全滿(mǎn)了。

谷歌大腦的成長(cháng)使得Jeff Dean對公司如何處理需求感到有些擔憂(yōu)。他希望避免在谷歌被稱(chēng)為“成功災難”——這種情況指的是,公司的理論研究能力超過(guò)了實(shí)際開(kāi)發(fā)產(chǎn)品的能力。某一天,他在做了一些計算后,向高管作了匯報,只用了兩頁(yè)的PPT。

“如果未來(lái)每個(gè)人每天都對自己的安卓手機說(shuō)話(huà)三分鐘,”他告訴高管,“(由此產(chǎn)生的數據計算需求)就是我們所需要的機器數量。”未來(lái),他們需要把自己的全球計算配置翻2-3倍。

“這也就是說(shuō),你必須建造新的大樓,”Jeff Dean在說(shuō)這話(huà)時(shí),帶了明顯的猶豫和斟酌。

但是,他們顯然還有另一個(gè)選擇——設計出大規模生產(chǎn)的,能在不同的數據中心分散使用的新芯片。加快運算速度。這些芯片被稱(chēng)為T(mén)PU。這些芯片比傳統芯片在精確度上要低一些。但是運算速度更快。從12.246X64.392變?yōu)?2X54 。

在數學(xué)層面上,神經(jīng)網(wǎng)絡(luò )只是數百或數千或數萬(wàn)的矩陣乘法,以連續不斷的形式出現。所以,讓計算更快比更準確要重要。

“通常,”Dean說(shuō),“專(zhuān)用硬件是個(gè)壞創(chuàng )意。它通常只可以加速一件事。但是由于神經(jīng)網(wǎng)絡(luò )的通用性,你可以利用這個(gè)專(zhuān)用硬件來(lái)處理很多其他事情。”

就在芯片設計接近完工時(shí),Le和他的兩位同事終于證明了神經(jīng)網(wǎng)絡(luò )可能可以處理語(yǔ)言結構。他描繪了一個(gè)“詞嵌入”的概念,這一概念出現已經(jīng)有10年了。也就是說(shuō),當你對圖像進(jìn)行總結時(shí),你可以分隔圖像,來(lái)分階段組成總結,比如邊緣、圓圈等等。當你用相同的方式對語(yǔ)言進(jìn)行總結,你最重要的是要制造出關(guān)于距離的多維度地圖。機器不會(huì )像人類(lèi)一樣去“分析”數據,使用語(yǔ)言規則來(lái)區分是名詞還是動(dòng)詞。它們只是轉化和改變或者組合地圖中的詞。

如果你能把所有法語(yǔ)中的詞和所有英語(yǔ)重點(diǎn)詞放在一起,至少在理論上,你可以訓練一個(gè)神經(jīng)網(wǎng)絡(luò ),來(lái)學(xué)習如何把一個(gè)句子放到空間中,并產(chǎn)生一個(gè)類(lèi)似的句子。

你要做的是把這些數百萬(wàn)的英語(yǔ)句子作為輸入,把可能的法語(yǔ)句子作為輸出,在多次訓練后,模型能是被出相關(guān)的詞語(yǔ)組合模型,這和圖像識別中的像素模型是一樣的。然后你就能給機器一個(gè)英語(yǔ)句子,讓他它產(chǎn)出一個(gè)與之匹配的法語(yǔ)句子。

詞和像素最大的不一樣在在于,圖中的像素是一次性能全部拿到的,但是,詞的出現是根據時(shí)間漸進(jìn)的。你需要讓網(wǎng)絡(luò )“記住”這種連續性,或者序列性。2014年9月,有三篇論文發(fā)表,一篇是Le寫(xiě)的,另外兩篇來(lái)自加拿大和德國,這些論文至少提供了完成這些任務(wù)所需要的理論工具。這些研究讓谷歌大腦中的一些項目成為了可能,比如研究機器如何生成藝術(shù)作品和音樂(lè )的Magenta。研究也為機器翻譯等實(shí)用性應用打下了基礎。Hinton對《紐約時(shí)報》的記者說(shuō),他本來(lái)認為這些研究要至少5年或者更多的時(shí)間才能做成。

6. 伏擊

Le的論文顯示神經(jīng)翻譯是可行的,但他只使用了一個(gè)相對較小的公共數據集。(所謂的小只是相對于Google的體量而言。這個(gè)數據集實(shí)際上是世界上最大的公共數據集。十年來(lái),原有的Google Translate已經(jīng)收集了上百到上千倍的生成數據。)更重要的是,Le的模型對長(cháng)于約七個(gè)字句子的效果不是很好。

谷歌大腦的研究科學(xué)家Mike Schuster接手了指揮棒。他知道,如果谷歌沒(méi)有找到一種方法來(lái)擴展這些理論洞見(jiàn)至生產(chǎn)水平,那么別人會(huì )。這個(gè)項目花了他接下來(lái)的兩年。 “你會(huì )認為,”Schuster說(shuō),“要翻譯東西,你只需得到數據,運行實(shí)驗,你就完成了,但實(shí)際不是這樣的。”

Schuster是個(gè)緊張、專(zhuān)注、不顯老的人,長(cháng)著(zhù)一個(gè)曬黑的、活塞形的腦袋,窄肩,長(cháng)迷彩短褲垂至膝蓋之下,腳踏綠色Nike Flyknits鞋。他的模樣看起來(lái)好像早上他剛從蓮蕊中醒來(lái),抓起他那小而無(wú)邊的橢圓眼鏡,像松鼠吃橡子般補充了卡路里,并在來(lái)辦公室的路上完成了一個(gè)輕松的沙漠十項全能。在現實(shí)中,他告訴我,他騎行了18英里來(lái)上班。

Schuster在前西德的重工業(yè)區杜伊斯堡長(cháng)大,研究電氣工程,然后前往京都從事早期的神經(jīng)網(wǎng)絡(luò )。在20世紀90年代,他用來(lái)運行實(shí)驗的神經(jīng)網(wǎng)絡(luò )機像會(huì )議室一樣龐大; 它要花費數百萬(wàn)美元,必須訓練幾個(gè)星期,卻只能做一些你現在可以一小時(shí)內在電腦桌面能做到的事。他在1997年發(fā)表了一片文章,在之后的十五年里幾乎無(wú)人引用;而今年,這篇論文已被引用了大約150次。他不失幽默,但他經(jīng)常露出嚴厲的表情,我認為這種表情體現了他的德國式克制和日本式克制的結合。

Schuster必須處理的問(wèn)題是纏結性的。首先,Le的代碼是定制化的,它與Google當時(shí)開(kāi)發(fā)的新開(kāi)源機器學(xué)習平臺TensorFlow不兼容。Jeff Dean在2015年秋天向Schuster指派了另外兩位工程師,Wu Yonghui和Zhifeng Chen。他們花了兩個(gè)月的時(shí)間把Le的結果復制到新系統。Le也在附近,但即使Le本人也不是總能理解項目的進(jìn)展。

正如Schuster所說(shuō),有些東西的進(jìn)展不是能完全意識到的。工程師自己也不知道新系統為什么行得通。

今年二月,谷歌的研究機構 ——該機構是谷歌的一個(gè)較為散漫的部門(mén),大約1000名員工,致力于前瞻性和不可分類(lèi)的研究 —— 在舊金山威斯汀酒店的聯(lián)合廣場(chǎng)上召集骨干進(jìn)行外出靜思會(huì ),酒店的豪華程度略遜于谷歌在一英里外的自家店鋪。上午進(jìn)行了幾輪“閃電會(huì )談”,快速交流了研究前沿,下午則在跨部門(mén)的“互促性討論”中度過(guò)。谷歌希望靜思會(huì )可以帶來(lái)不可預測的、間接的、貝爾實(shí)驗室式的交流,以讓谷歌這個(gè)成熟的公司保持多產(chǎn)。

在午餐時(shí)間,Corrado和Dean結伴尋找谷歌翻譯的主任Macduff Hughes。Hughes正在獨自吃飯,Corrado和Dean從兩側截住了他。正如Corrado所說(shuō),“我們伏擊了Hughes”。

“嘿,”Corrado對屏住呼吸、面露懷疑的Hughes說(shuō):“我們有東西告訴你。”

他們告訴Hughes,2016年似乎很適合用神經(jīng)網(wǎng)絡(luò )對谷歌翻譯—— 由數十名工程師10多年積累的代碼 ——進(jìn)行大修。舊系統采用的是所有機器翻譯系統已經(jīng)用了30年的工作方式:它從每個(gè)連續句子中分出片段,在一個(gè)大型統計詞庫中查找這些詞,然后應用一組后處理規則以附加適當的詞綴,并重新排列以產(chǎn)生意義。這種方法被稱(chēng)為“基于短語(yǔ)的統計機器翻譯”,因為當系統到達下一個(gè)短語(yǔ)時(shí),它并不知道上一個(gè)短語(yǔ)是什么。這也就是Google Translate的輸出有時(shí)看起來(lái)像一大包冰凍磁鐵的原因。Google Brain引入的大修,將使它能一次性閱讀和渲染整個(gè)句子,讓它能捕捉語(yǔ)境,以及某種近似于意義的東西。

項目帶來(lái)的利益似乎很低:谷歌翻譯產(chǎn)生的收入很低,而且這種狀況大概會(huì )持續下去。對大多數英語(yǔ)用戶(hù)來(lái)說(shuō),即便服務(wù)性能實(shí)現了徹底升級,他們也只會(huì )將之視為預期之內的進(jìn)步。但這個(gè)團隊要證明,實(shí)現人類(lèi)質(zhì)量的機器翻譯不僅具有短期必要性,而且會(huì )帶來(lái)長(cháng)遠的革命性發(fā)展。在不遠的將來(lái),它將對公司的業(yè)務(wù)戰略至關(guān)重要。谷歌估計,50%的互聯(lián)網(wǎng)使用英語(yǔ),這可能占世界人口的20%。如果谷歌要在中國—— 在中國搜索引擎流量的大部分份額屬于其競爭對手百度——或印度進(jìn)行競爭,體面的機器翻譯將是基礎設施不可或缺的一部分。百度本身已經(jīng)在2015年7月發(fā)表了一篇關(guān)于神經(jīng)機器翻譯可能性的開(kāi)創(chuàng )性文章。

在更遙遠的、可推測的未來(lái),機器翻譯也許是朝向一個(gè)具有人類(lèi)語(yǔ)言能力的通用計算設施的第一步。而這將代表通向真正人工智能的一個(gè)重大拐點(diǎn)。

硅谷的大多數人都知道機器學(xué)習的前景正在快速接近,所以Hughes也預計到了他會(huì )被機器學(xué)習團隊的人伏擊。但他仍然感到懷疑。他是一個(gè)溫和,固執、一頭灰發(fā)的中年男子。他是一個(gè)老牌的流水線(xiàn)型工程師,那種在1970年代的波音公司能看到的工程師。他的牛仔褲口袋里經(jīng)常塞著(zhù)奇形怪狀的工具,好像他正要去測量磁帶或熱電偶,和許多為他工作的年輕人不同,他有自己的柜子。他知道在谷歌和其他地方的各種人一直在嘗試進(jìn)行應用層面的神經(jīng)翻譯工作,這些工作已持續多年但沒(méi)什么進(jìn)展。

Hughes聽(tīng)了Corrado和Dean的建議,最后他謹慎地說(shuō),也許他們可以把計劃延遲到三年之年之后。

Dean不這么認為。他說(shuō),“我們可以在年底之前做到這一點(diǎn),如果我們全神貫注去做的話(huà)。”人們如此喜歡和欽佩Dean的一個(gè)原因是,他長(cháng)期以來(lái)總是能全神貫注地辦成事。另一個(gè)原因是,當他真誠地說(shuō)出“只要我們全神貫注就能辦成”的時(shí)候,他一點(diǎn)也不怕尷尬。

休斯很確定,這種系統轉換不會(huì )在短時(shí)間內發(fā)生。但他也不拒絕嘗試。他回去后告訴他的團隊:“讓我們?yōu)?016年做準備吧。我不會(huì )是那個(gè)說(shuō)Jeff Dean無(wú)法帶來(lái)改變的人。”

一個(gè)月后,他們終于能夠運行一個(gè)并行實(shí)驗以比較Schuster的新系統和Hughes的舊系統。Schuster想用英語(yǔ)-法語(yǔ)語(yǔ)言對來(lái)測試它,但Hughes建議他嘗試別的語(yǔ)言對。“英語(yǔ)-法語(yǔ)翻譯已經(jīng)很好了,改進(jìn)不會(huì )很明顯。”

這是一個(gè)令Schuster無(wú)法抗拒的挑戰。評估機器翻譯的基準度量被稱(chēng)為BLEU分數,它將機器翻譯與大量可靠的人類(lèi)翻譯的平均值進(jìn)行比較。當時(shí),英語(yǔ)-法語(yǔ)的最佳BLEU分數值高達20多。將分數提升一個(gè)點(diǎn),將被認為是非常好的改進(jìn); 提升兩個(gè)點(diǎn)就會(huì )被認為是是杰出的。

在英語(yǔ)到法語(yǔ)語(yǔ)言對上面,神經(jīng)系統相比舊系統帶來(lái)了高達7分的改進(jìn)。

Hughes告訴Schuster的團隊,在過(guò)去四年里,他們在自己的系統中從沒(méi)有出現過(guò)這么強勁的改進(jìn)。

為了確保這不是一個(gè)僥幸,他們也雇人進(jìn)行人工對比。在用戶(hù)體驗得分系統中,樣本句子的分值從0到6,神經(jīng)系統帶來(lái)的平均改善達0.4,這大致相當于舊系統在其整個(gè)生命周期中帶來(lái)的總增益。

【AI原力覺(jué)醒】《紐約時(shí)報》兩萬(wàn)字長(cháng)文,深度剖析谷歌大腦簡(jiǎn)史

谷歌的Quoc Le(右),他的工作證明了神經(jīng)翻譯的合理性,Mike Schuster則幫助將這項工作應用于谷歌翻譯。來(lái)源:Brian Finke for The New York Times

3月中旬,Hughes給他的團隊發(fā)了一封電子郵件:舊系統上的所有項目都將立即暫停。

7. 讓概念成為產(chǎn)品

在那之前,神經(jīng)翻譯團隊只有三個(gè)人 ——Schuster、Wu和Chen ——但隨著(zhù)Hughes的支持,更廣泛的團隊開(kāi)始合并。他們星期三下午2點(diǎn)在Schuster的引領(lǐng)下來(lái)到了位于Quartz Lake的Google Brain辦公室內的一個(gè)角落房間。會(huì )議有十幾人參加。當Hughes或Corrado在場(chǎng)時(shí),他們往往是唯一的兩名英語(yǔ)母語(yǔ)人士。工程師們有的講中文,越南語(yǔ),有的講波蘭語(yǔ),俄語(yǔ),阿拉伯語(yǔ),德語(yǔ)或日語(yǔ),雖然在現實(shí)中他們大多使用高效的混雜語(yǔ)數學(xué)來(lái)交流。在Google,人們并不總是清楚誰(shuí)正在組織開(kāi)會(huì ),但這一次的會(huì )議目的則很清楚。

即便如此,他們需要采取的步驟仍不是完全清楚。“其中有很多不確定性 —— 整個(gè)過(guò)程的不確定性,”Schuster告訴我。“軟件,數據,硬件,人。”他伸出他長(cháng)而寬松的手臂,輕輕在肘部彎曲,“這就像在大海里游泳,你只能看到這遠。”他把他的手伸出到胸前8英寸那么遠。“目標在某處,或許它就在那里。”

大多數Google的會(huì )議室都配有視頻會(huì )議顯示器,當閑置時(shí),會(huì )顯示極高分辨率的Google+照片,包括田園風(fēng)光、北極光或帝國議會(huì )大廈的照片。Schuster向其中一個(gè)屏幕打了個(gè)手勢,那個(gè)屏幕上正顯示著(zhù)華盛頓紀念碑的夜間一瞬。

“外人會(huì )認為,每個(gè)人都有雙筒望遠鏡,可以看到前方。”

讓他們到達此地的理論工作已經(jīng)用光,但要把它變成一個(gè)可行的產(chǎn)品 ——這被學(xué)術(shù)科學(xué)家稱(chēng)為“純粹的”工程的部分——仍非常難。首先,他們需要確保他們在良好的數據上進(jìn)行訓練。 Google用來(lái)進(jìn)行“閱讀”訓練的數十億詞語(yǔ)料主要是由中等復雜性的完整句子組成,這些句子就像你可能在海明威作品里讀到的那些。其中一些是公共領(lǐng)域文獻,統計機器翻譯的最初語(yǔ)料是加拿大議會(huì )的數百萬(wàn)頁(yè)完整雙語(yǔ)記錄。然而,它的大部分是從10年來(lái)由熱心者眾包的人類(lèi)翻譯作品中篩選而來(lái)。該團隊的語(yǔ)料倉庫里有9700萬(wàn)個(gè)互不相同的英語(yǔ)“詞”。但是一旦他們刪除了表情符號、拼寫(xiě)錯誤和冗余,剩下的工作詞匯只有大約16萬(wàn)。

而后,團隊必須重新去關(guān)注用戶(hù)實(shí)際想要翻譯哪些內容,而這通常并非標準而合理的語(yǔ)言。谷歌發(fā)現很多人并不使用谷歌翻譯來(lái)翻譯完整、復雜的句子。他們用它來(lái)翻譯古怪的小碎片般的語(yǔ)言。如果你希望網(wǎng)絡(luò )能夠處理用戶(hù)查詢(xún)的數據流,你就必須確保能在這個(gè)方向上前進(jìn)。神經(jīng)網(wǎng)絡(luò )對用于訓練的數據非常敏感。正如Hughes向我提到的:“神經(jīng)翻譯系統正在學(xué)習一切。它就像一個(gè)孩子。”他笑道。“它會(huì )說(shuō),‘哦爸爸發(fā)瘋的時(shí)候才會(huì )這么說(shuō)話(huà)!’你必須要小心。”

不管怎樣,他們需要確保整個(gè)事情快速可靠,從而不給用戶(hù)帶來(lái)困擾。在2月,神經(jīng)系統翻譯10個(gè)字的句子需要10秒鐘。公司不可能向用戶(hù)推出這么慢的東西。翻譯小組開(kāi)始對一小部分用戶(hù)進(jìn)行延遲實(shí)驗,假裝翻譯時(shí)間會(huì )延遲,以觀(guān)察用戶(hù)的忍耐程度。他們發(fā)現,如果翻譯時(shí)間只延長(cháng)了兩倍甚至五倍,便不會(huì )被用戶(hù)注意到。如果延長(cháng)了八倍,就會(huì )被注意到。團隊不需要確保所有語(yǔ)言都是這樣。在(如法語(yǔ)或中文等)高流量語(yǔ)言的情況下,翻譯服務(wù)幾乎不會(huì )放慢速度。團隊想知道,對于那些更模糊的語(yǔ)言翻譯,用戶(hù)不會(huì )因為輕微的延遲而拒絕更好的翻譯質(zhì)量。他們希望能防止人們放棄使用翻譯、也防止人們轉去使用競爭對手的翻譯服務(wù)。

Schuster承認,他并不知道他們是否能夠使它變得足夠快。他記得在餐室中他曾對Chen說(shuō):“肯定有一些我們不知道的東西能使它變得足夠快,但我不知道它是什么。”

不過(guò),他知道他們需要用更多的計算機——更多的圖形處理器來(lái)重新配置神經(jīng)網(wǎng)絡(luò )進(jìn)行訓練。

Hughes去問(wèn)Schuster的想法:“我們是不是應該要求一千臺GPU?”

Schuster回答,“為什么不是2000臺?”

十天后,他們拿到了新加的2000個(gè)GPU處理器。

到4月份,原來(lái)的三人陣容已變成超過(guò)30人。其中一些人,如Le,來(lái)自Google Brain;也有許多人來(lái)自Google Translate。5月,Hughes為每對語(yǔ)言配置了一種臨時(shí)主管,每個(gè)主管都將進(jìn)展結果錄入一個(gè)大型共享的績(jì)效評估電子表格。任何時(shí)候,都有至少20個(gè)人正在進(jìn)行他們自己的獨立的、長(cháng)達一周的實(shí)驗和處理意外問(wèn)題。有一次某個(gè)模型開(kāi)始毫無(wú)理由地把所有的數字從句子中剔除。經(jīng)過(guò)了幾個(gè)月才解決這個(gè)問(wèn)題。“人們幾乎氣得要大吼。”舒斯特說(shuō)。

到春季末期,各組的工作都聚集在一起。團隊引入了一些諸如“word-piece”模型,“coverage penalty”,“length normalization”之類(lèi)的東西。Schuster說(shuō),每個(gè)部分都把結果改進(jìn)了幾個(gè)百分點(diǎn),但合起來(lái)它們有顯著(zhù)的效果。一旦模型被標準化,它將是一個(gè)單一的多語(yǔ)言模型,將隨時(shí)間而改進(jìn),而不是目前使用的150個(gè)不同的翻譯模型。不過(guò), 當創(chuàng )造一個(gè)工具通過(guò)機器學(xué)習來(lái)實(shí)現普遍化時(shí),實(shí)現自動(dòng)化的過(guò)程總是需要超出尋常的人類(lèi)天分和努力。這個(gè)項目也是如此:每層要多少神經(jīng)元?1024還是512?要多少層?一次運行多少句子?訓練多久?很多決定都依賴(lài)內心深處的直覺(jué)。

“我們做了數百次實(shí)驗,”Schuster告訴我,“直到有一天我們知道,我們可以在一個(gè)星期后停止訓練。你總是會(huì )問(wèn):我們什么時(shí)候能停下來(lái)?我怎么知道我完成了?你永遠不知道你做完了。機器學(xué)習的機制從來(lái)不是完美的。你需要訓練,在某些時(shí)候你必須停止。這是這個(gè)系統的一個(gè)非常令人痛苦的特質(zhì)。對一些人來(lái)說(shuō)這很難。這是有點(diǎn)像藝術(shù) ,像用畫(huà)筆作畫(huà)。有些人做得更好,有些人做的比較糟。”

到5月份,Google Brain團隊了解到,他們唯一能夠使系統作為產(chǎn)品快速實(shí)現的方法是,在T.P.U.上運行Dean所要求的專(zhuān)用芯片。正如Chen所說(shuō):“我們甚至不知道代碼是否能工作。但是我們知道如果沒(méi)有T.P.U.,肯定是干不成的。”他記得,他們曾經(jīng)一個(gè)接一個(gè)地去向Dean請求,“請為我們保留一些T.P.U.的份額。”Dean為他們保留了份額。然而,T.P.U.無(wú)法順利工作。Wu花了兩個(gè)月坐在硬件團隊的人的旁邊,試圖找出這是為什么。他們不只是調試模型,他們也調試芯片。神經(jīng)翻譯項目將成為對這整個(gè)基礎設施投資概念的一個(gè)驗證。

6月的一個(gè)星期三,Quartz lake辦公室的會(huì )議上,人們對百度發(fā)表在領(lǐng)域核心期刊上的一篇文章議論紛紛。Schuster讓會(huì )議室恢復了秩序。 “是的,百度出了一篇新論文。感覺(jué)就像有人看透了我們做的東西——論文有類(lèi)似的結構,類(lèi)似的結果。”百度公司的BLEU分數基本吻合Google在2月和3月內部測試中取得的成績(jì)。Le并未感到不快。他的結論是,這是一個(gè)跡象,表明谷歌是在正確的軌道上。“這個(gè)系統與我們的系統非常相似。”他安靜地說(shuō)。

Google團隊知道。如果他們早些時(shí)候發(fā)布了他們的結果,可能會(huì )打敗他們的競爭對手,但正如舒斯特所說(shuō):“啟動(dòng)產(chǎn)品比發(fā)布論文更重要。人們會(huì )說(shuō),‘哦,這個(gè)發(fā)現是我先做到的。’但到了最后,誰(shuí)會(huì )關(guān)心呢?”

然而,這確實(shí)要求他們必須更好地研發(fā)自己的翻譯服務(wù)。Hughes希望,他們甚至不用告訴用戶(hù)他們已經(jīng)更換了系統。他們只需等待,看看社交媒體是否會(huì )發(fā)現這些巨大的改進(jìn)。

“我們不想說(shuō)這是一個(gè)新的系統,”他告訴我。勞動(dòng)節之后第二天下午5:36,他們向10%的用戶(hù)推出了中文到英語(yǔ)的神經(jīng)翻譯服務(wù),沒(méi)有將切換告訴任何人。 “我們想確保它能行得通。最理想的情況是,它在Twitter上引起了爆炸:‘你看過(guò)谷歌翻譯有多棒嗎?’”

8. 慶祝

在缺乏季節感的硅谷,只有兩個(gè)感知季節的方法,一是小廚房里水果的變化——仲夏時(shí)期是杏李,早秋換成梨和柿子——二是技術(shù)進(jìn)步的曲折。9月下旬一個(gè)天氣溫暖得讓人不自在的周一下午,團隊的論文終于發(fā)布了。論文有31位作者。第二天,谷歌大腦和翻譯團隊的成員們聚在一起,在翻譯部門(mén)的小廚房開(kāi)了一個(gè)小小的慶祝會(huì )。

夏威夷風(fēng)格的小廚房的一面墻是一幅有紋理的海灘照片,以及一個(gè)小小的裝飾著(zhù)花環(huán)的茅草屋似的服務(wù)臺,中間有一只毛絨鸚鵡,天花板上掛著(zhù)紙燈籠一樣的裝飾。那天早上,他們慶祝翻譯團隊成立十周年,有許多已經(jīng)在新部門(mén)的前團隊成員過(guò)去了。某種程度上,他們也是慶祝十年的合作努力,在那一天終于得以中途休息。兩個(gè)團隊的工程師和計算機科學(xué)家們似乎都很高興。

“這就像在泥海里游泳,目之所及只有這么遠。”Schuster伸手在胸前比劃了大約8英寸。

谷歌的神經(jīng)翻譯終于成功了。在慶祝會(huì )之前,團隊已經(jīng)測試了1800萬(wàn)條漢英翻譯。翻譯團隊的一位工程師拿著(zhù)手機到處跑,試圖用百度翻譯測試漢英整句翻譯。任何人聽(tīng)他講話(huà)他都很高興。他說(shuō):“如果同時(shí)輸入兩個(gè)以上的字符,它就會(huì )超時(shí)!”(百度說(shuō)從來(lái)沒(méi)有用戶(hù)報告過(guò)這個(gè)問(wèn)題。)

消息傳得很快,接下來(lái)的幾周,谷歌已經(jīng)將神經(jīng)翻譯引入到谷歌翻譯的中譯英。有些人猜測這是谷歌取得好結果的唯一的語(yǔ)言對。但當時(shí)慶祝會(huì )上的每個(gè)人都已經(jīng)知道,他們所取得的成就將在11月公之于眾。不過(guò)到那時(shí),團隊的許多人可能已經(jīng)進(jìn)入其他項目。

Hughes清了清嗓子,走進(jìn)這間夏威夷風(fēng)情的小酒吧。他穿著(zhù)一件褪色的綠色polo衫,領(lǐng)子有點(diǎn)皺,腹部位置染上了暗色的汗漬。他說(shuō),最后有一個(gè)問(wèn)題,然后是最最后還有一個(gè)問(wèn)題,說(shuō)了論文中存在的一個(gè)嚴重的測試誤差,以及系統中有一個(gè)奇怪的與符號有關(guān)的bug。但一切都解決了,或者至少是暫時(shí)已經(jīng)解決了。慶祝會(huì )上人們都安靜了。Hughes開(kāi)會(huì )非常高效,他對嘮嘮叨叨或者一面之詞的容忍度很低,但場(chǎng)面的嚴肅讓他停下來(lái)。他承認他可能是在比喻,但他認為強調事實(shí)很重要,他說(shuō),神經(jīng)翻譯項目本身就是“使用不同語(yǔ)言的團隊成員之間的合作”。

他繼續說(shuō)道,神經(jīng)翻譯項目是一個(gè)“向前的階躍”,即一種并不連續的進(jìn)步,是垂直的飛躍,而不是平滑曲線(xiàn)式的進(jìn)步。與翻譯相關(guān)的不只是兩個(gè)團隊之間的合作,而且是從理論到現實(shí)的實(shí)現。他舉起香檳:

“為了溝通,”他說(shuō),“以及合作!”

工程師們聚在一起,互相看看,發(fā)出略顯慎重的歡呼聲和掌聲。

Jeff Dean與Corrado和Schuster一起站在小廚房的中央,他的手插在口袋里,肩膀微微內聳。Dean注意到他的在場(chǎng)令氣氛有些凝重,他以非常有他的特點(diǎn)的低調方式,輕快、簡(jiǎn)潔地補充了一句。

他說(shuō),他們同時(shí)做成了兩件事:“做研究,以及,我估計,在5億人之前做成了。”

大家都笑了,不是因為這句話(huà)夸張了,而是因為它一點(diǎn)也不夸張。

結語(yǔ):會(huì )說(shuō)話(huà)的機器

也許歷史上最有名的對人工智能的批判,或者說(shuō)是以它的名義的斷言,即暗示了翻譯的問(wèn)題。1980年伯克利哲學(xué)家John Searle提出“中文房間”(Chinese Room)實(shí)驗,借以反駁強人工智能的觀(guān)點(diǎn)。在Searle的思想實(shí)驗中,一個(gè)對漢語(yǔ)一竅不通,只說(shuō)英語(yǔ)的人被關(guān)在一間只有一個(gè)開(kāi)口的封閉房間中。房間里有一本用英文寫(xiě)成的手冊,指示該如何處理收到的漢語(yǔ)訊息及如何用漢語(yǔ)相應地回復。房外的人不斷向房間內遞進(jìn)用中文寫(xiě)成的問(wèn)題。房?jì)鹊娜吮惆凑帐謨缘恼f(shuō)明,查找到合適的指示,將相應的中文字符組合成對問(wèn)題的解答,并將答案遞出房間。房?jì)鹊娜撕芸炀褪煜な謨灾甘镜膬热?,他的答案也很快變?ldquo;與中文母語(yǔ)者的難以區分”。難道房?jì)鹊娜?ldquo;理解”了中文嗎?Searle認為顯然不是。

在上述過(guò)程中,房外人的角色相當于程序員,房中人相當于計算機,而手冊則相當于計算機程序:每當房外人(程序員)給出一個(gè)輸入,房?jì)鹊娜耍ㄓ嬎銠C)便依照手冊(程序)給出一個(gè)答復(輸出)。而正如房中人不可能通過(guò)手冊理解中文一樣,計算機也不可能通過(guò)程序來(lái)獲得理解力。Searle后來(lái)寫(xiě)道,這個(gè)計算機的隱喻,引出了這樣一種觀(guān)點(diǎn):“有正確的輸入和輸出,并且被正確編程的數字計算機,將因此具有心智,正如人類(lèi)具有心智一般。”

但即使像谷歌這樣龐大的創(chuàng )新機構也將面臨這種自動(dòng)化浪潮的威脅,一旦機器能夠從人類(lèi)的話(huà)語(yǔ)學(xué)習,即使是程序員這類(lèi)的舒適工作都將受到威脅。

【編者按】本文轉自新智元。文章來(lái)源:NYT,作者:Gideon Lewis-Kraus,編譯:胡祥杰、王楠、朱煥、劉小芹。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到