重磅 | 幕后英雄:走進(jìn)Facebook 有史以來(lái)最大的人工智能項目
Faceboo欲打造有史以來(lái)最大的人工智能項目。
當你下一次運行 Facebook 時(shí),無(wú)論是網(wǎng)頁(yè)版還是 App,你可以仔細想一下,個(gè)人頁(yè)面刷新、家庭相冊瀏覽等這些操作會(huì )需要多少計算量,然后再乘以十億用戶(hù),而且每一天都如此。
這不僅是運營(yíng)一家「財富500強」(第242位)的社交網(wǎng)絡(luò )公司,也是在運營(yíng)異常龐大的支撐各種服務(wù)的計算基礎架構,包括處理器、存儲器以及知道用戶(hù)各種需求的軟件。
Facebook 為全世界五分之一人口提供服務(wù),而且去年年底,全球32億人口中有超過(guò)一半的人成為了互聯(lián)網(wǎng)戶(hù)。此時(shí),這不是一個(gè)不理性的問(wèn)題:地球上有足夠多的人來(lái)驅動(dòng)這樣一張巨型網(wǎng)絡(luò )嗎?
回答是否定的,至少是負擔不起的。這就是 Facebook 求助人工智能的原因。
五年前,Facebook 推出 Open Computer 硬件倡議,他們這么做的原因是為用戶(hù)提供 News Feed 服務(wù)的成本完全就是產(chǎn)品銷(xiāo)售成本,即便對于這樣一個(gè)當時(shí)擁有7.4億用戶(hù)的網(wǎng)站。因此,打造公司自己的計算基礎架構,讓博文發(fā)布更快,成本更低,成為公司的基礎需求。
Facebook 表示,公司已經(jīng)從對 Open Compute 的投資中節省了超過(guò)20億美元。但在互聯(lián)網(wǎng)領(lǐng)域,五年就是一個(gè)世代,如今每個(gè)科技巨頭都在設法征服另一個(gè)難題。雖然他們可以低成本的提供內容服務(wù),但在數十億博文中,要搞清楚推送哪類(lèi)內容依然有很大挑戰。因此,就像 Facebook 五年前通過(guò) Open Compute 計劃開(kāi)始重新搭建硬件產(chǎn)業(yè)一樣,最近,公司也創(chuàng )造了一個(gè)管理人工智能的內部平臺,如此一來(lái),就能精準推送你想看的內容。而且,公司也希望將這個(gè)「機器學(xué)習」平臺規?;?。(「機器學(xué)習」是一種人工智能類(lèi)型,能讓計算機在沒(méi)有預編程的前提下學(xué)習如何運行。)
「我們正試著(zhù)打造超過(guò) 15 億個(gè)人工智能代理(AI agents)——為每個(gè)使用 Facebook 或公司其他產(chǎn)品的每一個(gè)人服務(wù)?!剐陆闪⒌臋C器學(xué)習應用組負責人 Joaquin Candela 說(shuō),「那我們應該怎么做到呢?」
Candela 說(shuō),你要從以前的勝利中汲取靈感。Facebook 的基礎架構團隊也是機器學(xué)習應用團隊的靈感之源。
「我們傾向將諸如存儲、網(wǎng)絡(luò )設計以及計算視為理所當然的事情,」他說(shuō),「當視頻小組做直播視頻時(shí),人們并沒(méi)有意識到這件事的量級。這很愚蠢。而基礎架構小組就是在那個(gè)地方傳遞魔力——將不可能變?yōu)榭赡?。我們需要對人工智能做同樣的事情。也需要將人工智能變成你們認為理所當然的工程結構中的一部分,如此完整的一部分?!?/p>
去年九月,Facebook 成立了機器學(xué)習應用團隊(Applied Machine Learning team)。團隊負責運行一個(gè)覆蓋全公司的機器學(xué)習內部平臺,叫做 FBLearner Flow ,這個(gè)平臺就相當于人工智能領(lǐng)域的 Open Computer ,不過(guò)最大的區別在于:它并不會(huì )依托于開(kāi)源硬件來(lái)提供給世界。公司說(shuō),如果沒(méi)有 Facebook 手頭數據,這個(gè)平臺本質(zhì)上沒(méi)啥用。
FBLearner Flow 結合了幾個(gè)機器學(xué)習模型并用于處理幾十億數據點(diǎn),這些數據點(diǎn)來(lái)自網(wǎng)站15億用戶(hù)的活動(dòng),并能對數千件事情進(jìn)行預測:圖片中有哪位用戶(hù),哪些可能是垃圾信息。FBLearner Flow 模型創(chuàng )造的算法有助于界定什么樣的內容出現在你的動(dòng)態(tài)消息中,以及你會(huì )看到什么樣的廣告。
基于以上內容,我們會(huì )很容易得出結論:Facebook 使用人工智能會(huì )讓公司13,000雇員中的某些人失去工作?!傅F實(shí)并沒(méi)有什么變化,」公司 CTO Mike Schroepfer 說(shuō)。人工智能恰恰是在幫助公司提升工程師的能力。他說(shuō),「我們能做之前無(wú)法做到的事情?!?/p>
Applied Machine Learning 主任 Joaquin Quiñonero Candela
在 Schroepfer 看來(lái),Facebook 經(jīng)常能夠發(fā)現那些好機會(huì ),即便自己還沒(méi)有能力去征服——至少在人類(lèi)力量的范圍內還無(wú)法解決??匆幌鹿咀罱l(fā)起的一項新功能,為視覺(jué)受損人提供圖片說(shuō)明(以讓其「看到」圖片)。如果公司雇人手動(dòng)為上傳到網(wǎng)絡(luò )的每張圖片內容做標記,成本會(huì )非常高,也無(wú)法規?;?,當然也不可能期待用戶(hù)自己來(lái)做這個(gè)事情。但不管對于視覺(jué)受損人士,還是對于 Facebook,這些信息都是有用的?,F在通過(guò)使用 FBLearner Flow 平臺上的計算機視覺(jué)模型,一臺計算機就能自動(dòng)梳理數十億張圖片并給照片加上標簽,并實(shí)現了較為理想的準確率。
「它正在讓新應用成為可能,特別是規?;鉀Q問(wèn)題?!筍chroepfer 說(shuō)。Facebook 使用這種基于機器學(xué)習的辦法來(lái)翻譯 News Feed 博文;在用戶(hù)看到之前監測到網(wǎng)站不合適的內容;在打造 M 過(guò)程中,公司通過(guò)人與機器的結合去打造一個(gè)私人助理。
Facebook 并非唯一一家實(shí)驗人工智能的大型互聯(lián)網(wǎng)公司。谷歌、亞馬遜、微軟和百度都在相關(guān)技術(shù)上注入重資。隨著(zhù)我們將更多的日常生活托付給數字王國,這一點(diǎn)將變得越來(lái)越明顯:那些建造了我們所依賴(lài)(日常信息、社交和多媒體等)的網(wǎng)站的那些人已經(jīng)無(wú)法勝任后續工作了,讓機器登場(chǎng)。
自上個(gè)月起,大約有750 名Facebook 工程師和 40 個(gè)不同產(chǎn)品團隊正在使用 FBLearner Flow 平臺。公司希望截至到六月底,會(huì )有 1000 名工程師使用這個(gè)平臺。Facebook 最終想要建立一個(gè)對非工程師人員來(lái)說(shuō)也非常容易使用的機器學(xué)習工具,盡管距離這一目標還很遙遠。
機器學(xué)習迅速變成最火的人工智能形式,也是人工智能的——隨著(zhù)新計算技術(shù)出現,近期,這個(gè)有著(zhù)幾十年歷史的科幻電影的標配歷經(jīng)了一次重生——組成部件。隨著(zhù)計算機系統越來(lái)越大、越來(lái)越復雜,很明顯的是:它已不足以支撐計算機如何詮釋數據的硬編規則(hard-code rules)。依據圣經(jīng)的勸告去教一個(gè)人釣魚(yú)——或者在這種情況下,教計算機如何詮釋自己的數據,要更加容易得多。
計算機學(xué)家使用各樣的工具教計算機學(xué)習。如今絕大多數努力集中在「監督學(xué)習」上,研究人員以現有的數據集為基礎建立一個(gè)機器學(xué)習算法,用來(lái)訓練計算機。比如,教計算機識別面部,你最好用不同面部數據庫訓練它,計算機就能學(xué)會(huì )如何分辨不同的人臉。機器學(xué)習的圣杯是「無(wú)監督學(xué)習」,計算機只得到數據類(lèi),自己建立模型對數據進(jìn)行分類(lèi)。換言之,不同于直接給計算機學(xué)習的人臉圖像,計算機得到圖像后要把相似數據聚類(lèi),從中推導出問(wèn)題圖片上的圖像是否是人臉。
無(wú)監督學(xué)習就是人類(lèi)學(xué)習的方式,而且 Facebook 已經(jīng)直言不諱得表明,自己努力教授計算機通識。大部分工作都由Facebook 人工智能研究室(Facebook Artificial Intelligence Research,FAIR)團進(jìn)行。FAIR成立于 2013 年底,是一個(gè)進(jìn)行基礎研究的地方。它與應用機器學(xué)習團隊相對獨立存在,盡管這里進(jìn)行的一些研究在 FBLearner Flow 上找到了用武之地。
Facebook 的 CTO Mike Schroepfer
就像 Candela 解釋的那樣,你可以把 AML 團隊視為 FAIR 的商業(yè)化部門(mén)。這里的深度科學(xué)慢慢滲入到服務(wù)于十憶用戶(hù)的產(chǎn)品中。除了它做不到的時(shí)候。Schroepfer 說(shuō),在這里,并不是所有的研究都要將深度科學(xué)運用到某個(gè)產(chǎn)品中,盡管他警告說(shuō),FAIR(有 50 位研究人員)和 AML (雇傭了 100 位研究人員)已經(jīng)自己支付了費用。
比如,在自家翻譯模型的支持下,Facebook 現在每天使用機器學(xué)習翻譯20億條 News Feed 條目,不再依賴(lài)微軟必應的翻譯服務(wù)。Facebook 也使用 AML 團隊的平臺,在衛星圖像上應用計算機視覺(jué)模型繪制人口密度地圖,最終確定發(fā)展中國家的哪些地方需要寬帶服務(wù)。而且在視頻添加說(shuō)明的嘗試已被證明是越來(lái)越受歡迎的,因為分享和點(diǎn)贊增加了 15%,瀏覽時(shí)間增加了 40%。
這些是 Facebook AML 團隊最新成果中的一部分,但是,他們已經(jīng)在建立機器學(xué)習算法上花了十年時(shí)間:2016 年,他們第一次嘗試在 News Feed 上使用深度學(xué)習。
「News Feed 是我們第一次為用戶(hù)嘗試這項艱難的工作」Schroepfer 說(shuō)。這是初步的嘗試,Schroepfer 表示,但即使這樣,Facebook 雇傭再多的編輯人員也不能滿(mǎn)足百萬(wàn)用戶(hù)所需的 News Feeds。
從此,這家公司對機器學(xué)習的使用日趨先進(jìn)。但是,直到去年六月份Facebook 圖片分享服務(wù) Moment 發(fā)布,公司才真正開(kāi)始公開(kāi)討論對機器學(xué)習的深入研究如何正在影響新產(chǎn)品。Moments 使用了 Facebook 圖像識別模型,能讓用戶(hù)創(chuàng )造面向選定組群開(kāi)放的私人相冊,比如,只對照片中的人公開(kāi)。
產(chǎn)品發(fā)布時(shí),Facebook 說(shuō)它的圖像識別模型識別人臉準確率高達 98%,即使不是正對相機的面部圖像。它還表示,模型能在 5 秒內,從 8 億圖片中識別出某張圖片中的人。
人們對此感到害怕。本來(lái)是想以一種半隱私的方式輕松分享圖片,結果惹惱了許多用戶(hù)。這一功能迫使用戶(hù)面對這樣一個(gè)不安的事實(shí):Facebook 能從 十億多的用戶(hù)中識別出他們,而且速度還快的不正常。Facebook 甚至不能在歐洲發(fā)布這一功能,因為觸及有關(guān)隱私和面部識別技術(shù)的相關(guān)法規。
對隱私的擔心顯露出機器學(xué)習利他主義的陰暗一面。數據驅動(dòng)下的功能,讓 Facebook 的產(chǎn)品用起來(lái)更方便。但是,它們也讓公司得以維系用戶(hù)對平臺的持續使用,這也反過(guò)來(lái)讓其賣(mài)出更多、更有效的廣告。
為此 Facebook 每天要進(jìn)行數十萬(wàn)億次的查詢(xún),以便能每秒做出六百萬(wàn)個(gè)預測。Facebook 用數十億個(gè)數據點(diǎn)來(lái)訓練支撐其 News Feed 的算法。這家公司每十五分鐘到兩小時(shí)就更新一次它的學(xué)習模型,以便能對當下事件作出快速反應。
當一臺電腦能從語(yǔ)法上分析那么多的信息并作出判斷時(shí),這也是令人不安地提醒我們,我們數字生活的每個(gè)方面都正在被它以向廣告商、研究人員甚至政府展示我們私下想法和行動(dòng)的方式分割、切片再切塊。同樣棘手的是,機器學(xué)習算法還有可能會(huì )犯錯。
而且這些都還不能解釋這一事實(shí):許多人甚至還不知道,機器學(xué)習算法正在改變他們對產(chǎn)品的體驗。一個(gè)人沒(méi)有看到自己的News Feed 中的某個(gè)內容的原因或許在于算法把這個(gè)內容過(guò)濾了。2014 年,麻省理工學(xué)院的一項研究發(fā)現,62.5% 的研究參與者都沒(méi)有意識到 Facebook 過(guò)濾了他們的 News Feed 。
「最好的人工智能算法能泛化,他們能預測你想要什么,但它們從來(lái)都不是完美的,」Candela 說(shuō)。這也是 Schroepfer 之所以相信 Facebook 距離「把一切都交給人工智能技術(shù)」還很遙遠的理由之一。
「我認為,你仍要人處在決策環(huán)中,」Schroepfer 說(shuō)?!肝覀冋跒樗藙?chuàng )造產(chǎn)品,而我很難相信機器能計算出其他人想要什么,哪怕是使用這些高級科技?!?/p>
Schroepfer 說(shuō),這一工作都是為了打造一個(gè)社交網(wǎng)絡(luò ),能夠更好地預期用戶(hù)想要看到什么或體驗。如果你這一天過(guò)得很糟糕,他希望 Facebook 能給你看一段詼諧的小貓視頻。如果你有一星期都沒(méi)和你母親聊過(guò)天,他希望 Facebook 能識別出這一點(diǎn)并主動(dòng)為你推送一些關(guān)于她的生活的信息更新。
「Facebook 當下的問(wèn)題是,關(guān)于你想要什么,你告訴我們的東西還不夠多?!筍chroepfer 說(shuō)?!肝覀冊谂Σ聹y你想要什么。問(wèn)題的一部分是,我們不知道該問(wèn)你什么,而當你告訴我們你想要什么的時(shí)候,我們也不確定對此該做些什么。因為我們的系統還沒(méi)有真正在這方面安排好、優(yōu)化好?!?/p>
應用機器學(xué)習( Applied Machine Learning)團隊的建立為創(chuàng )建這樣的系統提供了機會(huì )。同時(shí),FAIR 團隊也提供了機會(huì )讓我們能建立關(guān)于「如何讓機器去學(xué)習」的更好理解。
Facebook 做出了以這種方式在人工智能研究方面高歌猛進(jìn)的決定,與競爭者們相比,它這么做有些不同尋常。
例如,微軟旗下的研究院擁有一支龐大的人工智能研究隊伍,但微軟并沒(méi)有把這方面的努力移交給一個(gè)商業(yè)化團隊,再讓這商業(yè)化團隊把它轉化成供內部使用的產(chǎn)品。相反,研究人員會(huì )直接與產(chǎn)品團隊的人一起工作,建立使用深度學(xué)習的工具或新的服務(wù)。
據微軟研究院院長(cháng) Peter Lee 說(shuō),在對外方面,微軟正在試圖建立一個(gè)為機器學(xué)習提供服務(wù)的平臺,并通過(guò)它的云計算平臺 Azure 把這些服務(wù)提供給客戶(hù)。
不過(guò),Lee 和 Facebook 的 Schroepfer 在這一點(diǎn)上是一致的:機器學(xué)習和人工智能正在使公司們能創(chuàng )建一些新的產(chǎn)品,這些產(chǎn)品在過(guò)去曾因太耗費時(shí)間或資源而無(wú)法實(shí)現。
從微軟跳槽到 Facebook 的 Candela 說(shuō), 他有意要在 Facebook 努力創(chuàng )造出一個(gè)不一樣的組織結構,因為他感到當他還在微軟時(shí),好想法無(wú)法在組織中快速散播。每一個(gè)新發(fā)明或新人工智能算法都被封閉在其所在的團隊里。他說(shuō),Facebook 正在努力抵抗這種習氣。
然而, 卡耐基梅隆大學(xué)計算機科學(xué)院院長(cháng) Andrew Moore 懷疑,像 FBLearner Flow 這樣的人工智能平臺真的能在一個(gè)組織中得到廣泛應用。他說(shuō),大部分的機器學(xué)習模型都無(wú)法泛化。
「對機器學(xué)習來(lái)說(shuō),有一個(gè)陷阱,據我所知還沒(méi)有哪家大公司未曾掉入這個(gè)陷阱?!顾f(shuō)?!缚雌饋?lái)建立一個(gè)平臺來(lái)支持機器學(xué)習算法似乎是很有用的,然而你會(huì )發(fā)現,每個(gè)使用機器學(xué)習的應用程序都需要調用不同的應用程序才能使用機器學(xué)習。因此,在機器學(xué)習平臺的建造者和那些試圖用平臺來(lái)制造產(chǎn)品的客戶(hù)之間常常存在著(zhù)斷裂?!?/p>
到現在為止,Facebook 仍然樂(lè )于付出這些努力,而且這些努力似乎也在它的新產(chǎn)品中帶來(lái)了回報。隨著(zhù)更多的決策交給算法決定,這家公司有許多事情需要調整。不過(guò),這個(gè)綜合一切的項目已經(jīng)改變了這家公司衡量其成功的方式。
例如,Facebook 發(fā)起的實(shí)名政策要求人們在其網(wǎng)站上使用真名,而這令跨性別者(他們可能并不認同他們出生時(shí)的名字)、美國原住民的后代(他們的名字不太容易用西方格式表示)和遭受侵犯虐待者(他們需要保留更多的隱私)感到不安。然而,當時(shí) Facebook 的算法很難分析這些名字以適應這些需求。
Schroepfer 告訴我們,如今 Facebook 用與過(guò)去不同的方式來(lái)劃分它的數據,從而確保規模較小的人群沒(méi)有在取平均(averaging)的過(guò)程中被遺失。Schroepfer 說(shuō),Facebook 還組織了面向重點(diǎn)群體和直接用戶(hù)反饋的對新產(chǎn)品的質(zhì)性評估?!脯F在,當我們要發(fā)起什么項目,但事先卻不理解怎樣的改變才能更好的為人服務(wù),這樣的情況已經(jīng)極少發(fā)生了。 」
這只是一條漫長(cháng)道路的開(kāi)端。毫無(wú)疑問(wèn)人工智能技術(shù)正在使電腦變得更高效,并使我們能夠在前所未見(jiàn)的超大尺度上建立各種系統。人工智能正在幫助 Facebook 擴展它的社交網(wǎng)絡(luò )的范圍和性能,同時(shí)并未影響它產(chǎn)生利潤。如果幸運的話(huà),這些技術(shù)也將幫助我們更好地學(xué)習如何與機器一起生活。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
