專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開(kāi)始

王飽飽 4年前 (2021-06-11)

圖靈測試,或許不再遙遠。

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開(kāi)始

圖 | 盧志武教授

I propose to consider the question, ‘Can machines think?’

                                                                                                                         ——A.M.Turing

1950年秋天,被后人譽(yù)為“人工智能之父”的阿蘭·圖靈,在其著(zhù)作《Computing Machinery and Intelligence》的開(kāi)篇,拋出了這個(gè)在當時(shí)似乎是“異想天開(kāi)”的問(wèn)題。也同樣是在這篇文章中,圖靈提出一個(gè)甚至比“人工智能(Artificial Intelligence,簡(jiǎn)稱(chēng)AI)”更早出現的概念——圖靈測試。由此拉開(kāi)了,人類(lèi)對AI這一領(lǐng)域艱辛探索的序幕。

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開(kāi)始

時(shí)光荏苒,斗轉星移。70余年過(guò)去,已歷經(jīng)三次發(fā)展浪潮的AI,正悄然以各種面貌進(jìn)入我們普通人的日常生活之中。人臉識別、輔助駕駛、智能醫學(xué)影像等應用正逐漸成為人類(lèi)社會(huì )中“習以為常”的一部分,這得益于AI技術(shù)的不斷成熟。而在這背后,是學(xué)界、業(yè)界乃至各個(gè)國家對AI研發(fā)的不斷投入。目前,全球各國對于A(yíng)I的研發(fā),已漸成“競賽”之勢。但要真正通過(guò)“圖靈測試”,還尚無(wú)國家能夠做到。

6月1日,在2021北京智源大會(huì )上,超大規模智能模型“悟道2.0”正式發(fā)布。其憑借1.75萬(wàn)億的參數量,創(chuàng )下了全球最大預訓練語(yǔ)言模型記錄,成功向世界展示了中國的AI技術(shù)實(shí)力。據悉,“悟道2.0”分別由文源、文瀾、文匯、文朔四大預訓練模型組成。

在這其中,以語(yǔ)義理解、視覺(jué)-語(yǔ)言檢索等能力見(jiàn)長(cháng)的“文瀾”引起了鎂客網(wǎng)極大的興趣。據悉,文瀾對語(yǔ)義信息的理解能力之強已經(jīng)達到世界“領(lǐng)跑”水平,堪稱(chēng)是世界AI領(lǐng)域中突破性的進(jìn)展。其能力可擴展性強,可以落地應用在多種場(chǎng)景。通過(guò)對文瀾的研究,人類(lèi)與似乎遙不可及的“圖靈測試”又近了一步。文瀾研發(fā)團隊是由中國人民大學(xué)高瓴人工智能學(xué)院執行院長(cháng)文繼榮教授所領(lǐng)導,并與北京智源人工智能研究院緊密合作。

通過(guò)努力,我們很榮幸地采訪(fǎng)到了文瀾研發(fā)團隊的模型組負責人——中國人民大學(xué)高瓴人工智能學(xué)院的盧志武教授,和他一起聊了聊AI的未來(lái)和文瀾背后的故事。

AI發(fā)展漸入瓶頸,文瀾領(lǐng)銜的多模態(tài)預訓練模型,或成“破局”關(guān)鍵

眾所周知,人工智能的終極目標,就是讓機器擁有和人一樣的理解與思考能力。但70多年過(guò)去了,距離這個(gè)目標,仍有著(zhù)不小的距離。

而對學(xué)界來(lái)說(shuō),盡管當下許多AI技術(shù)已經(jīng)可以對人類(lèi)生活產(chǎn)生積極的影響,但從大趨勢來(lái)看,AI研發(fā)似乎正走到了一個(gè)“瓶頸期”。學(xué)界和業(yè)界,都需要在技術(shù)上發(fā)現一個(gè)新的”爆點(diǎn)”,來(lái)刺激整個(gè)AI產(chǎn)業(yè)繼續向前跨越式地發(fā)展。

也就是在這種情況下,“文瀾”誕生了。

盧志武教授告訴記者,“任何AI的模型到最后其實(shí)都是個(gè)神經(jīng)網(wǎng)絡(luò )。在過(guò)去,業(yè)內常常使用純文本或者純圖像的模式對AI進(jìn)行單模態(tài)訓練。但現在看來(lái),其效果不是特別有效。”

隨著(zhù)學(xué)術(shù)上的發(fā)展,文瀾團隊開(kāi)始把目光轉向同時(shí)使用圖文數據對進(jìn)行預訓練,期望以此能挖掘AI新的潛能。而在此之前,這個(gè)方向上還沒(méi)有較為成功的案例。

為了獲得較好的效果,文瀾1.0和2.0版本所使用的訓練數據從3000萬(wàn)升級到了6.5億未標注圖文數據。巨大的數據量在進(jìn)行模型訓練時(shí)非常困難,但這也給文瀾擁有強大的視覺(jué)-語(yǔ)言檢索能力和一定的常識理解能力打下了基礎。

在訓練方式上,文瀾研發(fā)團隊采用了高效的分布式多模態(tài)預訓練框架,提出基于DeepSpeed的多模態(tài)預訓練算法,從而最大化地利用GPU和CPU,并最優(yōu)地支持跨模態(tài)對比學(xué)習。

目前,國外頂級AI研發(fā)機構 Google 和OpenAI 也正在嘗試文瀾團隊的研究方向,其項目名分別為 Google ALIGN和OpenAI CLIP,但在與這兩者進(jìn)行圖文互檢能力的嚴格公平比較時(shí),文瀾明顯要更勝一籌,可以說(shuō),目前的文瀾,在圖文互檢和語(yǔ)義理解方面都達到了世界最頂級的水平。

那么,文瀾可以應用在何處?盧志武教授告訴記者,現在的文瀾,就像“大腦”一樣,適應力強,可以應用在多個(gè)場(chǎng)景下。以其擅長(cháng)之一的“檢索和推薦”能力舉例,電商、游戲、視頻中的多個(gè)細分行業(yè)的常見(jiàn)業(yè)務(wù)場(chǎng)景中,文瀾都能“得心應手”。

盧志武教授表示“如果說(shuō)過(guò)去我們了解到的AI,其理解力還只是個(gè)小孩的話(huà),現在的文瀾,已經(jīng)越來(lái)越有可能接近一個(gè)成人”。

探索AI“潛意識”,“圖靈測試”得以見(jiàn)到更多曙光

文瀾的能力之強已經(jīng)毋庸置疑。但對于文瀾開(kāi)發(fā)團隊來(lái)說(shuō),在海量的圖文數據訓練后,文瀾是否真正學(xué)到了語(yǔ)義信息,以及文瀾的理解能力究竟有多強,成為了極具吸引力的問(wèn)題。

為此,文瀾研發(fā)團隊決定用“神經(jīng)元可視化”的方式對文瀾進(jìn)行測試。你可以簡(jiǎn)單理解為這是一場(chǎng)“命題繪畫(huà)”的測驗。我們告知文瀾一句有實(shí)際意義的話(huà),讓文瀾用圖片的形式反饋出她對這句話(huà)的理解。

但請注意,這里的圖片反饋,絕非是從文瀾已有的圖片數據中匹配最優(yōu)解,也不是像某些AI繪畫(huà)模型那樣對特定訓練數據的模仿。

此時(shí)的文瀾,更像是一個(gè)‘“普通人”,借助自己已有的知識,來(lái)嘗試理解外界傳遞進(jìn)來(lái)的新信息,并以圖畫(huà)的形式來(lái)“具象”出自己的理解,反應的是文瀾“腦海”里的客觀(guān)存在。

盧志武老師表示“(通過(guò)這種方式)我們將文瀾的“潛意識”,也即她腦海中最原始的對一句話(huà)的想象與理解給可視化出來(lái)。”

那文瀾具體是怎么畫(huà)的呢?簡(jiǎn)單來(lái)說(shuō),我們都知道在計算機上,圖片是由一個(gè)個(gè)像素點(diǎn)組成,通過(guò)改變每個(gè)像素點(diǎn)的顏色,就可以在計算機上進(jìn)行繪畫(huà)。而拿到文本信息的文瀾,就是通過(guò)這種方法進(jìn)行“原創(chuàng )繪畫(huà)”,把她所理解的我們所給出語(yǔ)句的意思,用圖畫(huà)表示出來(lái)。此時(shí)的文瀾可以比喻為一個(gè)天平,天平的兩端分別是圖像和文本,而文瀾要做的就是讓兩者的意義“保持對等”。值得注意的是,在神經(jīng)元可視化時(shí),文瀾所有模型參數都是固定不變的,只是去修改輸入的初始噪聲圖像。

文瀾研發(fā)團隊表示:“通過(guò)這種方式,我們得以一窺文瀾的“內心世界”。是放開(kāi)所有評測和應用對文瀾的限制,讓她能夠展現最原始的、最真實(shí)的、她“潛意識”里對于輸入文本的獨特理解。

目前根據文瀾的“畫(huà)作”來(lái)看,其對語(yǔ)義的理解能力已經(jīng)位居世界前列。除了日常用語(yǔ),文瀾同樣能理解古詩(shī)詞,甚至可以傳遞出一定的“意境”。

以下是文瀾在實(shí)際測試中的部分樣例(文瀾研發(fā)團隊提供):

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句:對著(zhù)生日蛋糕許愿

(解讀:蛋糕的形象非常清晰,還有一根蠟燭,蛋糕上也有星星點(diǎn)點(diǎn)的點(diǎn)綴,整體是生日派對的歡快氛圍。)

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句:白日依山盡,黃河入海流

(解讀:遠處山峰遮擋了落下的太陽(yáng)但沒(méi)有遮住余暉,近處則如黃河向我們奔來(lái)。)

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句:月落烏啼霜滿(mǎn)天,江楓漁火對愁眠

(解讀:江面上紅色的火光,近處的烏篷船。)

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句:江南可采蓮,蓮葉何田田

(解讀:左上含苞待放的蓮花,右側中間的蓮蓬,片片蓮葉和整體的綠色。)

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句:海上生明月,天涯共此時(shí)

(解讀:下方帶著(zhù)波浪的海,海面上正在升起的月亮。雖然詩(shī)句中原意是滿(mǎn)月,但是字面上并沒(méi)有表達滿(mǎn)月的意思。背景的大片抽象或許是文瀾對“天涯共此時(shí)”的理解。)

前瞻與堅持讓文瀾“橫空出世” ,多元和交叉將成為AI浪潮新起點(diǎn)

對科研來(lái)說(shuō),正確的判斷與堅持,有時(shí)要比勤奮和努力更為重要。當聊起文瀾的研發(fā)過(guò)程時(shí),盧教授對此深有感觸。

自去年9月份開(kāi)始,文瀾團隊就開(kāi)始進(jìn)行多模態(tài)預訓練的工作。想起當時(shí)的過(guò)程,盧教授形容到:“完全是在黑暗中摸索,并且多模態(tài)預訓練模型非常難做,但還是果斷地沿著(zhù)這條路(圖文弱相關(guān)+雙塔模型)走了下來(lái)。

但探索和堅持是有風(fēng)險的,在此期間,盧教授與其所帶的博士生們全身心地投入到了這個(gè)項目上,并因此很長(cháng)時(shí)間都沒(méi)有發(fā)表論文。如果方向錯了,或者沒(méi)有把模型訓練好,都將會(huì )是一個(gè)“顆粒無(wú)收”的結果。這對整個(gè)團隊的壓力,可想而知。

而幾乎是同時(shí),國外AI界的領(lǐng)跑者:谷歌和OpenAI,也正在做類(lèi)似的事情。并在今年1月份,OpenAI發(fā)布了兩個(gè)與文瀾在方向上類(lèi)似的模型:DALL-E和CLIP。震撼業(yè)內的同時(shí),也側面證明了盧教授團隊的選擇是正確并富有前瞻性的。

不過(guò),從國內高校學(xué)術(shù)研究的偏向來(lái)看,清北等高校似乎在A(yíng)I方面更有優(yōu)勢。為何此次在A(yíng)I領(lǐng)域做出突破性進(jìn)展的卻是人大?

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授:AI的新突破,或從“文瀾”開(kāi)始

盧志武教授認為,人大的優(yōu)勢在于學(xué)術(shù)氛圍的寬松和富有底蘊的人文思想。

我們高瓴人工智能學(xué)院的文繼榮院長(cháng),非常支持去做這些有價(jià)值的探索。所以我們整體的學(xué)術(shù)氛圍還是非常寬松和開(kāi)放的。”

除此之外,作為以人文社科見(jiàn)長(cháng)的高等學(xué)府,人大對AI自有其獨特的理解方式。某種意義上,針對當前流行的工具理性來(lái)說(shuō),人大更趨向于價(jià)值理性。這也是文瀾團隊能夠冒著(zhù)“顆粒無(wú)收”的風(fēng)險,堅持完成研究的原因之一。

而在鎂客網(wǎng)看來(lái),除了人大所特有的優(yōu)勢以外,文瀾的成功與盧志武教授所擁有的對AI發(fā)展的前瞻性,和整個(gè)文瀾研發(fā)團隊的優(yōu)秀能力同樣密不可分。

漫漫AI探索路上,“破”與“立”是永恒的話(huà)題。盡管文瀾已經(jīng)做出了突破性的成績(jì),盧志武教授仍謙虛地表示,從總體上看,AI未來(lái)的發(fā)展,依然需要像腦科學(xué)、神經(jīng)科學(xué)等相關(guān)交叉學(xué)科的共同進(jìn)步。不過(guò),道阻且長(cháng),行則將至。我們相信,在文瀾這個(gè)成功案例的帶動(dòng)下,未來(lái)中國可以涌現出更多的“文瀾”,從而能夠更快一步地摘下“圖靈測試”這座AI的皇冠。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到