搜索

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授：AI的新突破，或從“文瀾”開(kāi)始

王飽飽 4年前 (2021-06-11)

圖靈測試，或許不再遙遠。

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授：AI的新突破，或從“文瀾”開(kāi)始

圖 | 盧志武教授

I propose to consider the question, ‘Can machines think?’

——A.M.Turing

1950年秋天，被后人譽(yù)為“人工智能之父”的阿蘭·圖靈，在其著(zhù)作《Computing Machinery and Intelligence》的開(kāi)篇，拋出了這個(gè)在當時(shí)似乎是“異想天開(kāi)”的問(wèn)題。也同樣是在這篇文章中，圖靈提出一個(gè)甚至比“人工智能（Artificial Intelligence,簡(jiǎn)稱(chēng)AI）”更早出現的概念——圖靈測試。由此拉開(kāi)了，人類(lèi)對AI這一領(lǐng)域艱辛探索的序幕。

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授：AI的新突破，或從“文瀾”開(kāi)始

時(shí)光荏苒，斗轉星移。70余年過(guò)去，已歷經(jīng)三次發(fā)展浪潮的AI，正悄然以各種面貌進(jìn)入我們普通人的日常生活之中。人臉識別、輔助駕駛、智能醫學(xué)影像等應用正逐漸成為人類(lèi)社會(huì )中“習以為常”的一部分，這得益于AI技術(shù)的不斷成熟。而在這背后，是學(xué)界、業(yè)界乃至各個(gè)國家對AI研發(fā)的不斷投入。目前，全球各國對于A(yíng)I的研發(fā)，已漸成“競賽”之勢。但要真正通過(guò)“圖靈測試”，還尚無(wú)國家能夠做到。

6月1日，在2021北京智源大會(huì )上，超大規模智能模型“悟道2.0”正式發(fā)布。其憑借1.75萬(wàn)億的參數量，創(chuàng )下了全球最大預訓練語(yǔ)言模型記錄，成功向世界展示了中國的AI技術(shù)實(shí)力。據悉，“悟道2.0”分別由文源、文瀾、文匯、文朔四大預訓練模型組成。

在這其中，以語(yǔ)義理解、視覺(jué)-語(yǔ)言檢索等能力見(jiàn)長(cháng)的“文瀾”引起了鎂客網(wǎng)極大的興趣。據悉，文瀾對語(yǔ)義信息的理解能力之強已經(jīng)達到世界“領(lǐng)跑”水平，堪稱(chēng)是世界AI領(lǐng)域中突破性的進(jìn)展。其能力可擴展性強，可以落地應用在多種場(chǎng)景。通過(guò)對文瀾的研究，人類(lèi)與似乎遙不可及的“圖靈測試”又近了一步。文瀾研發(fā)團隊是由中國人民大學(xué)高瓴人工智能學(xué)院執行院長(cháng)文繼榮教授所領(lǐng)導，并與北京智源人工智能研究院緊密合作。

通過(guò)努力，我們很榮幸地采訪(fǎng)到了文瀾研發(fā)團隊的模型組負責人——中國人民大學(xué)高瓴人工智能學(xué)院的盧志武教授，和他一起聊了聊AI的未來(lái)和文瀾背后的故事。

AI發(fā)展漸入瓶頸，文瀾領(lǐng)銜的多模態(tài)預訓練模型，或成“破局”關(guān)鍵

眾所周知，人工智能的終極目標，就是讓機器擁有和人一樣的理解與思考能力。但70多年過(guò)去了，距離這個(gè)目標，仍有著(zhù)不小的距離。

而對學(xué)界來(lái)說(shuō)，盡管當下許多AI技術(shù)已經(jīng)可以對人類(lèi)生活產(chǎn)生積極的影響，但從大趨勢來(lái)看，AI研發(fā)似乎正走到了一個(gè)“瓶頸期”。學(xué)界和業(yè)界，都需要在技術(shù)上發(fā)現一個(gè)新的”爆點(diǎn)”，來(lái)刺激整個(gè)AI產(chǎn)業(yè)繼續向前跨越式地發(fā)展。

也就是在這種情況下，“文瀾”誕生了。

盧志武教授告訴記者，“任何AI的模型到最后其實(shí)都是個(gè)神經(jīng)網(wǎng)絡(luò )。在過(guò)去，業(yè)內常常使用純文本或者純圖像的模式對AI進(jìn)行單模態(tài)訓練。但現在看來(lái)，其效果不是特別有效。”

隨著(zhù)學(xué)術(shù)上的發(fā)展，文瀾團隊開(kāi)始把目光轉向同時(shí)使用圖文數據對進(jìn)行預訓練，期望以此能挖掘AI新的潛能。而在此之前，這個(gè)方向上還沒(méi)有較為成功的案例。

為了獲得較好的效果，文瀾1.0和2.0版本所使用的訓練數據從3000萬(wàn)升級到了6.5億未標注圖文數據。巨大的數據量在進(jìn)行模型訓練時(shí)非常困難，但這也給文瀾擁有強大的視覺(jué)-語(yǔ)言檢索能力和一定的常識理解能力打下了基礎。

在訓練方式上，文瀾研發(fā)團隊采用了高效的分布式多模態(tài)預訓練框架，提出基于DeepSpeed的多模態(tài)預訓練算法，從而最大化地利用GPU和CPU，并最優(yōu)地支持跨模態(tài)對比學(xué)習。

目前，國外頂級AI研發(fā)機構 Google 和OpenAI 也正在嘗試文瀾團隊的研究方向，其項目名分別為 Google ALIGN和OpenAI CLIP，但在與這兩者進(jìn)行圖文互檢能力的嚴格公平比較時(shí)，文瀾明顯要更勝一籌，可以說(shuō)，目前的文瀾，在圖文互檢和語(yǔ)義理解方面都達到了世界最頂級的水平。

那么，文瀾可以應用在何處？盧志武教授告訴記者，現在的文瀾，就像“大腦”一樣，適應力強，可以應用在多個(gè)場(chǎng)景下。以其擅長(cháng)之一的“檢索和推薦”能力舉例，電商、游戲、視頻中的多個(gè)細分行業(yè)的常見(jiàn)業(yè)務(wù)場(chǎng)景中，文瀾都能“得心應手”。

盧志武教授表示“如果說(shuō)過(guò)去我們了解到的AI，其理解力還只是個(gè)小孩的話(huà)，現在的文瀾，已經(jīng)越來(lái)越有可能接近一個(gè)成人”。

探索AI“潛意識”，“圖靈測試”得以見(jiàn)到更多曙光

文瀾的能力之強已經(jīng)毋庸置疑。但對于文瀾開(kāi)發(fā)團隊來(lái)說(shuō)，在海量的圖文數據訓練后，文瀾是否真正學(xué)到了語(yǔ)義信息，以及文瀾的理解能力究竟有多強，成為了極具吸引力的問(wèn)題。

為此，文瀾研發(fā)團隊決定用“神經(jīng)元可視化”的方式對文瀾進(jìn)行測試。你可以簡(jiǎn)單理解為這是一場(chǎng)“命題繪畫(huà)”的測驗。我們告知文瀾一句有實(shí)際意義的話(huà)，讓文瀾用圖片的形式反饋出她對這句話(huà)的理解。

但請注意，這里的圖片反饋，絕非是從文瀾已有的圖片數據中匹配最優(yōu)解，也不是像某些AI繪畫(huà)模型那樣對特定訓練數據的模仿。

此時(shí)的文瀾，更像是一個(gè)‘“普通人”，借助自己已有的知識，來(lái)嘗試理解外界傳遞進(jìn)來(lái)的新信息，并以圖畫(huà)的形式來(lái)“具象”出自己的理解，反應的是文瀾“腦海”里的客觀(guān)存在。

盧志武老師表示“（通過(guò)這種方式）我們將文瀾的“潛意識”，也即她腦海中最原始的對一句話(huà)的想象與理解給可視化出來(lái)。”

那文瀾具體是怎么畫(huà)的呢？簡(jiǎn)單來(lái)說(shuō)，我們都知道在計算機上，圖片是由一個(gè)個(gè)像素點(diǎn)組成，通過(guò)改變每個(gè)像素點(diǎn)的顏色，就可以在計算機上進(jìn)行繪畫(huà)。而拿到文本信息的文瀾，就是通過(guò)這種方法進(jìn)行“原創(chuàng )繪畫(huà)”，把她所理解的我們所給出語(yǔ)句的意思，用圖畫(huà)表示出來(lái)。此時(shí)的文瀾可以比喻為一個(gè)天平，天平的兩端分別是圖像和文本，而文瀾要做的就是讓兩者的意義“保持對等”。值得注意的是，在神經(jīng)元可視化時(shí)，文瀾所有模型參數都是固定不變的，只是去修改輸入的初始噪聲圖像。

文瀾研發(fā)團隊表示：“通過(guò)這種方式，我們得以一窺文瀾的“內心世界”。也就是放開(kāi)所有評測和應用對文瀾的限制，讓她能夠展現最原始的、最真實(shí)的、她“潛意識”里對于輸入文本的獨特理解。”

目前根據文瀾的“畫(huà)作”來(lái)看，其對語(yǔ)義的理解能力已經(jīng)位居世界前列。除了日常用語(yǔ)，文瀾同樣能理解古詩(shī)詞，甚至可以傳遞出一定的“意境”。

以下是文瀾在實(shí)際測試中的部分樣例（文瀾研發(fā)團隊提供）：

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授：AI的新突破，或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句：對著(zhù)生日蛋糕許愿

（解讀：蛋糕的形象非常清晰，還有一根蠟燭，蛋糕上也有星星點(diǎn)點(diǎn)的點(diǎn)綴，整體是生日派對的歡快氛圍。）

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授：AI的新突破，或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句：白日依山盡，黃河入海流

（解讀：遠處山峰遮擋了落下的太陽(yáng)但沒(méi)有遮住余暉，近處則如黃河向我們奔來(lái)。）

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授：AI的新突破，或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句：月落烏啼霜滿(mǎn)天，江楓漁火對愁眠

（解讀：江面上紅色的火光，近處的烏篷船。）

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授：AI的新突破，或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句：江南可采蓮，蓮葉何田田

（解讀：左上含苞待放的蓮花，右側中間的蓮蓬，片片蓮葉和整體的綠色。）

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授：AI的新突破，或從“文瀾”開(kāi)始

給文瀾的語(yǔ)句：海上生明月，天涯共此時(shí)

（解讀：下方帶著(zhù)波浪的海，海面上正在升起的月亮。雖然詩(shī)句中原意是滿(mǎn)月，但是字面上并沒(méi)有表達滿(mǎn)月的意思。背景的大片抽象或許是文瀾對“天涯共此時(shí)”的理解。）

前瞻與堅持讓文瀾“橫空出世” ，多元和交叉將成為AI浪潮新起點(diǎn)

對科研來(lái)說(shuō)，正確的判斷與堅持，有時(shí)要比勤奮和努力更為重要。當聊起文瀾的研發(fā)過(guò)程時(shí)，盧教授對此深有感觸。

自去年9月份開(kāi)始，文瀾團隊就開(kāi)始進(jìn)行多模態(tài)預訓練的工作。想起當時(shí)的過(guò)程，盧教授形容到：“完全是在黑暗中摸索，并且多模態(tài)預訓練模型非常難做，但還是果斷地沿著(zhù)這條路（圖文弱相關(guān)+雙塔模型）走了下來(lái)。”

但探索和堅持是有風(fēng)險的，在此期間，盧教授與其所帶的博士生們全身心地投入到了這個(gè)項目上，并因此很長(cháng)時(shí)間都沒(méi)有發(fā)表論文。如果方向錯了，或者沒(méi)有把模型訓練好，都將會(huì )是一個(gè)“顆粒無(wú)收”的結果。這對整個(gè)團隊的壓力，可想而知。

而幾乎是同時(shí)，國外AI界的領(lǐng)跑者：谷歌和OpenAI，也正在做類(lèi)似的事情。并在今年1月份，OpenAI發(fā)布了兩個(gè)與文瀾在方向上類(lèi)似的模型：DALL-E和CLIP。震撼業(yè)內的同時(shí)，也側面證明了盧教授團隊的選擇是正確并富有前瞻性的。

不過(guò)，從國內高校學(xué)術(shù)研究的偏向來(lái)看，清北等高校似乎在A(yíng)I方面更有優(yōu)勢。為何此次在A(yíng)I領(lǐng)域做出突破性進(jìn)展的卻是人大？

專(zhuān)訪(fǎng)中國人民大學(xué)盧志武教授：AI的新突破，或從“文瀾”開(kāi)始

盧志武教授認為，人大的優(yōu)勢在于學(xué)術(shù)氛圍的寬松和富有底蘊的人文思想。

“我們高瓴人工智能學(xué)院的文繼榮院長(cháng)，非常支持去做這些有價(jià)值的探索。所以我們整體的學(xué)術(shù)氛圍還是非常寬松和開(kāi)放的。”

除此之外，作為以人文社科見(jiàn)長(cháng)的高等學(xué)府，人大對AI自有其獨特的理解方式。某種意義上，針對當前流行的工具理性來(lái)說(shuō)，人大更趨向于價(jià)值理性。這也是文瀾團隊能夠冒著(zhù)“顆粒無(wú)收”的風(fēng)險，堅持完成研究的原因之一。

而在鎂客網(wǎng)看來(lái)，除了人大所特有的優(yōu)勢以外，文瀾的成功與盧志武教授所擁有的對AI發(fā)展的前瞻性，和整個(gè)文瀾研發(fā)團隊的優(yōu)秀能力同樣密不可分。

漫漫AI探索路上，“破”與“立”是永恒的話(huà)題。盡管文瀾已經(jīng)做出了突破性的成績(jì)，盧志武教授仍謙虛地表示，從總體上看，AI未來(lái)的發(fā)展，依然需要像腦科學(xué)、神經(jīng)科學(xué)等相關(guān)交叉學(xué)科的共同進(jìn)步。不過(guò)，道阻且長(cháng)，行則將至。我們相信，在文瀾這個(gè)成功案例的帶動(dòng)下，未來(lái)中國可以涌現出更多的“文瀾”，從而能夠更快一步地摘下“圖靈測試”這座AI的皇冠。

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

王飽飽作者

王飽飽作者

450篇

文章總數

最新文章

雷軍：一半時(shí)間放在汽車(chē)業(yè)務(wù)，爭取15至20年進(jìn)入世界前五；理想發(fā)布L7被指套娃式造車(chē)

ChatGPT颶風(fēng)下的百度、微軟和谷歌：三個(gè)“中年人”的隔空賭局

ChatGPT爆火全球，AIGC“破圈”成元宇宙加速新引擎

2023，大廠(chǎng)從元宇宙悄悄撤退

對標ChatGPT，谷歌宣布推出聊天機器人Bard；電動(dòng)汽車(chē)初創(chuàng )公司Rivian正在研發(fā)電動(dòng)自行車(chē)

janpanese日本护士tube_色欲久久久天天天_国产精品国产三级区别第一集_一色屋任你精品亚洲香蕉