首席科學(xué)家楊強教授:人工智能的下一個(gè)技術(shù)風(fēng)口與商業(yè)風(fēng)口

伶軒 8年前 (2017-02-28)

人工智能不僅僅是一場(chǎng)比賽、一個(gè)應用,而是整個(gè)社會(huì )真正地徹底地在改變。

作為華人界首個(gè)國際人工智能協(xié)會(huì )AAAI Fellow、至今為止唯一的AAAI 華人執委,以及IEEE Fellow、AAAS Fellow、IAPR Fellow,楊強教授在專(zhuān)注學(xué)術(shù)研究的同時(shí),也更關(guān)注如何讓人工智能技術(shù)落地轉化為生產(chǎn)力的問(wèn)題。

作為第四范式首席科學(xué)家、范式大學(xué)的導師,楊強教授近日在第四范式公司內部進(jìn)行了一場(chǎng)主題為“人工智能的下一個(gè)三年”的培訓,深入淺出地分享了自己在人工智能產(chǎn)業(yè)推廣上的經(jīng)驗,并預判了人工智能即將爆發(fā)的技術(shù)風(fēng)口與商業(yè)風(fēng)口。此前,楊強教授與第四范式曾提出人工智能的五個(gè)必要條件,為人工智能行業(yè)提供了權威的準入標準。

 首席科學(xué)家楊強教授:人工智能的下一個(gè)技術(shù)風(fēng)口與商業(yè)風(fēng)口

以下內容根據楊強教授主題演講編寫(xiě),略微有所刪減。

一、AlphaGo為我們帶來(lái)了什么

大家記得在2016年3月,AlphaGo橫空出世對戰李世乭,這對于人工智能的社會(huì )影響非常大。這里,我們問(wèn)一下:AlphaGo到底為我們帶來(lái)了什么?

在A(yíng)lphaGo的搜索中,Deepmind團隊引入了一個(gè)新概念——即用深度學(xué)習和強化學(xué)習的結合來(lái)做兩種任務(wù)的判別,即來(lái)判別現在所在的棋盤(pán)是好是壞,同時(shí)來(lái)預測未來(lái)有利的走向。講到這里大家應該能看出AlphaGo的算法和未來(lái)商業(yè)模式的關(guān)聯(lián),即:通過(guò)對大數據的分析,讓我們對“現在狀態(tài)”有了一個(gè)靠譜的理解;這個(gè)狀態(tài)可以是棋盤(pán)、可以是足球運動(dòng)中兩隊交鋒的狀態(tài),也可以是當前營(yíng)銷(xiāo)的一個(gè)狀態(tài)。同時(shí),下圍棋中的一步,可以理解成對未來(lái)走向的預判,在商業(yè)活動(dòng)中,這可以是營(yíng)銷(xiāo)活動(dòng)中的下一步。這里很重要的一點(diǎn),是區分我們商業(yè)行為中的兩個(gè)任務(wù),即對現實(shí)的判斷和對商業(yè)未來(lái)走向的預估。這兩個(gè)任務(wù)同樣重要,也同樣都需要大數據的支持。 因為圍棋是一個(gè)封閉式的游戲(即沒(méi)有外界因素的干擾),為了得到更多的數據,AlphaGo也引入了自我博弈。所謂自我博弈就是自己玩游戲,你會(huì )得到不斷的反饋,然后來(lái)更新自己的策略,經(jīng)過(guò)無(wú)數次這樣的比賽,最后會(huì )得到一個(gè)好的策略,你的最終輸出是一個(gè)行為的策略。所以AlphaGo 也告訴我們,在一個(gè)封閉場(chǎng)景中,可以用自我博弈的模擬方法得到更多的數據。

從AlphaGo到人工智能的應用流程

我們如果沿著(zhù)下圍棋的步驟走,就要面對這些問(wèn)題:你的人工智能算法的目標是什么?有沒(méi)有數據?數據在哪里?問(wèn)題的邊界是否清晰?什么叫合理的走法、什么叫犯規的走法?你的特征在哪里?又如何得到這些特征?是否可以得到一個(gè)持續的反饋?這樣的一個(gè)流程是AlphaGo設計團隊所走過(guò)的路。不妨把這些步驟記下來(lái),變成一個(gè)workflow,看看其他的領(lǐng)域是不是可以重復AlphaGo的成功。 比如,如果用AlphaGo治療癌癥,如何治療呢?治療癌癥一般是用放射性來(lái)殺掉癌細胞,而每一個(gè)癌癥患者需要的劑量、角度、頻次可能都不一樣,如果能把所有的這些信息都記錄下來(lái),再記錄治療結果,因為結果不是馬上就知道的,而是經(jīng)過(guò)一段時(shí)間才知道,這樣就有了數據、有了特征、有了問(wèn)題持續的反饋,并且有了非常清楚的目標,即在副作用最小的情況下殺死癌細胞。并且這個(gè)workflow是可以重復的。

 首席科學(xué)家楊強教授:人工智能的下一個(gè)技術(shù)風(fēng)口與商業(yè)風(fēng)口

AI的發(fā)展歷史還有前30年,這些年的積累也很有用

剛剛我們說(shuō)了AlphaGo的一路歷程,但我們對人工智能的理解不應該片面地認為人工智能就是機器學(xué)習。人工智能的發(fā)展歷史還有前30年,前30年是從50年代中一直發(fā)展到80年代中。這30年AI是在干什么呢?是在做人工輸入的規則型的知識表達研究,以及基于這些規則的符號空間的推理和搜索。我認為,這個(gè)人工規則型的知識表達在A(yíng)I的應用當中也是必不可少的,因為在眾多領(lǐng)域當中還會(huì )碰到冷啟動(dòng)的問(wèn)題,以及如何規范一個(gè)領(lǐng)域的邊界的問(wèn)題。這就是說(shuō),邏輯推理,邏輯知識表達,以及在符號空間的搜索的人工智能這個(gè)分支,在今后幾年會(huì )和統計學(xué)習相結合,會(huì )大有發(fā)展。 這種發(fā)展會(huì )也涉及技術(shù)和商業(yè)兩個(gè)層面。

二、AI的技術(shù)風(fēng)口在哪?

我們大家會(huì )關(guān)心的一個(gè)問(wèn)題, 是人工智能的技術(shù)在哪些方向可能會(huì )有大的突破。

深度學(xué)習

 首席科學(xué)家楊強教授:人工智能的下一個(gè)技術(shù)風(fēng)口與商業(yè)風(fēng)口

首先,是深度學(xué)習會(huì )繼續發(fā)展。這里的發(fā)展不僅是在層次的增加,還包括深度學(xué)習的可解釋性、以及對深度學(xué)習所獲的的結論的自我因果表達。例如,如何把非結構化的數據作為原始數據,訓練出一個(gè)統計模型,再把這個(gè)模型變成某種知識的表達——這是一種表示學(xué)習。這種技術(shù)對于非結構化數據,尤其對于自然語(yǔ)言里面的知識學(xué)習,是很有幫助的。另外,深度學(xué)習模型的結構設計是深度學(xué)習的一個(gè)難點(diǎn)。這些結構在今天都是非常需要由人來(lái)設計的。還有一個(gè)研究問(wèn)題是如何讓邏輯推理和深度學(xué)習一起工作,這樣也可以增加深度學(xué)習的可解釋性。比如,建立一個(gè)貝葉斯模型需要有很多的設計者的經(jīng)驗,到現在為止,基本上是由人來(lái)設定的。如果我們能從深度學(xué)習的學(xué)習過(guò)程中衍生出一個(gè)貝葉斯模型,那么,學(xué)習、解釋和推理就可以統一起來(lái)了。

遷移學(xué)習

遷移學(xué)習也是我和戴文淵(第四范式創(chuàng )始人、首席執行官)一直在做的工作。給定一個(gè)深度學(xué)習的網(wǎng)絡(luò ),比如一個(gè)encoder網(wǎng)絡(luò )和一個(gè)decoder網(wǎng)絡(luò ),我們可以看它學(xué)習和遷移的過(guò)程,作為新的數據來(lái)訓練另外一個(gè)可解釋的模型,也可以作為一個(gè)新的遷移學(xué)習算法的輸出。即一個(gè)學(xué)生A在觀(guān)察另外一個(gè)學(xué)生B學(xué)習,A的目的是學(xué)習B的學(xué)習方法,B就不斷地在學(xué)新的領(lǐng)域,每換一個(gè)領(lǐng)域就為A提供一個(gè)新的數據樣本,A利用這些新的樣本就能學(xué)會(huì )在領(lǐng)域之間做遷移。所以這種過(guò)程叫做觀(guān)察網(wǎng)絡(luò )。有了這種一邊學(xué)習、一邊學(xué)習學(xué)習方法的算法,就可以在機器學(xué)習的過(guò)程中,學(xué)會(huì )遷移的方法。

自然語(yǔ)言的表示學(xué)習與機器閱讀

表示學(xué)習是當數據和任務(wù)沒(méi)有直接相關(guān)時(shí)也可以學(xué),一個(gè)重要的例子叫做self-taught learning,即我們通過(guò)很多supervise的數據、圖像,可以學(xué)出一種最好的表達。用這個(gè)表達加上任務(wù),就可以很快地學(xué)會(huì )這種知識表示。這時(shí)非結構化的數據就相當有用了。比如,給出一段話(huà)讓機器去閱讀,機器學(xué)習可以自動(dòng)地發(fā)現一些值得關(guān)注的點(diǎn)。比如,給定一個(gè)文章中的實(shí)體和一個(gè)未知變量有這樣的關(guān)系,然后用戶(hù)可以問(wèn)你這個(gè)未知變量是什么。能夠達到這樣的效果是因為深度模型已經(jīng)具有了一種關(guān)注(Attention),這種關(guān)注是可以通過(guò)觀(guān)眾的學(xué)習來(lái)表達。其結果就好像我們一目了然地看了一本書(shū),我們會(huì )把關(guān)鍵詞和它們的關(guān)系抓取出來(lái)。這實(shí)際上是利用類(lèi)似人的一種直覺(jué)來(lái)進(jìn)行學(xué)習。

人機對話(huà)系統

應該說(shuō)有一個(gè)領(lǐng)域已經(jīng)發(fā)展到了臨界點(diǎn),就是人機對話(huà)系統領(lǐng)域。現在在這個(gè)領(lǐng)域,某些相對垂直的方面已經(jīng)收取了足夠多的數據,一個(gè)是客服,一個(gè)是汽車(chē)(車(chē)內的人車(chē)對話(huà));還有一種是特定場(chǎng)景的特定任務(wù),像Amazon Echo,你可以跟它講話(huà),可以說(shuō)“你給我放個(gè)歌吧”或者“你播一下新聞”,Amazon Echo里面是圍了一圈的8個(gè)麥克風(fēng),這個(gè)陣列可以探測到人是否在和它說(shuō)話(huà),比如我和別人說(shuō)話(huà)的時(shí)候,臉轉過(guò)去,它就不會(huì )有反應。這種喚醒功能是非常準確的。它的另外一個(gè)功能是當你的雙手沒(méi)辦法去控制手機的時(shí)候,可以用語(yǔ)音來(lái)控制,案例場(chǎng)景是客廳和廚房,在美國Amazon Echo特別受家庭主婦的歡迎,所以像這種特定的場(chǎng)景,如果收集了足夠的數據,是可以訓練出這樣強大的對話(huà)系統來(lái)的。

強化遷移學(xué)習

我們可以想象,未來(lái)深度學(xué)習、強化學(xué)習和遷移學(xué)習的結合,可以實(shí)現以下幾個(gè)突破——反饋可以延遲、可以個(gè)性化,把一個(gè)通用模型施加到任何個(gè)體上面,這樣一個(gè)復合模型可以叫做強化遷移學(xué)習模型。

人工智能的可靠性模型

AI as Reliable Services是AAAI 前主席Thomas Dietterich在A(yíng)AAI 2016上給出的一個(gè)主題,人工智能只能作為一些例證證明能夠做哪些事情,比如下棋,無(wú)人駕駛,但很多時(shí)候它還是不可靠的。它不像現在的一個(gè)商用軟件一樣,能讓你放心地去使用,以保證它的錯誤率肯定不會(huì )超過(guò)很小的比例。相反,AI 在犯錯的時(shí)候可能錯得非常厲害,所以用平均值來(lái)代表一個(gè)準確率是不恰當的,相反,應該更多地要考慮它的置信區間。換言之,小白用戶(hù)拿一些人工智能的模塊來(lái)搭一個(gè)系統,這個(gè)系統就應該能被搭出來(lái),而且它的效果應該是在一個(gè)固定的范圍以?xún)鹊?,所以人工智能應該像軟件工程一樣做出?lái)。

第四范式核心產(chǎn)品“先知平臺”一直就在往這個(gè)方向發(fā)展,先知把人工智能的模塊工程化、并在一定程度上保證了可靠性,從而讓普通用戶(hù)用來(lái)搭建自己的人工智能系統。

三、AI的商業(yè)風(fēng)口在哪?

上面我們考慮了人工智能的技術(shù)發(fā)展。下面我們看看商業(yè)領(lǐng)域。我們剛才列舉了AI 成功的5大必要條件:高質(zhì)量的大數據、清晰的問(wèn)題定義和領(lǐng)域邊界、懂人工智能且擅長(cháng)應用和算法的跨界人才、足夠的計算資源、持續的外部反饋。滿(mǎn)足這五個(gè)條件的領(lǐng)域,才有可能在未來(lái)出現人工智能的爆發(fā)。

智能客服

人機交互的智能客服,產(chǎn)生了很多外界公開(kāi)的數據以及內部的數據、知識庫等,都可以用來(lái)制造機器人。尤其是可以用客服過(guò)去的數據來(lái)做訓練,這個(gè)數據量現在在垂直領(lǐng)域是逐漸在增加的?,F在的對話(huà)系統也已經(jīng)逐漸成為深度學(xué)習和強化學(xué)習的焦點(diǎn)。

新聞領(lǐng)域

另外一個(gè)比較看好的領(lǐng)域是新聞領(lǐng)域,新聞的分發(fā)和自動(dòng)寫(xiě)作。有很多編輯、解說(shuō)、自動(dòng)校對、作家等,其實(shí)是數據量足夠多的,有這么多的文本,而且外界反饋也越來(lái)越多了。給一篇文章,可以用機器學(xué)習來(lái)做自動(dòng)摘要。 這樣一個(gè)工作的外部反饋來(lái)自哪里呢?實(shí)際上我們寫(xiě)的那些paper就是一個(gè)外部反饋,因為每篇paper都有摘要,如果一篇paper被收了,就說(shuō)明摘要寫(xiě)的還不錯,所以外部反饋還是可以實(shí)現的。

這里分享一個(gè)有趣的實(shí)驗,是香港科大同學(xué)做的“自動(dòng)寫(xiě)小說(shuō)”項目。主要有兩個(gè)步驟,一步是讓它讀很多書(shū),一步是這樣訓練出一個(gè)模型,這個(gè)模型再讓它變成一個(gè)生成式的模型,這樣就能用來(lái)寫(xiě)小說(shuō)了。舉個(gè)例子,我們提供《射雕英雄傳》和《笑傲江湖》,把這兩個(gè)結合起來(lái),就可以寫(xiě)一部新的小說(shuō)了。

特定任務(wù)的智能機器人

例如Amazon 的KIVA機器人,大家可能知道Amazon一個(gè)很大的優(yōu)勢就是所有的倉儲都是由機器人來(lái)完成的,但是它也有工人,被雇來(lái)用手做抓取,因為現在機器人的抓取是非常難的,那么人和機器的優(yōu)點(diǎn)就結合起來(lái)了。此外,醫療機器人也是非常專(zhuān)業(yè)的一個(gè)領(lǐng)域,它可以給人開(kāi)刀縫線(xiàn),但它不是自動(dòng)的,而是通過(guò)遠程控制的,但控制的精密度非常高,如果它收集到足夠量的數據,是可以達到自動(dòng)的效果的,以后我們可能開(kāi)刀就由機器人來(lái)代勞了。

在醫護領(lǐng)域,無(wú)障礙輔助的應用領(lǐng)域痛點(diǎn)特別強烈,現在數據量可能還不是特別多,因為畢竟這一群體還是少數人,但是痛點(diǎn)很強,所以未來(lái)也許會(huì )有數據。

AI+有機食品

我們在香港曾去訪(fǎng)問(wèn)過(guò)一個(gè)有機食品工廠(chǎng),這個(gè)實(shí)驗室里的每一株菜,周邊的所有環(huán)境全都記錄起來(lái),比如濕度、溫度、光照,然后就可以收集這樣的數據訓練一個(gè)機器學(xué)習的模型,最后用這個(gè)模型來(lái)做蔬菜。所以得來(lái)的蔬菜滋味可以控制,要脆感還是要甜的,都可以通過(guò)模型學(xué)習出來(lái)。

FINTECH智能投顧

最后來(lái)說(shuō)一說(shuō)金融,其實(shí)金融是一個(gè)非常好的領(lǐng)域,第四范式在金融領(lǐng)域也積累了很多成功案例。金融領(lǐng)域里的任務(wù)都是非常清楚的,而且每個(gè)任務(wù)的數據都有痕跡、有數據足跡,數據的維度也是多維度的數據,有外界的、也有內界的,非結構數據比較多,例如文本和報告。數據也是形成了孤島,鏈條也非常長(cháng),并且鏈條里面都有銜接。

在金融領(lǐng)域現在美國比較時(shí)髦的一個(gè)概念叫投研、投顧和投資。投研是說(shuō)研究整個(gè)市場(chǎng)的基本面,就好像我們研究輿情分析一樣,但輿情只是其中的一部分;投顧是說(shuō)在美國的銀行給很多客戶(hù)做理財分析,然后做理財的配置,這些工作可以由機器人來(lái)做;投資是說(shuō)機器人自己就是一個(gè)客戶(hù),它可以去投資。

四、多年后的AI社會(huì )

最后說(shuō)一下我認為多年后的AI社會(huì )是怎么樣的。我覺(jué)得未來(lái)應該是幾個(gè)人在運行一個(gè)公司,每一個(gè)人都能率領(lǐng)成千上萬(wàn)個(gè)機器人,這些機器人在做不同的事情,也是它被訓練得很擅長(cháng)的事情。我們現在在一個(gè)傳統行業(yè)里,往往是20%的人在做80%的工作,那么這20%的人就是未來(lái)的運營(yíng)公司的人,剩下80%的人所做的工作將交由機器來(lái)完成。一個(gè)公司的自動(dòng)化,智能化程度,也代表了這個(gè)公司在商業(yè)上的反應速度和競爭力。

人工智能給人類(lèi)帶來(lái)的變革是非常深遠的,人工智能不僅僅是一場(chǎng)比賽、一個(gè)應用,而是整個(gè)社會(huì )真正地徹底地在改變。機器和人將成為一個(gè)共同的“軍隊”不斷地攻克堡壘,推動(dòng)人類(lèi)進(jìn)程向更好的方向發(fā)展。

【編者按】本文轉自機器之心微信公眾號。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到