南京大學(xué)人工智能學(xué)院教授俞揚:從應用出發(fā)多角度設計,可得更優(yōu)算法模型

Lynn 6年前 (2019-10-29)

俞揚認為學(xué)會(huì )思考應用中真正面臨的問(wèn)題并從多角度去解決問(wèn)題,這很重要。

日前,“首屆中文NL2SQL挑戰賽”總決賽在南京大學(xué)計算機樓里落幕,南京大學(xué)人工智能學(xué)院教授俞揚被邀請擔任評委。

對于公眾來(lái)說(shuō),NL2SQL是一個(gè)全新的技術(shù)方向,它是自然語(yǔ)言處理(NLP)與數據庫查詢(xún)應用相結合的一個(gè)研究方向,是NLP技術(shù)研究范疇中的小分支。因此相較于A(yíng)I領(lǐng)域內的各大賽事,這場(chǎng)比賽稱(chēng)不上“盛大”,但俞揚認為它對學(xué)術(shù)和產(chǎn)業(yè)界的價(jià)值是重大的。

南京大學(xué)人工智能學(xué)院教授俞揚:從應用出發(fā)多角度設計,可得更優(yōu)算法模型

圖 | 中文NL2SQL挑戰賽

“因為近年人工智能業(yè)界的關(guān)注點(diǎn)多在圖像(視覺(jué))上,相對而言,工業(yè)數據庫等離散信息的分析較為冷淡,所以在這個(gè)領(lǐng)域里,像這樣與具體應用結合的比賽是有開(kāi)創(chuàng )意義的。這一次能夠有這么多人來(lái)參加,也能夠引起大家的關(guān)注,是一件好事。”

作為人工智能領(lǐng)域知名學(xué)者兼導師,多重身份讓俞揚從這場(chǎng)比賽中看見(jiàn)了很多。在會(huì )后接受采訪(fǎng)時(shí),他也談到了自己因觀(guān)賽而生出的對于技術(shù)發(fā)展的諸多思考并分享了有關(guān)人才培養、技術(shù)研究方向上的建議。

AI與應用結合緊密大勢初顯

首先,俞揚認為比賽以NL2SQL為主題,某種程度上體現了業(yè)界對技術(shù)與應用深度結合研究方向的重視,同時(shí)也是業(yè)內對技術(shù)認知日趨客觀(guān)的一種體現。

俞揚指出,受到各方面因素影響,雖是AI算法與自然語(yǔ)言應用結合的關(guān)鍵技術(shù)方向,但一直以來(lái)自然語(yǔ)言理解(NLP)相對計算機視覺(jué)等領(lǐng)域沒(méi)有那么火熱卻是事實(shí)。

南京大學(xué)人工智能學(xué)院教授俞揚:從應用出發(fā)多角度設計,可得更優(yōu)算法模型

圖 | 南京大學(xué)人工智能學(xué)院教授 俞揚

回顧這一波AI算法浪潮我們容易發(fā)現,神經(jīng)網(wǎng)絡(luò )在視覺(jué)領(lǐng)域的成功應用起到了關(guān)鍵帶動(dòng)作用,隨后深度學(xué)習算法滲透到了各行各業(yè)。Google Trends曾發(fā)表數據指出,受深度學(xué)習算法影響,自2015年起,“機器學(xué)習”的搜索熱度一度超過(guò)了人工智能本身。

而在這一波熱潮中,因視覺(jué)領(lǐng)域是深度學(xué)習算法最開(kāi)始發(fā)力的地方,大量產(chǎn)業(yè)和學(xué)界的資源涌入了計算機視覺(jué)(CV)領(lǐng)域。作為能夠解決傳統數據庫查詢(xún)的繁瑣問(wèn)題、有著(zhù)實(shí)用價(jià)值的一項技術(shù),NL2SQL在此時(shí)被提出,也能夠吸引更多人的目光。

“從技術(shù)層面看,NL2SQL是將自然語(yǔ)言轉化為SQL語(yǔ)句的一項任務(wù),在研究領(lǐng)域是一個(gè)比較新的方向。但是它不僅僅是一個(gè)技術(shù)方向,更為重要的是它可以直接對應到一些應用上面,比如財務(wù)報表數據庫,有人想知道里面的某一方面信息,運用這項技術(shù),我們就可以用自然語(yǔ)言去提問(wèn),機器來(lái)回答,這樣會(huì )更高效便捷。”

正如俞揚提到,NL2SQL是一個(gè)技術(shù)與應用結合的產(chǎn)物。這場(chǎng)關(guān)于NL2SQL的大賽,其意義不僅僅在于對一項技術(shù)的推動(dòng),而是業(yè)內對技術(shù)與應用深度結合的重視。

從NL2SQL看技術(shù)落地

具體去看,NL2SQL是如何幫助改進(jìn)傳統數據庫查詢(xún)的?

俞揚介紹說(shuō),在過(guò)去如果想要知道數據庫里面的信息,就需要有專(zhuān)業(yè)程序員去寫(xiě)一段查詢(xún)數據庫的機器語(yǔ)言(SQL);現在,NL2SQL可以將自然語(yǔ)言自動(dòng)翻譯成機器語(yǔ)言(SQL)去查詢(xún),然后把答案反饋給用戶(hù)。

“這大大降低了數據庫的使用門(mén)檻。”

以比賽中的案例來(lái)看,俞揚提到選手用自然語(yǔ)言提問(wèn)“某地在某日的天氣是怎樣的”,程序可以自動(dòng)將問(wèn)題變成在計算機里面可以跑出結果的機器搜索語(yǔ)言,并查詢(xún)到結果。

俞揚特別補充說(shuō),“類(lèi)似這樣的案例都是能夠產(chǎn)生實(shí)際價(jià)值的,這對技術(shù)的應用和推廣有著(zhù)直接積極的影響。”但同時(shí)他也指出,透過(guò)比賽可以看出NL2SQL還有很大的提升空間,比如說(shuō)在算法泛化能力這一普遍關(guān)注點(diǎn)上。

“從大的方向來(lái)看,傳統的語(yǔ)義知識是不足以支撐商用的,更希望能夠引入一些常識,引入一些數據庫里面沒(méi)有出現過(guò)的東西,讓它能夠學(xué)習判斷并應用在對沒(méi)有見(jiàn)過(guò)的一些數據處理上,提升泛化能力。”

常識在這一次比賽中被反復提起,也是人工智能想要變得更加“聰明”所必須要彌補的部分。不過(guò)加入常識這件事并不容易。

“人有很多常識,但我們往往不知道常識從哪里來(lái)??赡芤驗槲覀儧](méi)有課本專(zhuān)門(mén)去學(xué)習常識,所以就難以界定哪些東西是在我們的常識范圍內,因此一開(kāi)始數據的收集就比較困難。比如雞有幾條腿、兔子有幾條腿的問(wèn)題,大家都知道答案,但是我們沒(méi)有在課本上學(xué)習過(guò),甚至什么時(shí)候獲得常識都不得而知。而當機器要解決比如雞兔同籠問(wèn)題,就必須依賴(lài)這些常識知識。”

專(zhuān)業(yè)人才應當看得更為長(cháng)遠

當然,除了對技術(shù)發(fā)展和行業(yè)的關(guān)注,作為導師,俞揚也更加關(guān)注人才培養。

此次比賽以學(xué)生給定程序的最終搜索精度為主要評定標準,這有積極意義,自然也有其局限性。

南京大學(xué)人工智能學(xué)院教授俞揚:從應用出發(fā)多角度設計,可得更優(yōu)算法模型

基于過(guò)往的經(jīng)驗和長(cháng)遠的發(fā)展角度,俞揚也特別給了學(xué)生一些自己的建議,因為是比賽,選手們希望分越高越好,不過(guò)從長(cháng)期的角度來(lái)看,比賽用的方法能夠得到90,但想要拿到最后的10分,可能往往需要顛覆現有的方法。所以對于選手們來(lái)說(shuō),不要過(guò)于看重分數,而應該將更多注意力放在背后的原理上。”

另外俞揚也提到,比賽所用數據集和實(shí)際應用有差距,所以學(xué)生們學(xué)會(huì )思考應用中真正面臨的問(wèn)題。一方面,數據不干凈、遠比比賽復雜的處理要求需要考慮在內;另外一方面,也要學(xué)會(huì )從不同角度去設計來(lái)滿(mǎn)足客戶(hù)的需求,如界面的引導幫助用戶(hù)修正問(wèn)題表述,以間接提升搜索精度。

“通過(guò)其他角度來(lái)輔助設計可以幫助人工智能模型避免一些問(wèn)題,對于訓練模型的使用是有很好的幫助,這也是實(shí)際應用設計上不可忽視的一些小細節。”

最后

近年來(lái),NLP的技術(shù)研究帶來(lái)了一些創(chuàng )新型研究機會(huì ),NL2SQL是其中之一。目前,Salesforce、斯坦福、耶魯等機構提出了WikiSQL、WikiTableQuestions、Spider、SParC等大規模數據集,并得到多次評測結果的提交。以WikiSQL為例,在排行榜上有多達19次的評測結果的提交。

不過(guò)基于中文數據集的NL2SQL技術(shù)還尚待發(fā)展,追一科技與南京大學(xué)計算機軟件新技術(shù)國家重點(diǎn)實(shí)驗室聯(lián)合舉辦了這樣一場(chǎng)比賽,無(wú)疑對這一技術(shù)在國內的應用起了重大推動(dòng)作用,這也是俞揚十分看好它的原因之一。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到