首屆中文NL2SQL挑戰賽完美收官,產(chǎn)學(xué)研攜手推動(dòng)智能交互的發(fā)展

IM2Maker 6年前 (2019-10-13)

通過(guò)這次挑戰賽,追一科技與院校、企業(yè)界同仁攜手,共同推動(dòng)中文NLP研究與應用突破。

籌備8個(gè)月,初、復賽鏖戰3個(gè)月,千支隊伍角逐,首屆中文NL2SQL挑戰賽結果揭曉。

10月12日下午,由追一科技主辦、南京大學(xué)計算機軟件新技術(shù)國家重點(diǎn)實(shí)驗室協(xié)辦的“首屆中文NL2SQL挑戰賽”總決賽答辯暨頒獎典禮在南京大學(xué)舉行。經(jīng)過(guò)最終決賽的5強選手隊伍精彩分享、答辯和現場(chǎng)評委考評,決出最終名次。來(lái)自國防科技大學(xué)的選手團隊“不上90不改名字”奪得冠軍,國雙科技選手團隊“BugCreater”獲得亞軍,觀(guān)安信息與妙盈科技選手聯(lián)合團隊“Model S”獲得季軍,來(lái)自華南理工大學(xué)與佛羅里達大學(xué)的選手隊伍“大佬帶我飛”,以及浙江大學(xué)的團隊“老哥們不放假嗎”則獲得優(yōu)勝獎。

首屆中文NL2SQL挑戰賽完美收官,產(chǎn)學(xué)研攜手推動(dòng)智能交互的發(fā)展

首次舉辦、首次發(fā)布中文數據集,短短幾個(gè)月,選手們的成績(jì),已經(jīng)超過(guò)了國外WikiSQL,直奔“九十分”,讓眾多評委感覺(jué)“驚喜”。最終的現場(chǎng)答辯對決,讓之前的短暫排名,再生懸念。

由眾多人工智能大咖組成的專(zhuān)家評委團,包括中國移動(dòng)研究院首席科學(xué)家馮俊蘭、復旦大學(xué)教授肖仰華、新加坡南洋理工大學(xué)副教授毛可智、南京大學(xué)教授俞揚、追一科技CTO劉云峰等產(chǎn)學(xué)研多方代表,在決賽現場(chǎng)對選手們的技術(shù)方案,進(jìn)行了專(zhuān)業(yè)精彩的分析點(diǎn)評,從而產(chǎn)生最終結果。從AI與數據庫交互,到更廣闊的創(chuàng )新空間,自然語(yǔ)言處理的“技術(shù)大年”味道越來(lái)越濃。

“此次挑戰賽參與規模、選手表現遠超預期,顯示出NL2SQL在學(xué)術(shù)和產(chǎn)業(yè)應用上的潛力,數據庫的交互創(chuàng )新,正在受到越來(lái)越多關(guān)注。”追一科技聯(lián)合創(chuàng )始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業(yè)界同仁攜手,共同推動(dòng)中文NLP研究與應用突破。

首屆中文NL2SQL挑戰賽完美收官,產(chǎn)學(xué)研攜手推動(dòng)智能交互的發(fā)展

圖 | 追一科技聯(lián)合創(chuàng )始人兼CTO劉云峰

中文數據集成績(jì)比肩WikiSQL

NL2SQL(自然語(yǔ)言轉結構化查詢(xún)語(yǔ)句)作為新興的研究領(lǐng)域,在國外由SalesForce耶魯大學(xué)等發(fā)布了WikiSQL和Spider數據集,但在國內市場(chǎng),目前還處于起步階段。

此次NL2SQL挑戰賽是國內首次舉辦,期間,追一科技發(fā)布了業(yè)內首個(gè)大規模的中文數據集,包括4870張表格數據、近50000條標注數據以及相應的SQL語(yǔ)句,并獲得很多學(xué)界專(zhuān)家、產(chǎn)業(yè)界伙伴的支持,通過(guò)“產(chǎn)學(xué)研”等多方聯(lián)動(dòng),希望提供一個(gè)平臺,來(lái)推動(dòng)NL2SQL的研究和應用。

來(lái)自學(xué)術(shù)和產(chǎn)業(yè)界的AI大咖,擔任大賽評委,并提供專(zhuān)業(yè)建議和資源支持。包括中國移動(dòng)研究院首席科學(xué)家馮俊蘭、復旦大學(xué)教授肖仰華、新加坡南洋理工大學(xué)副教授毛可智、南京大學(xué)教授俞揚,追一科技CTO劉云峰。

“直接用自然語(yǔ)言訪(fǎng)問(wèn)關(guān)系型數據庫一直是業(yè)界夢(mèng)想”,嘉賓評委代表肖仰華表示,隨著(zhù)對大數據價(jià)值的重視,這一愿望更變得日益迫切。此次比賽的發(fā)起和中文數據集的公布,在短短的時(shí)間里,加速了NL2SQL研究設想的實(shí)現,“最終選手的成績(jì),完全超出了我們對于比賽的預期。”

經(jīng)過(guò)選手的不斷努力與探索,比賽任務(wù)短期內就達到與英文數據集上相當水平的分數,并持續刷新記錄。比賽初期,準確率尚為60%多,至8月份初賽結束時(shí),榜上頭部分數已經(jīng)達到89%,接近WikiSQL成績(jì)。復賽結束時(shí),選手最高成績(jì)達到92%,并且,最終晉級決賽的5支隊伍,個(gè)個(gè)都在“90分”以上。

千支隊伍角逐

據了解,本次1457支參賽隊伍中,院校和企業(yè)參與者各占“半壁江山”。

其中,學(xué)生及科研人員占比48%,企業(yè)技術(shù)員工占比52%。學(xué)生參賽隊伍來(lái)自眾多知名院校,如北京大學(xué)、清華大學(xué)、復旦大學(xué)、上海交通大學(xué)、南京大學(xué)、浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)、哈爾濱工業(yè)大學(xué)、西安交通大學(xué)等。

雖然本次比賽的數據內容是中文形式,但仍然吸引了美國、英國、新加坡、日本、澳大利亞、加拿大等海外頂級院校參與,包括卡內基梅隆、墨爾本大學(xué)、新加坡國立大學(xué)、南安普頓大學(xué)、新南威爾士大學(xué)、布里斯托大學(xué)、昆士蘭大學(xué)等。

首屆中文NL2SQL挑戰賽完美收官,產(chǎn)學(xué)研攜手推動(dòng)智能交互的發(fā)展

作為新興NLP研究任務(wù),NL2SQL在專(zhuān)業(yè)難度上,也對選手提出較高要求。據了解,本次參賽選手中,碩士及以上學(xué)歷占比57%,其中,博士學(xué)歷占比6%;而專(zhuān)業(yè)分布上,計算機科學(xué)專(zhuān)業(yè)背景的選手則屬于參賽主力。

應用前景

在如火如荼的比賽背后,NL2SQL應用潛力,也受到了越來(lái)越多的矚目。

來(lái)自中國移動(dòng)、平安集團、搜狗、達闥科技、中興通訊、網(wǎng)宿科技、國雙科技、捷通華聲等眾多企業(yè)的技術(shù)人員,也成為參賽隊伍的重要力量。

業(yè)內人士表示, NL2SQL在銀行、保險、證券、電商、汽車(chē)、地產(chǎn)等數據富礦領(lǐng)域,有很大的應用潛力,可以大大地降低數據庫訪(fǎng)問(wèn)和使用門(mén)檻,更好地挖掘數據特別是結構化數據價(jià)值,讓數據庫不再“沉睡”。

“此次挑戰賽參與規模遠超預期,顯示出NL2SQL在學(xué)術(shù)和產(chǎn)業(yè)應用上的潛力,數據庫的交互創(chuàng )新,正在受到越來(lái)越多關(guān)注。”追一科技聯(lián)合創(chuàng )始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業(yè)界同仁攜手,共同推動(dòng)中文NLP研究與應用突破。

作為來(lái)自產(chǎn)業(yè)界的專(zhuān)家評委,馮俊蘭表示,NL2SQL是自然語(yǔ)言處理的一個(gè)非常重要的應用領(lǐng)域,涉及到多個(gè)自然語(yǔ)言處理領(lǐng)域的核心問(wèn)題,非常開(kāi)心看到這么多高水平的隊伍參賽,并取得了非常好的成績(jì),也看了產(chǎn)、學(xué)、研在這個(gè)方向上共同提升技術(shù)的熱情。

“今天在A(yíng)I與數據庫交互上,我們又一次看到了突破,新的想象空間。”對于此次比賽的舉行,創(chuàng )新工場(chǎng)董事長(cháng)兼首席執行官李開(kāi)復也表示,期待看到追一和更多NLP開(kāi)發(fā)愛(ài)好者,不斷探索努力,推進(jìn)NLP創(chuàng )新和普惠應用。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到