重磅!圖靈獲 NLPCC2018 競賽用戶(hù)畫(huà)像和推薦任務(wù)第1名

巫盼 7年前 (2018-05-26)

圖靈在用戶(hù)畫(huà)像和智能推薦上已經(jīng)達到行業(yè)頂尖的水平,并賦能到國內 Top 50 的兒童玩具品牌,幫助他們實(shí)現智能化的產(chǎn)品體驗。

近日,NLPCC 2018 競賽公布評測結果,圖靈機器人NLP研究員在用戶(hù)畫(huà)像與好友推薦任務(wù)中均獲得第 1 名!

另?yè)?,用?hù)畫(huà)像與好友推薦這兩項新技術(shù)將在7月1日隨著(zhù)圖靈OS新版正式上線(xiàn)!

重磅!圖靈獲 NLPCC2018 競賽用戶(hù)畫(huà)像和推薦任務(wù)第1名

NLPCC 是國內首個(gè) NLP 領(lǐng)域的國際會(huì )議,是國際上中文計算領(lǐng)域的頂尖會(huì )議。會(huì )議由中國計算機學(xué)會(huì )(CCF)主辦,CCF 中文信息技術(shù)專(zhuān)業(yè)委員會(huì )(CCF TCCI)及高校(每年通過(guò)投票選舉)承辦。會(huì )議內容主要圍繞自然語(yǔ)言處理(NLP)和中文計算(CC)兩方面來(lái)進(jìn)行。

本次競賽,包含 8 項任務(wù)評測,涉及情緒識別、語(yǔ)法糾錯、自動(dòng)文摘、對話(huà)系統中的口語(yǔ)理解、多輪人機對話(huà)、知乎問(wèn)題標注、智能問(wèn)答、用戶(hù)畫(huà)像與推薦等。憑借多年的技術(shù)和數據積累,圖靈參加并拿下了用戶(hù)畫(huà)像與好友推薦任務(wù)第一名。

用戶(hù)畫(huà)像和好友推薦是什么?

用戶(hù)畫(huà)像是在給定了用戶(hù)的一些基本信息,例如:性別、地理位置、好友關(guān)系、微博信息,以及用戶(hù)的標簽信息,需要根據用戶(hù)的基本信息來(lái)預測用戶(hù)的標簽。

好友推薦任務(wù)目的是基于用戶(hù)歷史好友、用戶(hù)的個(gè)人信息、微博文本、到過(guò)的地點(diǎn)等,為用戶(hù)推薦新的好友。該任務(wù)中一個(gè)用戶(hù)可能和多個(gè)標簽相關(guān)聯(lián),是一個(gè)典型的多標簽分類(lèi)任務(wù),目前比較流行的有三類(lèi)方法來(lái)解決多標簽分類(lèi)問(wèn)題:

(1) 問(wèn)題轉換,該方法的思想是將多標簽問(wèn)題轉換為單標簽問(wèn)題,例如二元關(guān)聯(lián)、分類(lèi)器鏈、標簽Powerset等方法都是早期提出的方法,但是該方法沒(méi)有考慮標簽之間的相關(guān)性。

(2) 改編算法,該方法的思想是將多標簽分類(lèi)問(wèn)題轉化為多分類(lèi)問(wèn)題。該方法跟問(wèn)題轉換方法一樣沒(méi)有考慮標簽的相關(guān)性,而且當標簽數量比較大的時(shí)候,分類(lèi)組合的數量會(huì )很大,增加了模型的復雜性,并降低了精確度。

(3) 集成方法,該方法的思想通過(guò)組合多個(gè)模型,以獲得更好的效果,使集成的模型具有更強的泛化能力,但是該方法需要大量的維護工作。

由于之前的方法都有各種各樣的缺點(diǎn),考慮到任務(wù)中標簽之間有比較強的關(guān)聯(lián)性,利用深度學(xué)習能夠自主學(xué)習特征的特性,我們提議了新的模型,考慮到用戶(hù)基本信息的組合特征和標簽之間的相關(guān)性,從而提高了預測的準確率。

好友推薦任務(wù)在大部分研究好友推薦的文章中,大部分是基于特征挖掘實(shí)現的,需要充分的用戶(hù)和好友的微博文本,個(gè)人信息,興趣愛(ài)好甚至生活習慣等信息,還有一些基于社交信息進(jìn)行圖挖掘。

在準備過(guò)程中,我們首先尋找了相似的數據,并嘗試了從專(zhuān)門(mén)用于好友推薦的多種,包括傳統的FOF、協(xié)同過(guò)濾、矩陣分解等。在發(fā)布正式數據后,對適用各類(lèi)特征的方法進(jìn)行了評估和比較。最終根據用戶(hù)歷史社交信息的多少,分別選擇了合適的方法。

就像人類(lèi)的智慧行行程需要依賴(lài)于知識和經(jīng)驗,機器人想要聰明也需要有足夠豐富的“知識”和“經(jīng)驗”。

為此,圖靈建立了大量的知識圖譜——在這其中,圖靈不僅有知識圖譜數量上的累積,更強調圖譜中每個(gè)節點(diǎn)的關(guān)聯(lián)性和跳躍性。在對話(huà)過(guò)程中,機器利用知識圖譜來(lái)理解人的話(huà)題,并找到話(huà)題圖話(huà)題的關(guān)聯(lián)性,實(shí)現在相互關(guān)聯(lián)的話(huà)題之間自然跳轉。

你是誰(shuí)?我們發(fā)生過(guò)什么?

搭載了圖靈大腦的機器人,可以把每一個(gè)用戶(hù)作為一個(gè)實(shí)體,在使用中不斷關(guān)聯(lián)與用戶(hù)相關(guān)的信息,反向刻畫(huà)出精準的用戶(hù)畫(huà)像?;诤腿说慕换祿?,機器人會(huì )再形成新的知識圖譜,并完成跨越間維度的上下文對話(huà)。

——換句話(huà)講,你家的機器人不再是個(gè)沒(méi)有故事的“傻孩子”,它不僅知道自己是誰(shuí),也知道你是誰(shuí),甚至記得你喜歡什么、你說(shuō)過(guò)什么話(huà),并有可能在日后的對話(huà)中,用你的說(shuō)過(guò)的話(huà)“懟”回你。

你喜歡什么?我能為你做什么?

在解決“我是誰(shuí)”、“你是誰(shuí)”這樣的認知問(wèn)題之后,接下來(lái)就需要考慮“聊得來(lái)”的問(wèn)題了——機器人需要知道你喜歡什么,并根據你的興趣向你主題推薦聊天話(huà)題和內容服務(wù)。

在對話(huà)狀態(tài)下,基于前面的精準用戶(hù)畫(huà)像,圖靈會(huì )通過(guò)智能推薦算法,按照用戶(hù)的特征來(lái)選擇其感興趣的話(huà)題。而在非對話(huà)狀態(tài)下,圖靈則會(huì )主動(dòng)篩選內容和服務(wù),幫助用戶(hù)快速找到。

簡(jiǎn)單來(lái)講,就是同一款搭載了圖靈大腦的產(chǎn)品,在不同用戶(hù)的家里可能會(huì )有完全不一樣的表現——小女孩的機器人喜歡講白雪公主和哆啦A夢(mèng)的故事;小男孩的機器人對超級飛俠和奧特曼的故事如數家珍。

在人機交互的過(guò)程中,精準的用戶(hù)畫(huà)像可以為機器「理解」用戶(hù)打下基礎,幫助機器更加清晰地了解用戶(hù)的意圖;同時(shí),通過(guò)智能推薦的方式,在操作層面上,可以減少用戶(hù)的操作成本,而在對話(huà)過(guò)程中,可以預先圈定意圖范圍,避免了“答非所問(wèn)”之類(lèi)的尷尬。

憑借圖靈在人工智能領(lǐng)域多年的積累,圖靈在用戶(hù)畫(huà)像和智能推薦上已經(jīng)達到行業(yè)頂尖的水平,并賦能到國內 Top 50 的兒童玩具品牌,幫助他們實(shí)現智能化的產(chǎn)品體驗。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到