在深度學(xué)習之上,百度還需做些什么?

韓璐 9年前 (2016-07-20)

再次爆出“賭博網(wǎng)站深夜推廣上線(xiàn)”丑聞,基于深度學(xué)習的百度搜索引擎,這次又是哪里出錯了呢?

近日,百度“深夜賭博網(wǎng)站”事件占據了各大網(wǎng)絡(luò )媒體的頭條。百度的解釋是他們在搜索引擎中一直為之自豪的機器學(xué)習似乎出現了bug,但事實(shí)真的如此嗎?

在深度學(xué)習之上,百度還需做些什么?

事件回顧:賭博網(wǎng)站深夜推廣上線(xiàn),國家介入調查

據報道,此前如果在夜間(21:00—9:00之間),在百度搜索框內輸入“新葡京”、“威尼斯”等關(guān)鍵詞,頁(yè)面就會(huì )跳出一些推廣網(wǎng)站,但在逐一打開(kāi)后就分別顯示為“澳門(mén)新葡京賭場(chǎng)”、“明升亞洲網(wǎng)投”、“威尼斯人娛樂(lè )賭場(chǎng)”、“太陽(yáng)集團”等4家網(wǎng)站子。而這些網(wǎng)站的子欄目中均涉及賭博電子游藝項目,并介紹了如何存款及提現;另外,有時(shí)打開(kāi)的一個(gè)頁(yè)面看起來(lái)很正常,但殺毒軟件也會(huì )發(fā)出警告,提示為賭博欺詐網(wǎng)站。

回想此前的“魏則西”事件,只能說(shuō)百度用于搜索引擎的深度學(xué)習算法還不夠完善,以至于給自己挖了一個(gè)又一個(gè)的坑!

在深度學(xué)習之上,百度還需做些什么?

最大禍首:“深度學(xué)習算法”的滯后性

在網(wǎng)站審核方面,據百度官方回應,他們每天采取“機器+人工”的方式來(lái)對4.7億條推廣內容進(jìn)行審核,其中包括對推廣內容以及網(wǎng)站內容的審核,而這里的機器可能就是指“深度學(xué)習算法”。

一般來(lái)講,基于人工質(zhì)量評估員對網(wǎng)站的評測數據、敏感詞匯庫以及對于網(wǎng)站點(diǎn)擊率、跳出率、停留時(shí)間等數據的監測等等,深度學(xué)習可以進(jìn)行大量的數據訓練,從而產(chǎn)生自己的一套方法,進(jìn)而對網(wǎng)站的內容等方面進(jìn)行審核,區分哪些是高質(zhì)量的網(wǎng)站,哪些是低質(zhì)量的網(wǎng)站,在此基礎上,深度學(xué)習算法著(zhù)實(shí)為人工審核節省了不少的時(shí)間與繁瑣的過(guò)程。百度搜索引擎中深度學(xué)習算法的應用應該大類(lèi)相同。

但從結果,我們也可以看出,“深度學(xué)習算法”在內容審核方面出現了滯后性,對于“敏感詞匯”的辨識度以及網(wǎng)站名稱(chēng)與內容的匹配度還沒(méi)有達到人類(lèi)那樣的精確,比如說(shuō)讓俄羅斯總統普京躺槍的“新普京”等。

在深度學(xué)習之上,百度還需做些什么?

添加“剔除”功能,或可有助于避免類(lèi)似事件

據百度官方回應,這些推廣網(wǎng)站多數早在4月就進(jìn)行了開(kāi)戶(hù),雖如此,但直到6月25日突然開(kāi)始推廣,期間一直沒(méi)有進(jìn)行任何相關(guān)的推廣工作,因而,這些網(wǎng)站一上線(xiàn)就打的百度一個(gè)措手不及,從而沒(méi)有及時(shí)進(jìn)行處理。

針對這種突發(fā)狀況的發(fā)生,百度應該引起重視,并采取措施,做好一個(gè)防范準備,比如在算法的設置上添加一個(gè)“剔除”異常網(wǎng)站等鏈接的功能。拿這次事件作例,從開(kāi)戶(hù)到推廣,此次所涉及的網(wǎng)站已然沉寂了兩個(gè)月之久,這種現象不僅顯得異常,從側面也顯得這些網(wǎng)站鏈接毫無(wú)價(jià)值。既然如此,何不干脆從數據庫移出去?

題外話(huà):百度還需要接受監管

據百度非企渠道業(yè)務(wù)員劉明(化名)透露,以今年一季度為例,有百度推廣業(yè)務(wù)代理商為完成任務(wù),給非企渠道業(yè)務(wù)員的回扣達80%;且其所展示的企業(yè)資質(zhì)大多造假,多家賭博網(wǎng)站在百度的推廣費用一晚累計超過(guò)30萬(wàn)元。

面對如此局面,百度需要面對的問(wèn)題不僅是自家搜索引擎深度學(xué)習算法的漏洞,還有社會(huì )輿論和國家相關(guān)主管部門(mén)的監督和管理。

在深度學(xué)習之上,百度還需做些什么?

擴展閱讀:深度學(xué)習在百度搜索的應用

在百度,深度學(xué)習被成功地用于包括搜索引擎優(yōu)化、圖像識別、語(yǔ)音識別和廣告點(diǎn)擊率預估等在內的多個(gè)產(chǎn)品,并大幅度地提升了這些產(chǎn)品的準確度。

此前,百度技術(shù)委員會(huì )理事長(cháng)陳尚義曾表示,在引入深度學(xué)習后,他們用GPU的訓練系統來(lái)實(shí)現深度神經(jīng)網(wǎng)絡(luò )。而在此基礎上,百度的新一代搜索顯現了四個(gè)特征:一是搜索結果精準展現;二是擁有更智慧的交互體驗;三是全面的信息網(wǎng)絡(luò );最后提供了更加豐富的搜索模式。

具體來(lái)講,就是當我們在詞條框中輸入關(guān)鍵詞之后,系統會(huì )根據關(guān)鍵詞提供精準的、全方面的詳細信息,比如搜一下北京故宮,頁(yè)面就會(huì )出現百科普及、門(mén)票購買(mǎi)渠道以及路線(xiàn)查詢(xún)等信息,包含了我們可能需要了解的所有東西。此外,基于深度學(xué)習的語(yǔ)音識別以及“以圖搜圖”等功能,大大提升了搜索效率,也為人們信息的搜索提供了不少便利。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到