今日頭條整改首先擴招審核團隊,靠機器學(xué)習推薦內容已是偽命題?
今日頭條整改行動(dòng)從本月正式開(kāi)始。
“今日頭條將強化總編輯責任制,全面糾正算法和機器審核的缺陷,不斷強化人工運營(yíng)和審核,將現有6000人的運營(yíng)審核隊伍,擴大到10000人。”4月11日早4時(shí)33分,今日頭條創(chuàng )始人&CEO張一鳴在其《致歉和反思》信中說(shuō)。
作為國內最大的智能內容平臺,今日頭條一直以機器學(xué)習推薦技術(shù)引以為傲。此次大幅度擴充運營(yíng)審核團隊,或許是認為,以機器學(xué)習為主導的機制,已無(wú)法負荷龐大的內容審核工作,需要加大人工輔助力度了。
指控、處罰、責令關(guān)閉內涵段子,今日頭條整改行動(dòng)從本月正式開(kāi)始
早從今年3月開(kāi)始,用戶(hù)可能或多或少的有所感覺(jué),甚至提出疑問(wèn):包含低俗、違法、虛假等內容的今日頭條,是不是快要不行了?
3月8日,央視財經(jīng)發(fā)布《“今日頭條”終于上了“頭條”!無(wú)視監管,竟做起這種“黑勾當”!害苦2.4億用戶(hù)...》文章,直指“今日頭條”利用“二跳”手段發(fā)布虛假廣告,嚴重侵害消費者合法權益,并危害到相關(guān)藥品企業(yè)正常經(jīng)營(yíng);
3月29日央視《經(jīng)濟半小時(shí)》欄目直接指出,今日頭條枉顧監管約談,明著(zhù)合法,暗中“二跳”廣告的“黑勾當”;
3月30日,就廣告違規問(wèn)題,北京工商行政管理局海淀分局對今日頭條行政作出處罰,沒(méi)收廣告費并處以廣告費用3倍罰款,總計達94.4萬(wàn)元人民幣;
4月4日,國家廣播電視總局對今日頭條、快手兩家網(wǎng)站的主要負責人進(jìn)行了約談,要求全面整改;
4月9日,多家應用商店下架今日頭條APP,暫停其下載服務(wù)3周,時(shí)間從4月9日15時(shí)起至4月30日15時(shí)止;
4月10日,國家廣播電視總局責令今日頭條永久關(guān)停“內涵段子”。當晚,今日頭條關(guān)停“內涵段子”。
近一個(gè)月的時(shí)間,央視及國家相關(guān)監管部門(mén)接連不斷的的指責,幾乎在大眾面前將今日頭條批的體無(wú)完膚。為此,今日頭條方面承諾,將把4月作為整改月,全面清查產(chǎn)品中存在的問(wèn)題,并定期向監管部門(mén)匯報整改進(jìn)度,向公眾同步整改結果。
依靠機器學(xué)習推薦機制,今日頭條僅用6年便成為國內最大的智能內容平臺
從2012年發(fā)布第一個(gè)版本至今,今日頭條僅用不到6年的時(shí)間,便發(fā)展成為了國內最大的智能內容平臺。相關(guān)數據統計,截至2017年7月31日,今日頭條的日活躍用戶(hù)數已經(jīng)達到了1.2億,較2016年同期翻了一倍多。
眾所周知,機器學(xué)習推薦機制是今日頭條最大功臣??v觀(guān)今日頭條推薦的結果看,其智能算法大致走了以下幾大流程:
一、數據抓取,從用戶(hù)在該平臺的瀏覽動(dòng)態(tài)或其他賬號日常動(dòng)態(tài)中抓取相關(guān)數據。
二、用戶(hù)分析,每個(gè)用戶(hù)都是一個(gè)數據庫,信息瀏覽行為越多,其數據庫中的數據也越多。智能算法會(huì )對這些數據進(jìn)行整合與分析,從而提煉出該數據庫的關(guān)鍵詞。
三、內容審核,智能算法主要做了兩件事,消重和審核。
消重,就是辨別內容相似度,以避免推薦給用戶(hù)的內容過(guò)于重復。顯然,這一點(diǎn),今日頭條做的并不好,用戶(hù)經(jīng)常會(huì )看到相似內容,甚至標題、圖片等都很相似;
審核方面,這是今日頭條被嚴厲指責的關(guān)鍵問(wèn)題所在。因算法尚未成熟,人工干預度低,導致很多未經(jīng)人工審核的將色情、低俗、虛假、違法等內容通過(guò)了審核。
四、新聞推薦,這是與用戶(hù)直接關(guān)聯(lián)的一步。從今日頭條的推薦機制看,內容會(huì )被推薦與否,與熱點(diǎn)、點(diǎn)擊量直接掛鉤。這是智能算法對內容受歡迎程度的一次判斷。
但顯然,今日頭條這一內容平臺,并沒(méi)有很好的做到其所期望的。
雖加大人工審核力度,機器學(xué)習推薦內容依舊是大勢所趨
“3月29日央視報道我們的廣告問(wèn)題后,我不斷反思自己以前的想法,反思公司現在的做法,開(kāi)始大力推進(jìn)公司員工提高意識、改進(jìn)管理、完善流程。”這是張一鳴的反思之一。
而隨后的行動(dòng),就是“強化人工運營(yíng)和審核,將現有6000人的運營(yíng)審核隊伍,擴大到10000人。”
顯然,今日頭條這個(gè)人工智能內容平臺,已經(jīng)認識到機器學(xué)習的不足,開(kāi)始更為重視人工了。對此,有網(wǎng)友提出質(zhì)疑,從人工到人工智能是進(jìn)步,從機器回到人工,這是歷史和科技的倒退?
去年11月,張一鳴在2017今日頭條創(chuàng )作者大會(huì )上透露,其頭條號賬號總數超120萬(wàn),平均每天發(fā)布50萬(wàn)條內容,創(chuàng )造內容消費達48億次。
以每個(gè)賬號每天投稿5條內容算,頭條好每天的投稿內容達600萬(wàn)條。除此之外,今日頭條旗下還有悟空問(wèn)答、微頭條、西瓜/火山/抖音以及已經(jīng)關(guān)停的內涵段子。該平臺每天的投稿、上傳內容超4000萬(wàn)。
僅靠1萬(wàn)的人工,顯然是無(wú)法完全負荷審核任務(wù)的。僅從目前來(lái)說(shuō),今日頭條的審核推薦機制,依舊以機器學(xué)習算法為主導,并加以大量人工輔助。
其實(shí),除了今日頭條,新浪微博、微信公眾號、快手短視頻、界面等平臺也有相關(guān)的機器學(xué)習審核算法的加持。如新浪微博,其會(huì )實(shí)時(shí)更新關(guān)鍵詞,如果用戶(hù)發(fā)布的內容涉及到相關(guān)關(guān)鍵詞,就會(huì )被屏蔽或刪除。
而微信公眾號作為現今流量排前的內容平臺,其在內容審核方面則較為嚴謹。有過(guò)運營(yíng)經(jīng)歷的人應該經(jīng)常碰到,一旦提交審核的內容中提及了一些敏感內容或詞匯,其審核時(shí)間就會(huì )非常得長(cháng)。
很顯然,在平臺多元、領(lǐng)域多樣、數量越來(lái)越龐大的情況下,通過(guò)機器學(xué)習審核推薦內容是大勢所趨。僅靠人工,非得累死。
不過(guò),當前的機器學(xué)習算法能工作質(zhì)量,還遠不及人類(lèi),否則,今日頭條也就不會(huì )陷入如此窘境了。就像扎克伯格曾經(jīng)說(shuō)的一樣,Facebook對人工智能非常依賴(lài),希望能夠通過(guò)AI改善審核機制。但想要完全依靠AI審核內容,可能還需要5-10年的時(shí)間。
機器學(xué)習算法作為每一次內容低劣指控的“背鍋俠”,需要的,可能只是時(shí)間和耐心。在沒(méi)有完全成熟之前,可以是主導,但絕不可以是唯一。技術(shù)提升加以人工輔助,是對用戶(hù)最大的負責。
“我是工程師出身,創(chuàng )業(yè)的初心是希望做一款產(chǎn)品,方便全世界用戶(hù)互動(dòng)和交流。因此,在過(guò)去幾年間,今日頭條將更多的精力和資源,放在了企業(yè)的增長(cháng)上?,F在,我們必須重新梳理我們的愿景,保證所‘創(chuàng )作’與‘交流’的內容是積極向上的、健康有益的,能夠給時(shí)代、給人民帶來(lái)正能量。”張一鳴說(shuō)的似乎很誠懇。
最后
快手的創(chuàng )始人&CEO宿華曾表示,技術(shù)讓每個(gè)人前所未有的得到了表達自我的機會(huì ),但也帶了新的社會(huì )問(wèn)題。因為幾千年來(lái),人們所適應的,是由人呈現出來(lái)的世界。我們需要去適應新的世界。
當然,這里不得不提一句,機器學(xué)習算法是在抓取用戶(hù)“行為數據庫關(guān)鍵詞”之后才進(jìn)行的推薦。如果,你能抵制住低俗內容的誘惑,又怎會(huì )被這些內容推薦“干擾”?
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
