谷歌人工智能唇讀術(shù)完虐人類(lèi),僅憑5千小時(shí)電視節目!
人工智能搶人類(lèi)飯碗的趨勢越來(lái)越明顯了,最近,它又瞄準了一個(gè)新行業(yè),而且一出手就比該行業(yè)專(zhuān)家們做的好。
【編者按】本文轉載自DeepTech深科技;作者:十三、星際寶貝。
人工智能搶人類(lèi)飯碗的趨勢越來(lái)越明顯了,最近,它又瞄準了一個(gè)新行業(yè),而且一出手就比該行業(yè)專(zhuān)家們做的好。
主角還是 AI 大咖谷歌DeepMind,這次他們與英國牛津大學(xué)合作,通過(guò)機器學(xué)習大量的 BBC 節目,來(lái)學(xué)習一項全新的技能:唇讀術(shù)??膳碌氖?,人工智能不僅學(xué)會(huì )了,而且讓唇讀專(zhuān)家們自愧不如。
唇讀是人類(lèi)一項獨特的技藝,也是非常困難的一件事,它對于語(yǔ)言語(yǔ)境和知識理解的要求并不亞于視覺(jué)上的線(xiàn)索,然而 AI 又做到了。
AI 系統的學(xué)習對象是近 5000 小時(shí)的 BBC 各類(lèi)節目,包括 Newsnight、BBC Breakfast、Question Time 等,所有視頻資料加起來(lái)約有 11.8 萬(wàn)句話(huà)。
谷歌DeepMind 和牛津大學(xué)的聯(lián)合研究團隊使用了 2010 年 1 月至 2015 年 12 月間的電視節目素材對 AI 系統進(jìn)行訓練,然后使用 2016 年 3 月- 9 月間播出的節目進(jìn)行 AI 性能測試。
BBC節目數據庫。從左至右分別為:頻道、節目名稱(chēng)、小時(shí)數、句數
通過(guò)觀(guān)察節目中說(shuō)話(huà)者的唇形,AI 系統可以準確解讀出文字,比如下面這些比較“拗口”的句子:“我們知道也將有上百位記者會(huì )出席”(We know there will be hundreds of journalists here as well),以及“根據國家統計局的最新統計數據”(According to thelatest figures from the Office of National Statistics)。
DT 君試讀了以上英文語(yǔ)句,發(fā)現唇形變化其實(shí)并不明顯,而且電視節目中的語(yǔ)速是非??斓?,難度可想而知。
BBC節目數據庫中無(wú)字幕原片
由谷歌DeepMind AI系統通過(guò)唇讀同步的字幕
AI能力再升級
測試結果的具體數據可能更能說(shuō)明問(wèn)題:在 2016 年 3 月-9 月的節目庫中隨機選取的 200 個(gè)說(shuō)話(huà)場(chǎng)景唇讀對比測試中,人類(lèi)專(zhuān)家的完全準確率為12.4%,而AI的完全準確率為46.8%。
而且 AI 所犯錯誤中有很多其實(shí)無(wú)關(guān)緊要,比如在復數后面漏掉一個(gè)“s”之類(lèi)。不過(guò)哪怕是這樣,AI 還是完虐了人類(lèi)唇讀專(zhuān)家。
人工智能業(yè)內專(zhuān)家稱(chēng),“這絕對是建構全自動(dòng)唇讀系統的第一步!現有的各類(lèi)龐大數據庫完全可以支持深度學(xué)習技術(shù)的發(fā)展。”
上方彩色圖片為BBC節目數據庫原始靜態(tài)圖片,下方黑白圖片為兩個(gè)不同的人說(shuō)出“afternoon”(下午)這個(gè)單詞時(shí)的唇型
兩周前,牛津大學(xué)曾開(kāi)發(fā)了一個(gè)類(lèi)似的深度學(xué)習系統LipNet,這套系統當時(shí)就已93.4%對52.3%大比分擊敗了人類(lèi)唇讀專(zhuān)家,但還不太說(shuō)明問(wèn)題,畢竟,LipNet和人類(lèi)的競賽是基于GRID語(yǔ)料庫,這個(gè)數據庫只包含51個(gè)特殊詞匯。
而DeepMind這次選取的BBC節目數據庫卻包含了驚人的17500個(gè)特殊詞匯,對人工智能來(lái)說(shuō),這無(wú)疑是艱巨的挑戰。
GRID語(yǔ)料庫中的音視頻數據相對簡(jiǎn)單得多
除此之外,BBC節目數據庫中包含了人類(lèi)在正常說(shuō)話(huà)時(shí)使用的各種語(yǔ)法,而GRID語(yǔ)料庫的33000個(gè)句子都采用相同表達,這使得句子很容易被預測,難度也相對低得多。
DeepMind和牛津大學(xué)的研究團隊將開(kāi)放BBC節目數據庫供同行使用。來(lái)自L(fǎng)ipNet的 Yannis Assael 表示將率先使用這一數據庫來(lái)訓練自己的唇讀AI系統。
把嘴唇排列起來(lái)
如果要通過(guò) BBC 節目這一類(lèi)的視頻數據庫來(lái)訓練自動(dòng)唇讀系統,必須要讓機器預先學(xué)習每一個(gè)視頻片段??蓡?wèn)題是,節目中的視頻流與音頻流往往不是完全同步的,甚至會(huì )出現多達1秒左右的時(shí)間差。
簡(jiǎn)單地說(shuō),這會(huì )讓機器徹底蒙圈,因為視頻里出現的唇形沒(méi)辦法和音頻完美貼合,機器就無(wú)法將某一特定唇形和其發(fā)音對號入座。這樣看來(lái),AI 學(xué)習唇讀術(shù)好像是不可能的。
解決這一問(wèn)題的方案是讓計算機先學(xué)會(huì )那些完全同步的音視頻流,掌握發(fā)音與唇形間的關(guān)聯(lián),然后自行推斷音視頻流中那些畫(huà)面是不同步的,再進(jìn)行自動(dòng)修正。DeepMind的 AI 系統自動(dòng)處理的 5000 小時(shí)音視頻流就是采用的這種方法。如果完全使用人工來(lái)進(jìn)行同步校準,工作量簡(jiǎn)直大到不可想象。
DeepMind采用的“看、聽(tīng)、嘗試、拼寫(xiě)”架構。首先解碼出一個(gè)特征yi及兩個(gè)向量,再通過(guò)向量去定位對應的輸入音頻視頻流序列
好了,問(wèn)題來(lái)了,AI 唇讀本事這么大,到底會(huì )被用來(lái)干嘛?DT 君腦子里首先出現的畫(huà)面就是:“天網(wǎng)”默默監視著(zhù)全人類(lèi)的談話(huà),只要看看嘴型就知道你在說(shuō)什么……
雖然細思恐極,但專(zhuān)家說(shuō)了,說(shuō)到監聽(tīng)這事兒,與其如此大動(dòng)干戈,還不如超遠程監聽(tīng)麥克風(fēng)來(lái)得簡(jiǎn)單直接效果好。所以,目前來(lái)看,沒(méi)什么好害怕的。
相比之下,AI 唇讀技術(shù)更可能的應用方向是消費類(lèi)電子設備,可以讓設備知道用戶(hù)想要說(shuō)什么,哪怕不發(fā)出聲音。“動(dòng)動(dòng)嘴皮子”這種事兒搞不好會(huì )成為未來(lái)人機交互的常態(tài)。
來(lái)自牛津大學(xué) LipNet 研究團隊的Yannis Assael對此技術(shù)的評價(jià)是:“我們相信AI唇讀技術(shù)是一種非常實(shí)用的輔助性技術(shù),比如更智能的助聽(tīng)器、不便出聲的公共場(chǎng)合(Siri再也不用聽(tīng)見(jiàn)你的聲音了),以及在嘈雜環(huán)境下精準的語(yǔ)音識別等。”
最后,小編拿出彩蛋一枚,供各位測試唇讀之用。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
