人工智能的黎明:混戰中的語(yǔ)音識別
情感合成、遠場(chǎng)方案、喚醒二期技術(shù)和長(cháng)語(yǔ)音方案……這些聽(tīng)起來(lái)有些陌生的技術(shù),未來(lái)將可能改變我們的生活。
語(yǔ)音技術(shù)作為人機交互方式的入口,是人工智能重要的一環(huán)。不只是BAT,搜狗、科大訊飛等也在加速智能語(yǔ)音的布局,不少?lài)@AI的創(chuàng )業(yè)團隊如云知聲也都將語(yǔ)音作為探索人工智能的方向]
情感合成、遠場(chǎng)方案、喚醒二期技術(shù)和長(cháng)語(yǔ)音方案……這些聽(tīng)起來(lái)有些陌生的技術(shù),未來(lái)將可能改變我們的生活。
11月22日,百度公司首席科學(xué)家吳恩達在談到百度語(yǔ)音技術(shù)的最新進(jìn)展時(shí),對外介紹了百度這四項語(yǔ)音技術(shù),并宣布將免費開(kāi)放給用戶(hù)和開(kāi)發(fā)者。
“我們已經(jīng)站在人工智能的黎明。”吳恩達對媒體作出樂(lè )觀(guān)的預測,他希望通過(guò)開(kāi)放人工智能技術(shù),讓每個(gè)人都能更容易地開(kāi)發(fā)出“智應用”。
不過(guò),站在“黎明”的人工智能何時(shí)能有“質(zhì)”的跨越,或許還需時(shí)日。一個(gè)細節是,在接受記者采訪(fǎng)的會(huì )議室里,吳恩達座位不遠處還是坐了一位實(shí)時(shí)整理文字的速記人員。
智能語(yǔ)音:已超正常人類(lèi)的識別能力
事實(shí)上,開(kāi)放語(yǔ)音API(應用程序編程接口)已經(jīng)成為行業(yè)趨勢。
今年3月時(shí),谷歌在Next云計算大會(huì )上發(fā)布了面向開(kāi)發(fā)者的新機器學(xué)習平臺,并開(kāi)放語(yǔ)音識別的API,即谷歌語(yǔ)音搜索和語(yǔ)音輸入的支持技術(shù)。GoogleCloudSPeechAPI一開(kāi)始將免費提供,以后再進(jìn)行收費。這一應用包括了80多種語(yǔ)言,適用于各種實(shí)時(shí)語(yǔ)音識別與翻譯應用。
在開(kāi)放背后,互聯(lián)網(wǎng)公司希望借此推動(dòng)智能語(yǔ)音模型的進(jìn)一步演進(jìn)和智能語(yǔ)音技術(shù)的快速普及。
對于百度公布的四項語(yǔ)音技術(shù),吳恩達說(shuō),目前百度還沒(méi)有收費的計劃,這些技術(shù)旨在解決用戶(hù)在使用語(yǔ)音交互的場(chǎng)合時(shí),普遍感到困擾的一些關(guān)鍵問(wèn)題。“目前的語(yǔ)音識別已經(jīng)超過(guò)了正常人的語(yǔ)音識別能力。”
以情感合成為例,主要是基于深度學(xué)習和大數據處理技術(shù),在數據采集、處理、建模等環(huán)節進(jìn)行一系列創(chuàng )新,實(shí)現更富有表現力的自然朗讀效果。
讀者甘肅數碼科技有限公司總經(jīng)理金大時(shí)告訴記者,目前“讀者數字農家書(shū)屋”在甘肅慶陽(yáng)市試點(diǎn),根據百度大數據合成情感語(yǔ)音實(shí)現書(shū)籍有聲閱讀,讓很多不識字的老年人和留守兒童也享受到了閱讀的樂(lè )趣。
而遠場(chǎng)方案技術(shù)則是百度自主研發(fā)的遠場(chǎng)識別技術(shù),基于麥克風(fēng)陣列,利用麥克風(fēng)陣列束形成、語(yǔ)音增強、回聲消除、聲源定位等技術(shù)綜合實(shí)現高準確率遠場(chǎng)識別。
百度稱(chēng),開(kāi)發(fā)者可以通過(guò)這一新的技術(shù)接口,使語(yǔ)音識別距離增加到3~5米,設備的語(yǔ)音喚醒率提升到95%以上,或解決長(cháng)時(shí)間語(yǔ)音識別的準確率問(wèn)題。這將為語(yǔ)音技術(shù)帶來(lái)遠比現在更多的想象空間,而不只是遙控電視或解鎖手機。
例如,百度在上??系禄炫灥晖度胧褂玫?ldquo;小度機器人人機語(yǔ)音交互點(diǎn)餐”,可遠距離隨時(shí)應答點(diǎn)餐。
百度語(yǔ)音喚醒技術(shù),主要是通過(guò)通用喚醒詞解析、大數據聲學(xué)模型、雙層解碼等技術(shù)優(yōu)化,喚醒率達95%,支持用戶(hù)自定義喚醒詞。喚醒二期加入指令喚醒,優(yōu)化喚醒和識別性能。
長(cháng)語(yǔ)音技術(shù)則在LSTM(LongShort-TermMemory,一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò ))音頻切分技術(shù)、深度學(xué)習預測停頓、說(shuō)話(huà)人自適應、智能糾錯等方面技術(shù)突破。這意味著(zhù)它將在方便語(yǔ)音輸入、內容記錄、智能客服、視頻轉寫(xiě)等應用場(chǎng)景表現出想象空間。
這也令來(lái)到中國的斯坦福大學(xué)的人工智能專(zhuān)家JamesLanday感慨:“近兩年,受益于大數據和深度學(xué)習技術(shù)的不斷發(fā)展,語(yǔ)音識別技術(shù)突飛猛進(jìn),速度及準確性都有了長(cháng)足進(jìn)步。”
智能語(yǔ)音混戰
語(yǔ)音技術(shù)作為人機交互方式的入口,是人工智能重要的一環(huán)。不只是BAT(百度、阿里巴巴、騰訊),搜狗、科大訊飛等也在加速智能語(yǔ)音的布局,不少?lài)@AI的創(chuàng )業(yè)團隊如云知聲也都將語(yǔ)音作為探索人工智能的方向。
要想順利進(jìn)入這一領(lǐng)域,需要的是多年的技術(shù)與經(jīng)驗積累。
吳恩達告訴表示,語(yǔ)音識別技術(shù)非常復雜,最難的是核心技術(shù)的提升,例如識別率的提升,幾年前語(yǔ)音識別率還只有80%多,當時(shí)用起來(lái)還是相當困難;還有大數據語(yǔ)音合成等,現在的目標是如何才能遠遠超過(guò)人類(lèi)的識別能力。此外,百度語(yǔ)音識別97%的準確率是在比較安靜的環(huán)境下達到的目標,在噪音干擾的情況下如何提升識別率,百度還有工作要做。
除了百度之外,可以看到的是,今年9月,騰訊云技術(shù)團隊和微信AI團隊開(kāi)放微信語(yǔ)音處理技術(shù),推出了智能語(yǔ)音服務(wù)。在語(yǔ)音識別、語(yǔ)音合成、聲紋識別等功能上提供了垂直領(lǐng)域定制化的語(yǔ)音產(chǎn)品。阿里的人工智能系統,已具備智能語(yǔ)音交互、圖像識別、交通預測、情感分析等功能。
在語(yǔ)音識別領(lǐng)域,搜狗CEO王小川在不久前的世界互聯(lián)網(wǎng)大會(huì )上透露,搜狗輸入法一天處理的語(yǔ)音輸入請求達到1.9億次,產(chǎn)生超過(guò)16萬(wàn)小時(shí)的語(yǔ)音數據。在龐大的用戶(hù)基礎和數據積累后,可以把語(yǔ)音輸入做到更極致的狀態(tài),如語(yǔ)音合成、聲紋識別等。
公開(kāi)資料顯示,在技術(shù)指標方面,百度語(yǔ)音識別、搜狗輸入法語(yǔ)音識別、訊飛輸入法語(yǔ)音識別準確率達到97%,騰訊云智能語(yǔ)音識別技術(shù)在通用領(lǐng)域中準確率達95%。
在投資人士看來(lái),智能語(yǔ)音仍是一個(gè)好的投資機會(huì )。此前,峰瑞資本早期項目負責人朱祎舟提到,盡管各家根據實(shí)驗數據得出的語(yǔ)音識別準確率達到95%甚至更高,但在實(shí)際使用時(shí)并沒(méi)有那么高,前端的語(yǔ)音/聲學(xué)交互的很多問(wèn)題如果得不到解決,整體的體驗始終不夠好;而包括家居、車(chē)載、可穿戴設備、機器人等大量智能終端的爆發(fā),智能語(yǔ)音將變得更加友好和重要。
在IBM前全球副總裁、賽伯樂(lè )投資集團總裁王陽(yáng)看來(lái),未來(lái)人工智能在醫療、無(wú)人駕駛、金融、零售、安防、個(gè)人助理等七個(gè)領(lǐng)域有強大的應用空間。他提到,人工智能個(gè)人助理目前普遍應用于智能手機上的語(yǔ)音助理,語(yǔ)音輸入、家庭管家等,最終是在收集消費者的消費習慣,從而提供各類(lèi)服務(wù)。
ResearchandMarkets研究報告顯示,預計2016年全球智能語(yǔ)音產(chǎn)業(yè)規??蛇_82.3億美元以上,到2020年,全球語(yǔ)音市場(chǎng)規模預計將達到191.7億美元。
【編者按】本文轉載自全球人工智能
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
