搜索

人工智能的黎明：混戰中的語(yǔ)音識別

鎂客 9年前 (2016-11-24)

情感合成、遠場(chǎng)方案、喚醒二期技術(shù)和長(cháng)語(yǔ)音方案……這些聽(tīng)起來(lái)有些陌生的技術(shù)，未來(lái)將可能改變我們的生活。

語(yǔ)音技術(shù)作為人機交互方式的入口，是人工智能重要的一環(huán)。不只是BAT，搜狗、科大訊飛等也在加速智能語(yǔ)音的布局，不少?lài)@AI的創(chuàng )業(yè)團隊如云知聲也都將語(yǔ)音作為探索人工智能的方向]

人工智能的黎明：混戰中的語(yǔ)音識別

情感合成、遠場(chǎng)方案、喚醒二期技術(shù)和長(cháng)語(yǔ)音方案……這些聽(tīng)起來(lái)有些陌生的技術(shù)，未來(lái)將可能改變我們的生活。

11月22日，百度公司首席科學(xué)家吳恩達在談到百度語(yǔ)音技術(shù)的最新進(jìn)展時(shí)，對外介紹了百度這四項語(yǔ)音技術(shù)，并宣布將免費開(kāi)放給用戶(hù)和開(kāi)發(fā)者。

“我們已經(jīng)站在人工智能的黎明。”吳恩達對媒體作出樂(lè )觀(guān)的預測，他希望通過(guò)開(kāi)放人工智能技術(shù)，讓每個(gè)人都能更容易地開(kāi)發(fā)出“智應用”。

不過(guò)，站在“黎明”的人工智能何時(shí)能有“質(zhì)”的跨越，或許還需時(shí)日。一個(gè)細節是，在接受記者采訪(fǎng)的會(huì )議室里，吳恩達座位不遠處還是坐了一位實(shí)時(shí)整理文字的速記人員。

智能語(yǔ)音：已超正常人類(lèi)的識別能力

人工智能的黎明：混戰中的語(yǔ)音識別

事實(shí)上，開(kāi)放語(yǔ)音API（應用程序編程接口）已經(jīng)成為行業(yè)趨勢。

今年3月時(shí)，谷歌在Next云計算大會(huì )上發(fā)布了面向開(kāi)發(fā)者的新機器學(xué)習平臺，并開(kāi)放語(yǔ)音識別的API，即谷歌語(yǔ)音搜索和語(yǔ)音輸入的支持技術(shù)。GoogleCloudSPeechAPI一開(kāi)始將免費提供，以后再進(jìn)行收費。這一應用包括了80多種語(yǔ)言，適用于各種實(shí)時(shí)語(yǔ)音識別與翻譯應用。

在開(kāi)放背后，互聯(lián)網(wǎng)公司希望借此推動(dòng)智能語(yǔ)音模型的進(jìn)一步演進(jìn)和智能語(yǔ)音技術(shù)的快速普及。

對于百度公布的四項語(yǔ)音技術(shù)，吳恩達說(shuō)，目前百度還沒(méi)有收費的計劃，這些技術(shù)旨在解決用戶(hù)在使用語(yǔ)音交互的場(chǎng)合時(shí)，普遍感到困擾的一些關(guān)鍵問(wèn)題。“目前的語(yǔ)音識別已經(jīng)超過(guò)了正常人的語(yǔ)音識別能力。”

以情感合成為例，主要是基于深度學(xué)習和大數據處理技術(shù)，在數據采集、處理、建模等環(huán)節進(jìn)行一系列創(chuàng )新，實(shí)現更富有表現力的自然朗讀效果。

讀者甘肅數碼科技有限公司總經(jīng)理金大時(shí)告訴記者，目前“讀者數字農家書(shū)屋”在甘肅慶陽(yáng)市試點(diǎn)，根據百度大數據合成情感語(yǔ)音實(shí)現書(shū)籍有聲閱讀，讓很多不識字的老年人和留守兒童也享受到了閱讀的樂(lè )趣。

而遠場(chǎng)方案技術(shù)則是百度自主研發(fā)的遠場(chǎng)識別技術(shù)，基于麥克風(fēng)陣列，利用麥克風(fēng)陣列束形成、語(yǔ)音增強、回聲消除、聲源定位等技術(shù)綜合實(shí)現高準確率遠場(chǎng)識別。

百度稱(chēng)，開(kāi)發(fā)者可以通過(guò)這一新的技術(shù)接口，使語(yǔ)音識別距離增加到3~5米，設備的語(yǔ)音喚醒率提升到95%以上，或解決長(cháng)時(shí)間語(yǔ)音識別的準確率問(wèn)題。這將為語(yǔ)音技術(shù)帶來(lái)遠比現在更多的想象空間，而不只是遙控電視或解鎖手機。

例如，百度在上?？系禄炫灥晖度胧褂玫?ldquo;小度機器人人機語(yǔ)音交互點(diǎn)餐”，可遠距離隨時(shí)應答點(diǎn)餐。

百度語(yǔ)音喚醒技術(shù)，主要是通過(guò)通用喚醒詞解析、大數據聲學(xué)模型、雙層解碼等技術(shù)優(yōu)化，喚醒率達95%，支持用戶(hù)自定義喚醒詞。喚醒二期加入指令喚醒，優(yōu)化喚醒和識別性能。

長(cháng)語(yǔ)音技術(shù)則在LSTM（LongShort-TermMemory，一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò )）音頻切分技術(shù)、深度學(xué)習預測停頓、說(shuō)話(huà)人自適應、智能糾錯等方面技術(shù)突破。這意味著(zhù)它將在方便語(yǔ)音輸入、內容記錄、智能客服、視頻轉寫(xiě)等應用場(chǎng)景表現出想象空間。

這也令來(lái)到中國的斯坦福大學(xué)的人工智能專(zhuān)家JamesLanday感慨：“近兩年，受益于大數據和深度學(xué)習技術(shù)的不斷發(fā)展，語(yǔ)音識別技術(shù)突飛猛進(jìn)，速度及準確性都有了長(cháng)足進(jìn)步。”

智能語(yǔ)音混戰

人工智能的黎明：混戰中的語(yǔ)音識別

語(yǔ)音技術(shù)作為人機交互方式的入口，是人工智能重要的一環(huán)。不只是BAT（百度、阿里巴巴、騰訊），搜狗、科大訊飛等也在加速智能語(yǔ)音的布局，不少?lài)@AI的創(chuàng )業(yè)團隊如云知聲也都將語(yǔ)音作為探索人工智能的方向。

要想順利進(jìn)入這一領(lǐng)域，需要的是多年的技術(shù)與經(jīng)驗積累。

吳恩達告訴表示，語(yǔ)音識別技術(shù)非常復雜，最難的是核心技術(shù)的提升，例如識別率的提升，幾年前語(yǔ)音識別率還只有80%多，當時(shí)用起來(lái)還是相當困難；還有大數據語(yǔ)音合成等，現在的目標是如何才能遠遠超過(guò)人類(lèi)的識別能力。此外，百度語(yǔ)音識別97%的準確率是在比較安靜的環(huán)境下達到的目標，在噪音干擾的情況下如何提升識別率，百度還有工作要做。

除了百度之外，可以看到的是，今年9月，騰訊云技術(shù)團隊和微信AI團隊開(kāi)放微信語(yǔ)音處理技術(shù)，推出了智能語(yǔ)音服務(wù)。在語(yǔ)音識別、語(yǔ)音合成、聲紋識別等功能上提供了垂直領(lǐng)域定制化的語(yǔ)音產(chǎn)品。阿里的人工智能系統，已具備智能語(yǔ)音交互、圖像識別、交通預測、情感分析等功能。

在語(yǔ)音識別領(lǐng)域，搜狗CEO王小川在不久前的世界互聯(lián)網(wǎng)大會(huì )上透露，搜狗輸入法一天處理的語(yǔ)音輸入請求達到1.9億次，產(chǎn)生超過(guò)16萬(wàn)小時(shí)的語(yǔ)音數據。在龐大的用戶(hù)基礎和數據積累后，可以把語(yǔ)音輸入做到更極致的狀態(tài)，如語(yǔ)音合成、聲紋識別等。

公開(kāi)資料顯示，在技術(shù)指標方面，百度語(yǔ)音識別、搜狗輸入法語(yǔ)音識別、訊飛輸入法語(yǔ)音識別準確率達到97%，騰訊云智能語(yǔ)音識別技術(shù)在通用領(lǐng)域中準確率達95%。

在投資人士看來(lái)，智能語(yǔ)音仍是一個(gè)好的投資機會(huì )。此前，峰瑞資本早期項目負責人朱祎舟提到，盡管各家根據實(shí)驗數據得出的語(yǔ)音識別準確率達到95%甚至更高，但在實(shí)際使用時(shí)并沒(méi)有那么高，前端的語(yǔ)音/聲學(xué)交互的很多問(wèn)題如果得不到解決，整體的體驗始終不夠好；而包括家居、車(chē)載、可穿戴設備、機器人等大量智能終端的爆發(fā)，智能語(yǔ)音將變得更加友好和重要。

在IBM前全球副總裁、賽伯樂(lè )投資集團總裁王陽(yáng)看來(lái)，未來(lái)人工智能在醫療、無(wú)人駕駛、金融、零售、安防、個(gè)人助理等七個(gè)領(lǐng)域有強大的應用空間。他提到，人工智能個(gè)人助理目前普遍應用于智能手機上的語(yǔ)音助理，語(yǔ)音輸入、家庭管家等，最終是在收集消費者的消費習慣，從而提供各類(lèi)服務(wù)。

ResearchandMarkets研究報告顯示，預計2016年全球智能語(yǔ)音產(chǎn)業(yè)規?？蛇_82.3億美元以上，到2020年，全球語(yǔ)音市場(chǎng)規模預計將達到191.7億美元。

【編者按】本文轉載自全球人工智能

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

鎂客訂閱者

鎂客訂閱者

4069篇

文章總數

最新文章

2019網(wǎng)絡(luò )安全合規和數據保護實(shí)踐國際峰會(huì )

從滿(mǎn)足到超預期，兒童智能硬件如何探索最佳用戶(hù)體驗

擁抱數據浪潮，引領(lǐng)未來(lái)風(fēng)向|2019大數據產(chǎn)業(yè)峰會(huì )圓滿(mǎn)落幕

創(chuàng )米科技推出1099元智能門(mén)鎖C1，正式開(kāi)啟“全屋安全”智能時(shí)代

助力文化產(chǎn)業(yè)升級極客網(wǎng)“文化產(chǎn)業(yè)新星計劃”盛大開(kāi)啟

janpanese日本护士tube_色欲久久久天天天_国产精品国产三级区别第一集_一色屋任你精品亚洲香蕉