聲紋識別在智能家居中備受青睞,但還面臨一些“困擾”
在智能家居領(lǐng)域,語(yǔ)音識別的熱潮正悄然平息,聲紋識別接替而上。
近日,根據調查機構CIRP的報告顯示,亞馬遜在2014年11月推出的Echo系列智能音箱產(chǎn)品在美銷(xiāo)量已突破510萬(wàn)臺。并且,根據市場(chǎng)數據,CIRP推算2016年前九個(gè)月亞馬遜就已經(jīng)售出200萬(wàn)臺Echo產(chǎn)品(包括Echo DotEcho Tap)。
看到亞馬遜的智能音箱銷(xiāo)量如此之好,我們都意識了智能家居語(yǔ)音控制系統的前景之利好。不過(guò),即使當前的語(yǔ)音識別技術(shù)已經(jīng)基本上達到了人們所需要的標準,在智能家居語(yǔ)音控制系統之中,仍然有一些瑕疵的存在,比如在人聲嘈雜的環(huán)境里,如何正確識別出用戶(hù)發(fā)出的命令。
出于需求,聲紋識別是智能家居的一個(gè)補充
當前,盡管智能家居語(yǔ)音控制系統已經(jīng)滿(mǎn)足了人們的基本需求,不過(guò),仍然有一些小小的不足,而這方面,就需要聲紋識別技術(shù)進(jìn)行補充了。
借助聲紋識別,進(jìn)一步提升用戶(hù)體驗。以智能音箱為例,為了更好的進(jìn)行定位、捕捉聲音、以及降低無(wú)關(guān)噪音的影響,開(kāi)發(fā)者們會(huì )采用多麥克風(fēng)的形式,不過(guò),一旦處于人聲鼎沸的環(huán)境之中,智能音響的語(yǔ)音識別系統極有可能“罷工”,因為它很難從眾多聲音中準確的識別出下命令的用戶(hù)。
在智能家居之中,大多家庭往往只買(mǎi)一個(gè)智能音箱。打個(gè)比方,當聲紋識別技術(shù)發(fā)展較為成熟之時(shí),若一位家庭成員呼喚音箱打開(kāi)自己房間的燈,語(yǔ)音控制系統就能通過(guò)聲紋識別技術(shù)確認說(shuō)話(huà)人的身份,從而準確的打開(kāi)說(shuō)話(huà)人房間的燈。由此,在體驗上,不管是從眾多人聲中準確辨認用戶(hù),還是確認說(shuō)話(huà)人的身份,聲紋識別都能讓用戶(hù)體驗進(jìn)一步的提升。
搭載聲紋識別,提高家庭安全指數。由于不能確認說(shuō)話(huà)人的身份,只要條件允許,當非用戶(hù)下達命令之時(shí),語(yǔ)音控制系統極有可能會(huì )執行。
舉個(gè)例子,有人非法入侵住宅,若語(yǔ)音控制系統不限制說(shuō)話(huà)人的身份,縱然有著(zhù)智能監控系統,闖入者完全可以直接下命令關(guān)閉監控系統,如此一來(lái),闖入者就成功的得到了住宅的臨時(shí)控制權。當搭載聲紋識別技術(shù),基于聲紋的獨特性,再不能識別出闖入者身份的前提下,語(yǔ)音控制系統就能接著(zhù)進(jìn)行報警等一系列安防措施。
備受青睞,聲紋識別仍有“困擾”
如今,在智能家居領(lǐng)域,語(yǔ)言識別已經(jīng)充分的體現了自己的價(jià)值,緊接著(zhù),隨著(zhù)語(yǔ)音識別熱潮的過(guò)去,聲紋識別又成為了新的熱門(mén),被稱(chēng)為智能家居未來(lái)發(fā)展的關(guān)鍵,或是語(yǔ)音交互的下一個(gè)風(fēng)口。且不論它在智能家居領(lǐng)域的未來(lái)發(fā)展如何,就目前而言,其想在智能家居領(lǐng)域真正落地,還需解決一些困擾。
首先是聲紋的采集和特征的建立。不管是人工識別,還是依靠深度學(xué)習算法進(jìn)行自動(dòng)化識別,聲紋庫的建立都是進(jìn)行一切行動(dòng)的前提。當前,公安的聲紋鑒別庫應該是最全的,不過(guò),企業(yè)要想研究聲紋識別,從公安處入手顯然行不通,因而,聲紋庫的建立就依賴(lài)于企業(yè)自行收集,這是一件相當艱難的任務(wù)。
不同于人類(lèi)的雙耳,機器的識別都是在數以百萬(wàn)、千萬(wàn)計的數據訓練中不斷改善的,可以說(shuō),如果沒(méi)有足夠的數據支持,就沒(méi)有如今的語(yǔ)音識別等人工智能技術(shù)的突破。對于企業(yè)而言,想要訓練聲紋識別算法,他們所需的不僅僅是語(yǔ)音數據,還需要特征多樣化的語(yǔ)音數據,像方言、口音等等,如此才能全方面的對聲紋識別算法進(jìn)行訓練。
除了聲紋的采集,聲紋特征的建立也是當前聲紋識別進(jìn)展的一個(gè)難題。理論上來(lái)講,聲紋就像指紋一樣,很少會(huì )有兩個(gè)人具有相同的聲紋特征。雖說(shuō)如此,但正如雙胞胎一般,有些聲紋極其相似,可能只存在一丟丟的差異,這時(shí),找出特征就成了一件相當具有難度的事。當然,你或許會(huì )說(shuō)這部分可以由計算機完成,的確,依計算機的運算速度,該工作的完成還是相當不費吹灰之力的。不過(guò),在特征建立工作中,這里又再次回到了上一個(gè)話(huà)題,沒(méi)有充足的聲紋庫,又如何建立足夠的聲紋特征?
其次,除了聲紋的采集和特征的建立,如何準確識別說(shuō)話(huà)人也是當前一個(gè)急需解決的問(wèn)題。不僅僅是靜態(tài)檢測,現在的聲紋識別更多的是被要求進(jìn)行實(shí)時(shí)動(dòng)態(tài)監測,因而,說(shuō)話(huà)環(huán)境、說(shuō)話(huà)人身體狀況、情緒變化等都能對聲紋識別的結果造成影響。
以說(shuō)話(huà)人本身的狀況為例,用iPhone 7上Siri的聲紋識別做實(shí)驗,在提前保存聲紋數據的基礎上,鎂客君的小伙伴分別以正常、加粗、尖細的聲音喚醒Siri,結果證明,只有正常的語(yǔ)音狀態(tài)下,Siri才能被喚醒,其他則是毫無(wú)反應。對照該結果,我們可以總結,只要說(shuō)話(huà)人的聲音出現狀況,比如沙啞、情緒化等等,聲紋識別系統就不能將之與庫中的聲紋對上號,從而不能確認說(shuō)話(huà)人的身份。
正如當前人們所言,在語(yǔ)音識別之后,聲紋識別成了智能家居的又一個(gè)關(guān)注點(diǎn)。然而,聲紋庫、特征的建立以及提高準確率也不是一朝一夕可以完成的,就比如語(yǔ)音識別,縱然準確率已經(jīng)接近百分之百,但若周遭環(huán)境嘈雜,其準確率就差強人意了。因而,在智能家居領(lǐng)域內備受青睞的聲紋識別,其距離應用的日子還有一段路要走!
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
