揭秘Siri,蘋(píng)果發(fā)布論文闡釋語(yǔ)音助手設計想法
就多任務(wù)處理、多語(yǔ)言識別等問(wèn)題,蘋(píng)果在論文中給出了自己不同的想法。
最近,蘋(píng)果發(fā)布了一系列論文來(lái)闡釋語(yǔ)音助手的重要工作機理,公開(kāi)揭秘Siri,向業(yè)界貢獻了自己在設計上的不同想法。
在第一篇論文中,蘋(píng)果就語(yǔ)音助手中的多任務(wù)處理問(wèn)題進(jìn)行了闡釋?zhuān)?/strong>它指出在Siri中,喚醒處理通常需要兩個(gè)步驟:AI首先必須確定輸入音頻中的語(yǔ)音內容是否與觸發(fā)短語(yǔ)的語(yǔ)音內容匹配(語(yǔ)音觸發(fā)檢測),然后必須確定說(shuō)話(huà)者的語(yǔ)音是否與一個(gè)或多個(gè)注冊用戶(hù)的語(yǔ)音相匹配(說(shuō)話(huà)者驗證)。一般方法是將兩項任務(wù)分別來(lái)處理,蘋(píng)果則認為可以用一個(gè)神經(jīng)網(wǎng)絡(luò )模型同時(shí)解決兩項任務(wù),同時(shí)它表示,經(jīng)過(guò)驗證,該方法各方面性能可以達到預期。
在該論文中,研究人員給出了模型示例。他們在包含16000小時(shí)帶注釋樣本的數據集中訓練了基于兩種思路下設計的模型,其中5000小時(shí)的音頻帶有語(yǔ)音標簽,其余均只有揚聲器標簽。相比于一般訓練模型去獲取多個(gè)標簽的思路,蘋(píng)果通過(guò)將不同任務(wù)的訓練數據進(jìn)行級聯(lián)來(lái)訓練多個(gè)相關(guān)任務(wù)的模型。結果發(fā)現,在性能表現相同的情況下,蘋(píng)果新提出的模型反而更適合應用,它能夠在兩個(gè)任務(wù)之間共享計算,大大節省了設備上的內存空間,同時(shí)計算時(shí)間或等待時(shí)間以及所消耗的電量/電池數量都將降低。
在另一篇論文中,蘋(píng)果還介紹了多語(yǔ)言演講場(chǎng)景的演講者識別系統設計——知識圖譜輔助聽(tīng)寫(xiě)系統決策。以聲學(xué)子模型為例,它可以基于語(yǔ)音信號傳輸痕跡來(lái)進(jìn)行預測,并且其上下文感知的預測組件考慮了各種交互上下文信號,其中上下文信號包含有關(guān)發(fā)出命令的條件信息、已安裝的命令語(yǔ)言環(huán)境、當前選擇的命令語(yǔ)言環(huán)境以及用戶(hù)在發(fā)出請求之前是否切換命令語(yǔ)言環(huán)境的信息。
結果顯示,這一設計的優(yōu)勢在于,它們可以在語(yǔ)音信號太短而無(wú)法通過(guò)聲學(xué)模型產(chǎn)生可靠預測的情況下提供幫助。
此外,蘋(píng)果還提出了一項補充研究,緩解錯誤觸發(fā)問(wèn)題,即忽略不適合語(yǔ)音助手(Siri)的語(yǔ)音?;趫D結構設計AI模型的思路,研究人員提出了一種圖神經(jīng)網(wǎng)絡(luò )(GNN),其中每個(gè)節點(diǎn)都與標簽相連。結果顯示,該模型減少了87%的錯誤觸發(fā)。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
