谷歌的AI語(yǔ)音合成系統,幾乎與真人聲音無(wú)法區分?
對于完全相同的單詞,Tacotron 2可以根據語(yǔ)境來(lái)發(fā)音。它還可以根據標點(diǎn)符號的不同而有所區分,也可以在讀到大寫(xiě)單詞的時(shí)候加重語(yǔ)氣。
12月28日,據國外媒體WCCF Tech報道,谷歌表示,其最新版本人工智能(AI)語(yǔ)音合成系統Tacotron 2輸出的聲音幾乎與真人聲音無(wú)法區分。該系統是谷歌的第二代語(yǔ)音轉文本技術(shù),它有兩個(gè)神經(jīng)網(wǎng)絡(luò ),用于輸出完美的語(yǔ)音。
第一個(gè)深度神經(jīng)網(wǎng)絡(luò )負責將文本轉換成頻譜圖(以視覺(jué)方式呈現音頻頻率,通常是PDF格式),然后將這個(gè)頻譜圖載入到第二個(gè)深度神經(jīng)網(wǎng)絡(luò )WaveNet(來(lái)自Alphabet的AI研究實(shí)驗室DeepMind)中,WaveNet讀取頻譜圖并生成相似的音頻元素。
語(yǔ)音轉文本并不是一種新技術(shù),對于Mac用戶(hù)來(lái)說(shuō),它已經(jīng)存在了相當長(cháng)的一段時(shí)間。然而,谷歌聲稱(chēng)其文本轉語(yǔ)音技術(shù)優(yōu)于大多數,幾乎無(wú)法與人類(lèi)聲音區分開(kāi)來(lái)。
對于完全相同的單詞,Tacotron 2可以根據語(yǔ)境來(lái)發(fā)音。它還可以根據標點(diǎn)符號的不同而有所區分,也可以在讀到大寫(xiě)單詞的時(shí)候加重語(yǔ)氣。
在國際上,目前的智能語(yǔ)音技術(shù)格局已經(jīng)被Nuance、谷歌、蘋(píng)果、微軟等IT巨頭壟斷。在國內市場(chǎng),科大訊飛、百度、思必馳等智能語(yǔ)音解決方案也各顯特色,展現了較好的中文語(yǔ)音信息處理技術(shù)。
但是智能語(yǔ)音技術(shù)仍然有語(yǔ)義理解不夠深入,無(wú)法理解人類(lèi)講話(huà)習慣、音調、音速,無(wú)法理解上下文語(yǔ)境等痛點(diǎn)。
谷歌的文本到語(yǔ)音系統,聲稱(chēng)能夠將文本的意思準確理解、斷句,然后再準確的以語(yǔ)音形式輸出。如果谷歌Tacotron 2真如其所講的那樣輸出準確,與人類(lèi)聲音難以區分,此系統真可謂是個(gè)黑科技了。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
