DeepMind再現黑科技:讓人工智能變身“作曲家”
時(shí)隔多日,DeepMind終于出新產(chǎn)品了。
昨天,Google的DeepMind研究實(shí)驗室公布了一項最新成果——WaveNet。這是一項語(yǔ)音合成系統,它能夠模仿人類(lèi)的聲音,且生成的原始音頻質(zhì)量?jì)?yōu)于目前的文本轉語(yǔ)音系統(text to speech,簡(jiǎn)稱(chēng)TTS)。
在過(guò)去幾年,深度神經(jīng)網(wǎng)絡(luò )的應用大幅度提高了計算機自然語(yǔ)言理解能力。然而,運用計算機生成語(yǔ)音(語(yǔ)音合成,或者TTS系統)仍然主要依靠拼接式TTS——先錄制單一說(shuō)話(huà)者的大量語(yǔ)音片段,建立一個(gè)大型數據庫,然后將語(yǔ)音片段合成完整的話(huà)語(yǔ)。這種語(yǔ)音合成方式不僅過(guò)程繁瑣,也很難對聲音加以修飾,從而無(wú)法表達強調或者情感。而這一難題的解決則需要運用一種參量改頻式(Parametric)TTS。
在這種TTS系統中,生成數據所需要的所有信息被存儲于模型的參數中,語(yǔ)音所傳達的內容及語(yǔ)音特征可以通過(guò)模型的輸入信息得以控制。然而,目前參量改頻式TTS生成的語(yǔ)音聽(tīng)起來(lái)還不如拼接式TTS模型生成的語(yǔ)音自然?,F有的參量改頻式模型通常將輸出的信息交給信號處理算法處理,從而生成音頻信號。
WaveNet的出現改變了這種方式,它直接用音頻信號的原始波形建模,并且是一次處理一個(gè)樣本。通過(guò)這種方式生成的語(yǔ)音不但聽(tīng)起來(lái)更加自然,而且使用原始波形還能為任何聲音建模,包括模仿任何人的聲音,還能生成音樂(lè )。在測試中,WaveNet通過(guò)分析古典音樂(lè ),生成了一段鋼琴曲。
不過(guò),雖然DeepMind宣稱(chēng),通過(guò)人耳測試,該技術(shù)使得模擬生成的語(yǔ)音與人類(lèi)聲音之間的差異縮小了一半。但是,由于WaveNet需要強大的計算能力,近期也無(wú)法應用到真實(shí)世界場(chǎng)景。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
