IBM語(yǔ)言學(xué)家研發(fā)動(dòng)聽(tīng)的機器語(yǔ)言,提升用戶(hù)體驗

周彤 9年前 (2016-02-16)

有感情的計算機聲音最好聽(tīng)。

對于一個(gè)小說(shuō)愛(ài)好者而言,可以聽(tīng)小說(shuō)在十年之前可以說(shuō)是十分令人期待的事。那時(shí)候還是初中生的小編第一次從學(xué)習機中聽(tīng)到了小說(shuō),但是不可不說(shuō),聲音相當地機械,難聽(tīng)至極,毫無(wú)感情,一點(diǎn)聽(tīng)下去的欲望都沒(méi)有,之后就再也沒(méi)有想過(guò)讓機器“說(shuō)話(huà)”。

之后,慢慢地隨著(zhù)語(yǔ)音系統的發(fā)展,越來(lái)越多的設備加入了語(yǔ)音播報,直到現在人工智能設備幾乎可以和人使用語(yǔ)音進(jìn)行特定的交流。聲音的質(zhì)量也一直的改善,如何讓用戶(hù)聽(tīng)得舒服是工程師們不懈的追求。

2009年,六個(gè)IBM語(yǔ)言學(xué)家、工程師、營(yíng)銷(xiāo)人員聚在一起,一起思考人工智能程序Watson將文本轉換為語(yǔ)音時(shí)應該使用什么樣的聲音才會(huì )受到用戶(hù)的喜歡。進(jìn)過(guò)十八個(gè)月的努力,最終他們精心制作出了一款聲音,雖說(shuō)不是那么地人性化,但是也不像《2001太空漫游》中HAL 9000的聲音那么冰冷,也算是好聽(tīng)了。

語(yǔ)音系統已經(jīng)成為現在智能設備不可或缺的功能,人們需要語(yǔ)音控制來(lái)簡(jiǎn)化操作。當然這樣的設備已經(jīng)出現不少,越來(lái)越多的機器在學(xué)習聆聽(tīng)、理解、甚至是說(shuō)話(huà),直接通過(guò)語(yǔ)音和人進(jìn)行交流。汽車(chē)、玩具、家電等都已經(jīng)家入其中,比如家庭陪伴機器人Pepper和Jibo,亞馬遜的語(yǔ)音設備Echo等等。

像這樣可以理解人類(lèi)語(yǔ)音命令并且做出回應的軟件一般被叫做“會(huì )話(huà)代理”,在不斷開(kāi)發(fā)的過(guò)程當中,還發(fā)明了新的技術(shù)——人機交互設計,不僅僅是科學(xué)性上的極大進(jìn)步,更體現了濃濃的藝術(shù)性。

現在已經(jīng)很普遍的語(yǔ)音播報就是天氣預報和交通導航,即使做得再人性化也很難和人的聲音一模一樣,這其中的關(guān)鍵就是語(yǔ)調和情緒的表現,或是說(shuō)韻律的展示,但是想讓人工智能表現出和人一樣豐富的情緒,對于現在的技術(shù)而言還幾乎是不可能的事情。

合成語(yǔ)音的方法有很多,要想效果達到最好,就需要使用人類(lèi)語(yǔ)言,生成擁有很多不同說(shuō)話(huà)方式的數據庫,每個(gè)數據庫都保存有人類(lèi)配音數十至上百小時(shí),盡可能多的擁有更為豐富的素材。

在電影《她》當中,男主角就愛(ài)上了人工智能Samantha,他們之間正是通過(guò)這種語(yǔ)音來(lái)交流的。其中電影里面也充分體現了計算機語(yǔ)言加入情緒的重要性以及困難程度。

IBM語(yǔ)言學(xué)家研發(fā)動(dòng)聽(tīng)的機器語(yǔ)言,提升用戶(hù)體驗1

現代語(yǔ)音合成技術(shù)的奠基人、蘇格蘭計算機科學(xué)家、卡內基梅隆大學(xué)語(yǔ)言技術(shù)研究所教授A(yíng)lan Black表示:即使現在語(yǔ)音合成系統已經(jīng)取得了巨大的進(jìn)步,但是依舊不能夠像人類(lèi)那樣完美,是做不到像人類(lèi)一樣“帶著(zhù)感情說(shuō)話(huà)”的。

當然對于一些玩具或是娛樂(lè )產(chǎn)品的公司來(lái)講,語(yǔ)音系統不完善并不能造成什么影響,只要達到娛樂(lè )效果就可以了。但是對于一些需要以此作為聯(lián)系,與人類(lèi)進(jìn)行合作或是工作的語(yǔ)音系統來(lái)講,就是一個(gè)需要解決的極大困難了。

對此,IBM制作了一個(gè)電視廣告,作曲家鮑勃·迪倫和Watson同時(shí)出鏡,但是當Watson一開(kāi)口時(shí),鮑勃·迪倫就嚇得退場(chǎng)了,因為人工智能的聲音實(shí)在是太恐怖了。IBM此舉就是想告訴人們,他們的目標就是并不需要機器語(yǔ)言那么地像人類(lèi),但是也不能過(guò)于嚇人,過(guò)于難聽(tīng),達到這樣的程度就可以了。

IBM研究院的研究員Andy Aaron表示:機器的出錯率依舊是最大的挑戰,團隊的部分成員在一年多的時(shí)間中建立了一個(gè)非常龐大的正確發(fā)音的數據庫,才能正確地讀出單詞,將出錯率最大程度地降低至零。

曾經(jīng),IBM還專(zhuān)門(mén)聘請過(guò)25名配音員,專(zhuān)門(mén)尋找那種很特別的人類(lèi)聲音,在這個(gè)基礎上再來(lái)開(kāi)發(fā)Watson的語(yǔ)音系統。在挑選出最合適的聲音之后再進(jìn)行調整,甚至是提升頻率,最終有點(diǎn)像小孩子的聲音,不過(guò)這個(gè)有個(gè)性的聲音最后遭到了一致反對。

其實(shí)最想要的聲音就是那種緩慢、平穩而令人愉悅的聲音,這使得工程師的工作更像是藝術(shù)家,必須使得最終得出的聲音即使一聽(tīng)就聽(tīng)出來(lái)是計算機的聲音,但是卻透露這樂(lè )觀(guān)、還包含著(zhù)活潑,這才是最好聽(tīng)的。

隨著(zhù)計算機語(yǔ)音技術(shù)的不斷發(fā)展,應用范圍肯定會(huì )越來(lái)越廣。以色列公司Imperson之前一直做的都是娛樂(lè )型的對話(huà)角色,現在正在往政治方向發(fā)展,比如讓虛擬競選者和民眾進(jìn)行互動(dòng)對話(huà),即使都知道是假的,但是依舊會(huì )讓民眾產(chǎn)生親切感。

聲音的大小、質(zhì)感等都會(huì )在無(wú)形當中產(chǎn)生很大的影響,將聲音做到“好聽(tīng)”,無(wú)疑會(huì )給產(chǎn)品本身增色不少,我們期待更好的語(yǔ)音系統,更動(dòng)聽(tīng)的聲音。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到