讓失聲群體重獲“新聲”,腦機接口領(lǐng)域現重大突破
研究團隊研發(fā)出一款解碼器,能夠利用人工智能基于大腦數據合成語(yǔ)音。
日前,學(xué)術(shù)期刊《自然》在線(xiàn)發(fā)表了一篇文章,其中涉及一種解碼器,能夠將大腦神經(jīng)信號轉化為語(yǔ)音,幫助無(wú)法說(shuō)話(huà)的患者實(shí)現發(fā)聲交流。
據了解,該解碼器由加州大學(xué)舊金山分校的神經(jīng)外科學(xué)家Edward Chang教授與其同事一同開(kāi)發(fā)。他們采用了一種叫做“高密度腦皮層電圖”的技術(shù),能夠基于癲癇患者腦中被植入的電極(醫療監測需要)所傳出的數據,直接記錄下受試者大腦皮層的神經(jīng)活動(dòng)。
過(guò)程中,受試者會(huì )被要求大聲讀出幾百條句子,研究人員則會(huì )同步記錄他們大腦腹側感覺(jué)運動(dòng)皮層區的神經(jīng)活動(dòng),這里是大腦的語(yǔ)音產(chǎn)生中心。
隨后,研究人員將利用循環(huán)神經(jīng)網(wǎng)絡(luò )破譯采集到的神經(jīng)信號,其中涉及兩個(gè)步驟:第一步,他們將神經(jīng)信號轉換為表征發(fā)音器動(dòng)作的信號,包括下巴、喉、嘴唇和舌頭動(dòng)作相關(guān)的腦信號;第二步,他們則根據解碼出來(lái)的發(fā)音器官動(dòng)作,把信號轉換為說(shuō)出的語(yǔ)句。
為了驗證自己的成果,研究人員已經(jīng)在亞馬遜的眾包任務(wù)平臺Mechanical Turk上招募了聽(tīng)眾,來(lái)辨認解碼器合成的語(yǔ)音,測試內容包括325個(gè)單詞和101局整句。結果顯示,聽(tīng)眾能夠成功的識別出單詞,和對自然語(yǔ)音的感知模式一樣。
對于這一測試結果,第一作者Gopala Anumanchipalli博士表示,該結果意味著(zhù)這種神經(jīng)合成語(yǔ)音對于現實(shí)世界的應用來(lái)說(shuō)已經(jīng)達到即刻聽(tīng)懂的實(shí)用程度。
此外,研究人員還進(jìn)行了另一項測試,讓受試者用默讀的方式讀出同一個(gè)句子。結果顯示,無(wú)聲言語(yǔ)的合成效果不如有聲言語(yǔ)。但Edward Chang表示,雖然語(yǔ)音解碼的準確性大大降低,但受試者在沒(méi)有聲音的情況下模仿發(fā)聲仍然可以進(jìn)行語(yǔ)音合成。至于那些已經(jīng)喪失語(yǔ)音相關(guān)動(dòng)作能力的群體,該系統的適用性還需要進(jìn)一步研究。
針對這一項研究成果,生物工程學(xué)教授Chethan Pandarinath等人在文章評論中表示,這一系統要成為一個(gè)臨床可行的語(yǔ)音合成腦機接口,還存在許多挑戰。但可以肯定的是,腦機接口技術(shù)的持續進(jìn)步可以讓存在發(fā)聲障礙問(wèn)題的群體重新獲得“說(shuō)話(huà)”的能力。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
