Google發(fā)布Omnitone開(kāi)源系統,是VR制作新潮流來(lái)襲的節奏嗎?
當下主流的全景3D音頻內容格式馬上就要過(guò)時(shí)了。
上個(gè)月,谷歌在其官方博客上公布了其網(wǎng)頁(yè)VR音頻系統Omnitone項目的技術(shù)細節。這個(gè)項目是一個(gè)跨瀏覽器支持的開(kāi)源空間音頻渲染器,主要是為VR設備營(yíng)造“全景音頻”環(huán)境提供解決方案,讓用戶(hù)獲得更好的VR沉浸感。
提到“全景音頻”的解決方案,有些人或許覺(jué)得理論十分簡(jiǎn)單,做一個(gè)虛擬空間,該空間里任何一個(gè)音源,用三維坐標標定,然后將VR頭盔里的坐標數據導入,再輸出相應的聲音,即可得到一個(gè)完美的“自然”聲場(chǎng)。但是這個(gè)方案的前提是音源數足夠少、運算速度足夠快,所以用于逼真模擬現實(shí)世界數量眾多的音源是幾乎不可能的。
目前,主流的全景3D音頻內容格式包括Quad Binaural和Ambisonic。
其中,Quad Binaural是將一個(gè)聲場(chǎng)用0、90、180、270度四個(gè)方向去表征。如果需要錄制一個(gè)點(diǎn)的聲場(chǎng),則錄制這個(gè)點(diǎn)前后左右的聲音,每個(gè)方向兩個(gè)聲道,最終八個(gè)聲道。想得到新的方向的聲音,用四個(gè)方向的聲音進(jìn)行加權合成即可。這種方案的好處是解碼非常容易,比如我們很自然就會(huì )想到45度時(shí)候的聲音就是一半的0度+一半的90(雖然實(shí)際情況會(huì )更復雜一些)。相比現在常用的一階的Ambisonic(FOA,First Order Ambisonic),其對水平方向的敏感度更高。不過(guò),它的問(wèn)題在于垂直方向的聲音是木有變化的。
Ambisonic則是從球諧函數出發(fā),(n+1)^2個(gè)聲道來(lái)表征聲場(chǎng)。舉例來(lái)說(shuō),Google發(fā)布的Omnitone是一階的Ambisonic,于是有(1+1)^2=4個(gè)聲道,如上圖所示,w,x,y,z。w可以理解成背景聲,x,y,z分別是來(lái)自直角坐標系三個(gè)方向的聲音。這個(gè)方案的好處在于有了z(垂直)這個(gè)方向,抬頭或者低頭在VR世界里聲音是會(huì )有區別的,而且隨著(zhù)你提供的運算能力的提升,用更高階的Ambisonic函數可以獲得更好的效果。不過(guò), 越高階的ambisonic函數解碼越復雜。此外,一階Ambisonic(FOA)因為將相反方向傳來(lái)的聲音(C,D)同時(shí)混入了X,所以當你轉頭的時(shí)候,在某些角度下的聽(tīng)者對方向的靈敏度是不如Quad Binaural的。
而Google的網(wǎng)頁(yè)VR音頻系統Omnitone項目用到的解決辦法很聰明,而且單刀直入。它主要支持目前業(yè)界較為常用的FOA(一階Ambisonic)格式,這也是YouTube App推薦的主要全景聲格式。
下面是Omnitone音頻處理過(guò)程圖解:
從上圖可以看出,Google的Omnitone系統的Ambisonic解碼器采用了業(yè)界主流的算法流程,根據傳感器給出的方位信息, 采用一個(gè)旋轉算子來(lái)實(shí)現聲場(chǎng)旋轉,進(jìn)而用雙聲道輸出。
可以大膽預言的是是,FOA的全景聲將會(huì )在未來(lái)幾年快速普及,這對VR行業(yè)來(lái)說(shuō)也是一個(gè)福音。不過(guò),現在的問(wèn)題是FOA聲音文件缺乏,而錄制FOA聲音硬件昂貴,且不便于攜帶使用。有興趣創(chuàng )業(yè)者可以嘗試解決這個(gè)問(wèn)題。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
