如何建造一個(gè)虛擬帝國?感官世界與人機交互需完美配合
在電影黑客帝國中,電腦接管了人類(lèi)的視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)、觸覺(jué)等訊號,讓人們從出生開(kāi)始就生活在虛擬世界中卻渾然不知。
編者按:本文來(lái)自公號“董老師在硅谷”,作者Steve Gu,杜克大學(xué)計算機博士,之前在蘋(píng)果擔任算法工程師,Google X擔任技術(shù)主管和未來(lái)技術(shù)評估,發(fā)表專(zhuān)利包括iPhone的指紋識別以及在下一代蘋(píng)果產(chǎn)品以及Google Glass的人機交互方式,目前從事AI相關(guān)領(lǐng)域創(chuàng )業(yè)。
前言
什么是真實(shí)?在電影黑客帝國中,電腦接管了人類(lèi)的視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)、觸覺(jué)等訊號,讓人們從出生開(kāi)始就生活在虛擬世界中卻渾然不知。這雖然是科幻片,但令人浮想聯(lián)翩。
2014年,Facebook 20億美金收購了Oculus Rift。同年Google I/O,Google發(fā)布了Cardboard,一款利用廉價(jià)紙板和手機屏幕就可以實(shí)現虛擬現實(shí)的DIY設備。2015年初,Microsoft公開(kāi)了一款介于虛擬與增強現實(shí)之間的頭戴設備HoloLens,現場(chǎng)演示十分驚艷。此外各大公司與游戲廠(chǎng)商都紛紛在虛擬現實(shí)(Virtual Reality,簡(jiǎn)稱(chēng)VR)領(lǐng)域布局,眾多初創(chuàng )公司也在摩拳擦掌,頓時(shí),VR成為炙手可熱的話(huà)題。雖然黑客帝國中描述的故事不太可能在現實(shí)發(fā)生,但VR以及VR所帶來(lái)的全新體驗已然走進(jìn)了尋常百姓家,為人津津樂(lè )道。
VR最偉大的地方在于其構造簡(jiǎn)單,成本低廉,幾乎每個(gè)人都可以自己動(dòng)手制作。比如Google發(fā)布的Cardboard,利用手機屏幕作為顯示器,利用普通紙板作為機身,利用透鏡聚焦圖像,利用一個(gè)小磁鐵作為控制開(kāi)關(guān),利用手機上的傳感器(比如陀螺儀,加速度計)作為頭部控制,利用手機上的APP來(lái)顯示不同的內容和場(chǎng)景制作。整套成本不超過(guò)1美元!
(圖1)人眼的Field of View (FoV, 視場(chǎng))通??梢赃_到180度。而普通相機的視角最多只能到達150度。寬闊的視場(chǎng)更能讓人具有身臨其境的代入感。圖中所示水平視場(chǎng)約135度,垂直視場(chǎng)約60度。
然而,逼真的VR效果仍然亟待很多最新科技來(lái)幫助實(shí)現。懷著(zhù)好奇心,我們來(lái)探討VR背后的黑科技。接下來(lái)主要從感官世界(視覺(jué),聽(tīng)覺(jué),嗅覺(jué),觸覺(jué)),以及人機交互的角度討論如何建造黑客帝國,實(shí)現身臨其境的體驗。同時(shí)分析黑科技背后的產(chǎn)業(yè)趨勢和機遇。
感官世界
目前大部分的VR設備主要側重在重構視覺(jué)與聽(tīng)覺(jué),然而這僅僅是虛擬現實(shí)技術(shù)中的冰山一角。想象你住在北京的胡同里,卻可以戴著(zhù)VR頭盔游覽意大利佛羅倫薩街角的一家水果店。你看到水果店周?chē)墓艠憬ㄖ?,水果店主人向顧客微笑,并不寬闊的街道上?chē)水馬龍人來(lái)人往,街旁小販快樂(lè )的叫賣(mài)聲傳進(jìn)你的耳朵,這時(shí)你嗅到了新鮮水果的清香,于是你伸出手,竟可以觸摸到水果,感覺(jué)這般真實(shí)。不僅如此,圖象,聲音,氣味,紋理的感覺(jué),都隨著(zhù)你的移動(dòng)而變化,仿佛親臨佛羅倫薩。
最近看到一些嘗試模擬多種感官的VR設備。除基本的視聽(tīng)功能以外,這些設備可以傳氣味、風(fēng)、熱、水霧以及震動(dòng)。此類(lèi)設備的用戶(hù)體驗在目前仍然有待提高,技術(shù)上并不完善。然而在學(xué)術(shù)界,相關(guān)的研究已經(jīng)持續了好幾十年。下面我們來(lái)細數VR背后的黑科技。
(圖2)通過(guò)分屏顯示左右眼不同內容獲得圖像的縱深感。系統參數包括視場(chǎng)大小,屏幕分辨率,透鏡焦距,雙眼間距,眼睛到透鏡距離等。一般來(lái)說(shuō),視場(chǎng)越寬,視覺(jué)代入感越強。但是過(guò)寬的視場(chǎng)會(huì )造成圖像扭曲以及像素被放大。所以需要綜合考慮系統設計。
視覺(jué)
一般認為人的大腦三分之二都用于視覺(jué)相關(guān)的處理,那么VR首先要解決的就是如何逼真地呈現圖景來(lái)欺騙大腦。目前的主要的解決方案是通過(guò)融合左眼和右眼的圖像來(lái)獲得場(chǎng)景的縱深感。其原理主要是通過(guò)將三維場(chǎng)景分別投影到人的左、右兩眼,形成一定的視差,再通過(guò)人的大腦自動(dòng)還原場(chǎng)景的三維信息。這里涉及幾個(gè)主要參數:Field of View (視場(chǎng))決定了一次能呈現多少場(chǎng)景,又分為垂直視場(chǎng)和水平視場(chǎng)。通常水平視場(chǎng)越寬越好(比如接近180度),垂直視場(chǎng)在90度左右。
屏幕分辨率則決定了細節的逼真度。所謂視網(wǎng)膜屏幕,就是說(shuō)屏幕像素相對于觀(guān)看距離來(lái)說(shuō)是如此之高,以至于人的肉眼無(wú)法分辨曲線(xiàn)是連續的還是像素化的。高像素對于逼真的VR體驗至關(guān)重要。值得注意的是,視場(chǎng)和屏幕分辨率通常成反比關(guān)系。寬視場(chǎng)可以通過(guò)透鏡的設計來(lái)實(shí)現。然而過(guò)寬的視場(chǎng)會(huì )導致場(chǎng)景的邊緣扭曲,同時(shí)像素被放大。設計上通常要平衡這兩點(diǎn)。延遲則決定了系統響應速度。一般來(lái)說(shuō)24幀每秒的幀速要求系統延遲小于50毫秒,甚至更多。
另外還有一些物理參數比如雙眼間距,透鏡的焦距,眼睛到透鏡的距離等,需要綜合考慮。對于虛擬場(chǎng)景的重現,主要是通過(guò)計算機圖形學(xué)對合成物體作逼真的渲染,然后分別投影到頭盔佩戴者的左右眼來(lái)實(shí)現。而對于真實(shí)場(chǎng)景的重現來(lái)說(shuō),側重于如何采集現場(chǎng)畫(huà)面,并且完整地記錄下場(chǎng)景的幾何信息。這個(gè)可以通過(guò)體感相機(比如Microsoft Kinect)或者相機陣列進(jìn)行。比如說(shuō)Google今年推出的Jump就采用了16臺GoPro來(lái)制作虛擬場(chǎng)景。
聽(tīng)覺(jué)
聲音配合畫(huà)面才能淋漓盡致地展現現場(chǎng)效果。最簡(jiǎn)單的方法就是直接從手機播放聲音。
然而一般的聲音錄制方法并不能還原完整的環(huán)境三維信息。而三維聲音,也稱(chēng)為虛擬聲(virtual acoustics)、雙耳音頻(binaural audio),則利用間隔一個(gè)頭部寬度的兩個(gè)麥克風(fēng)同時(shí)錄制現場(chǎng)聲音。該方法可以完整地保存聲音源到雙耳的信號幅度以及相位的差別(如圖3所示),讓聽(tīng)眾仿佛置身現場(chǎng)一般。筆者曾試用過(guò)這套系統,音質(zhì)極佳,令人震撼。
(圖3)利用間隔一個(gè)頭部距離的一對麥克風(fēng)可以忠實(shí)地記錄從聲音源到雙耳的傳遞過(guò)程
頗有意思的是,麥克風(fēng)的外圍竟有人耳的造型以及由類(lèi)似皮膚的材料構成,這樣可以最大限度地保存外部聲音導入人耳的整個(gè)過(guò)程。更有甚者(如圖4所示),有人構建了三維聲音陣列,可以將360度全景聲音全部錄入,然后通過(guò)頭部的轉動(dòng)選擇性地播放出來(lái)。
虛擬聲的最佳應用是專(zhuān)門(mén)為某個(gè)佩戴者量身定制聲音,這樣可以最大限度地高保真地還原音樂(lè )的現場(chǎng)感受。對于一般使用者來(lái)說(shuō),因為個(gè)體的差異(比如頭部寬度,耳朵形狀等),虛擬聲的實(shí)際效果略有不同,難以達到最佳播放狀態(tài)。需要根據特定場(chǎng)景通過(guò)電腦合成聲音。理論上,如果洞悉了三維場(chǎng)景以及材料性質(zhì),計算機就可以模擬各類(lèi)事件發(fā)生的聲音并將它合成在頭盔或VR盒子里播放。聲音合成的過(guò)程中基于物體間的距離,頭部的朝向等來(lái)模擬真實(shí)環(huán)境播放出的聲音。
(圖4)左圖為3Dio公司的三維音頻輸入設備 右圖進(jìn)一步將8臺麥克風(fēng)做成360度陣列用以VR展示
嗅覺(jué)
如何讓VR盒子帶來(lái)“暗香浮動(dòng)月黃昏”的感受?嗅覺(jué)雖然并不是VR必須的輸入信號,但能夠極大程度豐富VR的體驗。將嗅覺(jué)嵌入到影片里的嘗試可以追溯到半個(gè)多世紀前(比如Smell-o-Vision)。而通過(guò)電子調控方式實(shí)現氣味合成也已經(jīng)有好幾十年歷史,比較著(zhù)名的比如iSmell公司。
簡(jiǎn)單的思路是這樣子的:合成氣味的方式通常是由一堆塞滿(mǎn)了香料的小盒子組成,也被稱(chēng)作氣味工廠(chǎng)。每一個(gè)小盒子可以單獨地被電阻絲加熱并散發(fā)出對應的氣味。同時(shí)加熱多個(gè)小盒子就可以將不同的氣味混在一起(如圖5)。
氣味合成這項技術(shù)距離實(shí)際應用還有一段距離,主要難點(diǎn)在于如何精確地采集、分析、以及合成環(huán)境中的任意氣味。簡(jiǎn)單的實(shí)現,比如釋放焰火、花香、雨露等一些基本環(huán)境味道,早已經(jīng)應用在5D、7D電影中。而復雜的合成,比如巴黎某商店特有的氣味,目前還難以做到。
其中,還牽涉到需要經(jīng)常更換氣味盒子的問(wèn)題,日常使用并不方便。筆者介紹嗅覺(jué)在VR中的實(shí)踐只為拋磚引玉?;蛟S在不久的未來(lái)會(huì )有更加實(shí)用地調配和模擬氣味的方法可供頭戴設備使用。
(圖5)將氣味香料放在不同的小盒子里通過(guò)單獨加熱來(lái)釋放和混合
觸覺(jué)
觸覺(jué)(haptics)可以將虛擬的對象實(shí)物化,不僅看得見(jiàn),還能“摸得著(zhù)”。如何模擬不同物體的觸感是一個(gè)非常熱門(mén)的研究課題。各種模擬觸感的方法也層出不窮。
最簡(jiǎn)單的觸感可以通過(guò)不同頻率的器件震動(dòng)來(lái)實(shí)現,條件是設備與皮膚相接觸,通過(guò)縱向和橫向的特定頻率與持續的振動(dòng)來(lái)模擬各種材料以及特殊條件之下的觸感。比如說(shuō),手機振動(dòng)就是一種基本的觸感激發(fā)方式。再比如最新款的蘋(píng)果筆記本配備有震蕩反饋的觸控板,可以根據手指壓力的大小自動(dòng)調整電流來(lái)控制振蕩頻率以及幅度。更為復雜地,可以根據屏幕顯示的內容實(shí)時(shí)地調整震蕩波形來(lái)實(shí)現不同材質(zhì)觸感的反饋。類(lèi)似的原理也可以在VR中實(shí)現,比如將觸感裝置嵌入到游戲手柄內。這樣就可以根據畫(huà)面以及手勢動(dòng)作來(lái)模擬各類(lèi)物體不同的觸摸感覺(jué)。
除了手柄以外,甚至可以隔空體驗觸感。比如UltraHaptics,通過(guò)聚焦超聲波到人的皮膚來(lái)實(shí)現“隔空打耳光”的功能。其原理是通過(guò)超聲波相位整列聚焦聲音到空間中的某一個(gè)點(diǎn)形成振動(dòng),示意圖見(jiàn)圖6左。再比如迪士尼的Aireal,可以通過(guò)精確地壓縮和釋放空氣產(chǎn)生空氣漩渦(vortex ring)來(lái)“打擊”到皮膚表面。雖然實(shí)現隔空振動(dòng)的原理不同,兩者都使用了體感相機來(lái)捕捉手的位置并作定點(diǎn)的“打擊”。
(圖6)左:Ultrahaptics,通過(guò)相位陣列聚焦超聲波到空間任意點(diǎn)產(chǎn)生振動(dòng),并可以調整頻率和節奏產(chǎn)生不同的觸感。右:迪士尼的Aireal項目,通過(guò)遠距離發(fā)送空氣漩渦波撞擊皮膚產(chǎn)生各種觸感。兩個(gè)項目都使用了體感相機(Kinect)來(lái)識別定位手的位置。前者通過(guò)相位調控電子地調整波束方向,后者通過(guò)馬達機械調整空氣漩渦的發(fā)送朝向。
最新研究中,日本科學(xué)家提出了利用激光鐳射來(lái)觸發(fā)空氣中定點(diǎn)的等離子體,既可以用來(lái)作全息顯示,又可以通過(guò)激光鐳射的激發(fā)產(chǎn)生觸感。
(圖7)在SIGGRAPH 2015的展示中,一組日本科學(xué)家演示了如何利用激光鐳射在空氣中激發(fā)等離子體來(lái)作全息顯示以及產(chǎn)生觸感。
人機交互
聊完豐富多彩的感官世界,我們來(lái)看看VR中的控制部分。一般的VR頭盔擁有豐富的傳感器比如前置相機、陀螺儀、加速度計、感光器、近距探測器。也可以添加諸如心率監控、眼球跟蹤等傳感裝置。傳感器的這類(lèi)應用賦予了VR設備許多新穎的功能以及交互體驗。
頭部控制
最常用的莫過(guò)于頭部控制,主要利用陀螺儀來(lái)檢測頭部的二維旋轉角度,并對屏幕的顯示內容作相應調整。絕大部分的VR盒子都能實(shí)現這個(gè)基本功能。
手勢控制
手勢控制可以大大增強互動(dòng)性與娛樂(lè )性,對于游戲玩家尤其重要。手勢控制主要分成兩類(lèi):第一類(lèi)是通過(guò)穿戴類(lèi)似wii控制器的手套或手柄來(lái)實(shí)現手勢的識別;第二類(lèi)則直接利用頭盔上的外置相機通過(guò)計算機視覺(jué)的方法來(lái)識別和跟蹤手勢。
對于后者,往往需要類(lèi)似Kinect這樣的深度相機才能準確地識別手勢。LeapMotions,SoftKinetics等公司在VR手勢控制上已經(jīng)有不少成熟的demo。一般來(lái)說(shuō),使用深度相機可以比較準確地定位手的具體位置,穩定性較好。
眼球控制
想象三維場(chǎng)景隨著(zhù)你的眼睛轉動(dòng)而改變。比如Kickstarter上的FOVE嘗試的正是使用眼球跟蹤技術(shù)來(lái)實(shí)現VR游戲的交互。眼球跟蹤技術(shù)在VR盒子或者頭盔上并不難實(shí)現,一般需要在盒子或者頭盔內部裝載一到兩個(gè)朝向眼睛的紅外相機即可。除了基本的眼球追蹤之外,還可以識別特定的眨眼動(dòng)作用來(lái)控制屏幕等。 除了游戲控制之外,眼球跟蹤還有很多其他應用。比如可以模仿人眼的生物學(xué)特性,僅僅將圖像聚焦放在眼球關(guān)注的地方,而將圖像其余部分動(dòng)態(tài)模糊掉,讓三維影像顯示變得更加真實(shí),同時(shí)有效地聚焦圖像,還能省電 (見(jiàn)圖8)。
(圖8)從左到右:頭部控制、手勢識別和控制和眼球跟蹤。它們各自作為VR的輸入方式,方便交互。
心率控制
玩得就是心跳!心跳可以反映人的當前狀態(tài),比如興奮、恐懼、放松、壓力。檢測VR使用者當前的生理狀態(tài)可以動(dòng)態(tài)地調整影像內容以及音效來(lái)實(shí)現一些超現實(shí)效果。比如說(shuō),當心跳較快即人處于興奮狀態(tài)時(shí),可以動(dòng)態(tài)地調高圖像播放速率來(lái)匹配人目前的運動(dòng)節奏,讓運動(dòng)來(lái)得更猛烈一些。也可以利用負反饋的調整讓人迅速平靜下來(lái),幫助更好的休息或者冥想。
實(shí)現心率監測有多種方式,比如蘋(píng)果手表使用的是紅綠兩種光譜的近距探測器來(lái)監測心跳速率。心率監測器可以結合手柄置于手腕之內,或者置于頭盔之中。通常的問(wèn)題是該心率探測器不能有效地和皮膚緊密貼著(zhù),因而一些運動(dòng)帶來(lái)的微微移動(dòng)會(huì )帶來(lái)讀數的不準。心率控制在VR目前的應用中并不多見(jiàn),任然屬于比較新穎的項目。
意念控制
筆者寫(xiě)這個(gè)話(huà)題是有所猶豫的,因為意念控制技術(shù)目前仍然非常原始,一般只是利用電極讀取頭部血流變化,通過(guò)機器學(xué)習的手段來(lái)匹配特定的讀數特征變化。在此不詳述。
小結
“你選擇紅色藥丸還是藍色藥丸?”,影片黑客帝國拋出了這樣一個(gè)令人深思的問(wèn)題。筆者相信,VR技術(shù)可以幫助人們更好地體驗真實(shí)的世界。技術(shù)上而言,從感官到人機交互仍然充滿(mǎn)很多想象空間與實(shí)際問(wèn)題,亟待人們創(chuàng )新地去解決。相信隨著(zhù)VR技術(shù)的深入發(fā)展和普及,人們的生活體驗會(huì )變得更加豐富多彩,從此不必再受時(shí)空拘束。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
