阿里巴巴達摩院XR實(shí)驗室負責人 譚平:AR/VR技術(shù)將促使信息世界和物理世界合二為一
AR/VR技術(shù)將會(huì )促使信息世界和物理世界合二為一。
2021年12月10日,由廣東省游戲產(chǎn)業(yè)協(xié)會(huì )、廣東省虛擬現實(shí)產(chǎn)業(yè)技術(shù)創(chuàng )新聯(lián)盟、深圳市科學(xué)技術(shù)協(xié)會(huì )、深圳市互聯(lián)網(wǎng)文化市場(chǎng)協(xié)會(huì )指導,陀螺科技主辦,深圳市科技開(kāi)發(fā)交流中心、恒悅創(chuàng )客魔方協(xié)辦,行業(yè)頭部媒體游戲陀螺、VR陀螺、陀螺電競、陀螺財經(jīng)、陀螺傳媒聯(lián)合主辦的2021未來(lái)商業(yè)生態(tài)鏈接大會(huì )暨第六屆金陀螺獎頒獎典禮(簡(jiǎn)稱(chēng)“FBEC2021”)在深圳大中華喜來(lái)登酒店6樓宴會(huì )廳盛大開(kāi)幕!
在中國力量·2021 5G XR產(chǎn)業(yè)峰會(huì )現場(chǎng),阿里巴巴達摩院XR實(shí)驗室負責人 譚平:以“XR技術(shù)漫談”為主題發(fā)表了演講。
以下為演講實(shí)錄:
我是阿里巴巴的譚平,現在負責的是XR實(shí)驗室這一塊的工作。今天非常榮幸能有這樣的機會(huì )來(lái)和行業(yè)里面的各位朋友,來(lái)分享一下我們對于XR這一塊的思考。
今天先從始作俑者ROBLOX講起。ROBLOX是今年在美國上市的游戲公司,它的招股書(shū)中把“元宇宙”這個(gè)詞寫(xiě)了進(jìn)去,引來(lái)了非常多的討論。這個(gè)公司是什么樣的一個(gè)情況?
Roblox是一個(gè)游戲公司,在美國有非常大量的用戶(hù),特別是青少年用戶(hù)。據統計,美國16歲以下的青少年可能一半都玩過(guò)他們的游戲。
這個(gè)游戲的特點(diǎn)是什么?它是一個(gè)開(kāi)放的游戲平臺,用戶(hù)可以在平臺上創(chuàng )建自己的游戲,比如說(shuō)你可以創(chuàng )建一個(gè)賽車(chē)游戲,或者創(chuàng )建一個(gè)射擊類(lèi)的游戲,這個(gè)游戲被創(chuàng )建出來(lái)之后再把它分發(fā)出去,讓大家在上面來(lái)玩。用戶(hù)創(chuàng )造的游戲里面,最火的游戲日活已經(jīng)到了千萬(wàn)級。Roblox是一個(gè)可以創(chuàng )造游戲的游戲平臺,因此可以被稱(chēng)為是“元游戲”。他們公司在招股書(shū)里修飾了一下,把游戲世界說(shuō)成是宇宙,于是就成了“元宇宙”。
但從我們的角度來(lái)看,這件事情之所以引起社會(huì )對于A(yíng)R、VR如此的關(guān)注,如此多互聯(lián)網(wǎng)巨頭都投身于這個(gè)領(lǐng)域中,是因為它遠遠不止游戲。
最近著(zhù)名科學(xué)家錢(qián)學(xué)森的幾封信件在網(wǎng)上流傳得非常廣泛。我們大家一起看一下。我特別想強調中間的這封信件。錢(qián)學(xué)森老先生在90年代的時(shí)候就斷言,虛擬現實(shí)技術(shù)是計算機技術(shù)革命之后的又一項技術(shù)革命,它將引發(fā)一系列全世界的變革,一定會(huì )是人類(lèi)歷史中的大事情。他把虛擬現實(shí)技術(shù)提到一個(gè)如此的高度,它當然不會(huì )僅僅只是游戲。
在我看來(lái),AR/VR技術(shù)將會(huì )促使信息世界和物理世界合二為一。所謂的信息世界,是過(guò)去在PC、手機上構建出來(lái)的互聯(lián)網(wǎng)世界,而物理世界是我們今天生活的、活生生的三維世界。隨著(zhù)技術(shù)的進(jìn)一步發(fā)展,三維建模和數字孿生這樣的技術(shù)會(huì )將真實(shí)世界逐步地數字化、虛擬化,使得整個(gè)真實(shí)世界有一個(gè)數字化的版本。AR和VR技術(shù)將進(jìn)一步融合虛擬和現實(shí),使得人從感官上可以不用再去區分什么是真實(shí),什么是虛擬,兩個(gè)世界會(huì )達到高度的融合。未來(lái)機器人的進(jìn)一步發(fā)展可能讓我們在虛擬世界里面做一些改變以后,直接改造或者改變真實(shí)的物理世界,通過(guò)機器人把虛擬世界的變化閉環(huán)到真實(shí)世界當中去,這是一個(gè)非常重大的事件。
AR/VR眼鏡的工作基礎是對于空間的感知和空間的理解。
左邊有一幅AR眼鏡,用戶(hù)戴著(zhù)它,從左邊可以看到汽車(chē)的后部,當用戶(hù)走到前面,從側面觀(guān)察的時(shí)候可以看到汽車(chē)的側面,這樣會(huì )給用戶(hù)造成一個(gè)錯覺(jué),似乎這個(gè)地方有一輛汽車(chē)在這里擺著(zhù),實(shí)際上這里什么都沒(méi)有。這一系列都是視覺(jué)的錯誤效果,本質(zhì)上這是基于空間位置的一項顯示技術(shù)。在絕大多數的AR/VR眼鏡上會(huì )有傳感器,比如用相機和陀螺儀來(lái)做空間位置的追蹤,會(huì )有微投影儀來(lái)顯示畫(huà)面,把畫(huà)面呈現出來(lái)給用戶(hù)就可以實(shí)現虛實(shí)融合的效果。
我們團隊過(guò)去在這些方向上有一些積累。在空間內容的獲取方面,我們設計了一款專(zhuān)屬設備,配有激光雷達和彩色相機,通過(guò)設備可以對于真實(shí)的物理空間進(jìn)行掃描,構建出VR模型,然后可以應用到VR看房、VR看店中。我們曾與一個(gè)品牌的店鋪合作,將他們的店鋪虛擬化,用戶(hù)可以在里面漫游,可以查看商品的詳情,甚至直接下單。
之前設備是要用激光雷達的,隨著(zhù)技術(shù)的進(jìn)一步發(fā)展,最新的技術(shù)成果是可以逐步擺脫激光雷達的依賴(lài),可以用純視覺(jué)方案來(lái)構建三維的VR模型。這里給大家展示了一個(gè)從單張圖像直接通過(guò)機器學(xué)習的方法,通過(guò)人工智能的方法來(lái)獲得三維信息。
最左邊是一張輸入的圖,中間是一個(gè)深入的圖,不同顏色代表不同的距離,再右邊是深度圖轉換成為三維點(diǎn)云來(lái)渲染的形式。這樣的技術(shù)使得未來(lái)VR內容的生產(chǎn)能夠擺脫對于專(zhuān)業(yè)設備的依賴(lài),使得這件事情能夠更加普惠,讓普通人用一般的全景相機甚至未來(lái)用手機可以大量、低成本來(lái)生產(chǎn)VR的內容,加速內容的制造。
剛才所講的VR內容,更多還停留在可視化的層面。在非常多的應用里面還需要模型的語(yǔ)義和結構。如果是一個(gè)建筑物的話(huà),它的承重墻在哪里,它的門(mén)和窗戶(hù)在哪個(gè)地方。這塊我們研究了BIM建模,通過(guò)對CDA圖紙的分析和處理來(lái)構建BIM模型,可以應用于智慧園區和安防運維的項目上。
最左邊是去年結合疫情的需求,以這樣的技術(shù)來(lái)做的VR展會(huì )。右邊是用這個(gè)技術(shù)來(lái)做VR看樓,可以讓用戶(hù)看到自己的房型里面采光、視線(xiàn),實(shí)現更加精細化的戶(hù)型選擇。在這個(gè)方向,我們也一直在持續做技術(shù)方面的探索。去年我們發(fā)布了世界上第一個(gè)大規模真實(shí)CAD圖紙的數據集,并且提供了大量的標注數據。在CAD數據集上有詳細地標注出來(lái)什么是門(mén)、什么是窗、什么是家具、什么是承重墻這樣的結構,電線(xiàn)和水管等等分別在什么地方。
基于這樣的數據可以做一些最新人工智能的圖紙識別來(lái)幫助整個(gè)BIM建模的過(guò)程提效。當然這一塊的技術(shù)可提升的空間依然非常大,即便是在一些相對簡(jiǎn)單的結構上,今天的識別率依然只有80%。在這方面希望未來(lái)有更多的同行加入其中,與我們一起推動(dòng)技術(shù)的進(jìn)步,我們把數據集開(kāi)源出來(lái)了,希望能夠促進(jìn)數據的進(jìn)步。
另外一個(gè)就是剛才講的空間??臻g構建出來(lái)以后,一個(gè)很重要的事情就是如何進(jìn)行空間定位。左邊是跟寶馬汽車(chē)的合作的案例,例如車(chē)開(kāi)到商場(chǎng)以后,回來(lái)以后找不到了。這個(gè)案例是什么呢?車(chē)現在很智能的,車(chē)有傳感器,開(kāi)到地庫去,它知道自己停在哪個(gè)位置,車(chē)把位置推送到用戶(hù)的手機,用戶(hù)的手機做AR導航就可以把你帶回去。當然,先要對車(chē)庫進(jìn)行三維的建圖,建圖完成之后還要定位。
右邊是一個(gè)概念視頻。設想AR的技術(shù)普惠以后,戴上眼鏡參觀(guān)阿里巴巴的西溪園區,可以進(jìn)行打卡、合影和應用。
下面是和北京的一家美術(shù)館進(jìn)行合作的AR觀(guān)展體驗。我自己讀理工科出身,看到藝術(shù)家的作品經(jīng)常很困惑,借助AR/VR的技術(shù),戴上AR眼鏡以后可以看到更豐富的藝術(shù)解釋?zhuān)梢詭椭覀冞@些人來(lái)理解藝術(shù)家的理念。
在視覺(jué)定位方向,我們也在探索前沿在技術(shù)。最新的工作是大幅度壓縮模型的尺寸。比如說(shuō)剛才講到要在車(chē)庫里面找車(chē),AR導航需要構建車(chē)庫的地圖。這里放了一個(gè)例子,左邊單棟樓宇的模型,在過(guò)去傳統方法來(lái)講要有一個(gè)2G的內存才能把樓宇的模型放下來(lái),這對于端上的體驗來(lái)講是不太友好的,即便做云端的串流,用戶(hù)從這棟樓跑到另外一棟樓就要下載2G的內容,很痛苦。我們做了一個(gè)方法把模型壓縮到10M大小的情況下依然能保持一個(gè)良好的體驗,希望對我們產(chǎn)品的進(jìn)一步應用能有幫助。
我們在虛擬人上面也有一些工作。這是一個(gè)虛擬人的案例,這個(gè)案例是阿里巴巴的一個(gè)公益項目,數字人小莫。小莫非常多才多藝,可以把我們說(shuō)話(huà)的語(yǔ)音和文本變成手語(yǔ)的表達,這對于聽(tīng)障礙人士是非常有幫助的事情。因為我們可以通過(guò)聽(tīng)廣播和看電視來(lái)獲得大量的信息,但對于聽(tīng)障人士是非常困難的,虛擬人能把文字信息變成手語(yǔ)來(lái)方便聽(tīng)力障礙人士獲得信息。
我們還有一個(gè)工作:把手語(yǔ)的視頻轉化成為文字或者語(yǔ)言,方便我們理解聽(tīng)障人士想表達什么,促進(jìn)大家更方便地交流。在這個(gè)方向上,我們也有一些前沿學(xué)術(shù)的進(jìn)展。最左邊這里是用了非常少的RGB相機做動(dòng)態(tài)人物的三維案例,這里用了四個(gè)相機,從四個(gè)相機的畫(huà)面里面可以把人物細節的三維模型構建出來(lái),未來(lái)可以用到通訊場(chǎng)景當中。右邊是用真人來(lái)驅動(dòng)高寫(xiě)實(shí)的虛擬人的表情案例,我們可以用一個(gè)真人來(lái)驅動(dòng)這樣虛擬的形象,并且將這樣的虛擬形象應用于各種各樣的場(chǎng)景。比如一些客服等等應用。
AR/VR技術(shù)正在加速普及。各種應用不斷出現,相關(guān)技術(shù)也快速迭代。相信一個(gè)更加美好的互聯(lián)網(wǎng)時(shí)代即將到來(lái)。我今天的分享就講到這里,謝謝大家!
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
