FBEC2023 | 普羅米修斯CEO張煜:數字生命——大模型可驅動(dòng)的體積視頻
FBEC2023未來(lái)商業(yè)生態(tài)鏈接大會(huì )暨第八屆金陀螺獎?dòng)?023年12月8日在深圳福田大中華喜來(lái)登酒店6樓盛大召開(kāi)
FBEC2023未來(lái)商業(yè)生態(tài)鏈接大會(huì )暨第八屆金陀螺獎?dòng)?023年12月8日在深圳福田大中華喜來(lái)登酒店6樓盛大召開(kāi),本次大會(huì )由廣東省游戲產(chǎn)業(yè)協(xié)會(huì )、深圳市互聯(lián)網(wǎng)文化市場(chǎng)協(xié)會(huì )指導,陀螺科技主辦,中國光谷、游戲陀螺、VR陀螺、陀螺財經(jīng)、陀螺電競聯(lián)合主辦。
大會(huì )以“合力共生·韌者行遠”為大會(huì )主題,以具有行業(yè)前瞻洞察的“航行者”為視角,破冰之旅為主線(xiàn),關(guān)注AI、元宇宙、XR、游戲、電競、數字經(jīng)濟等科技與互聯(lián)網(wǎng)前沿領(lǐng)域,全方位呈現科技前沿成果,聚焦時(shí)代與商業(yè)熱點(diǎn)議題,探討新科技、新商業(yè)、新模式的未來(lái)價(jià)值,與真正的勇者共赴劇變革新下的凜冬破冰之旅!
FBEC2023分會(huì )場(chǎng)A:全球3D技術(shù)應用論壇邀請到普羅米修斯視覺(jué)CEO張煜帶來(lái)主題為“數字生命——大模型可驅動(dòng)的體積視頻”的精彩演講。張煜指出,普羅米修斯視覺(jué)在相機矩陣采集系統領(lǐng)域已深耕10年,全棧解決方案均為自研。
以下為演講實(shí)錄:
大家好,我是普羅米修斯的CEO張煜,我們公司主要做大模型可驅動(dòng)的體積視頻。首先介紹一下我們公司,普羅米修斯視覺(jué)是一家專(zhuān)注于研究體積視頻技術(shù)及應用的高新技術(shù)企業(yè),核心技術(shù)團隊由清華大學(xué)博士團隊和香港科技大學(xué)博士團隊等頂尖院校的高精尖人才組成,我們在相機矩陣采集系統領(lǐng)域已深耕10年,是全國唯一一家全棧解決方案都是自研的企業(yè)。迄今為止擁有發(fā)明專(zhuān)利70多項,目前估值不到10億,董事長(cháng)是北航軟件學(xué)院的創(chuàng )始院長(cháng)孫偉。
現在我跟大家分享一下公司做了10年的比較成熟的解決方案,其中一個(gè)核心方向是專(zhuān)業(yè)相機矩陣的同步、標定、采集+傳輸、存儲的全棧解決方案。它涵蓋以下四個(gè)特點(diǎn),亞毫秒級別的同步、亞像素級別標定、萬(wàn)兆網(wǎng)絡(luò )的傳輸和采集,以及高速固態(tài)硬盤(pán)存儲。
第一個(gè)特點(diǎn)是相機同步,整套系統支持從5fps到120fps的可自主調節采集,相機從幾臺、幾十臺到幾百臺都可以支持毫秒級別同步的采集方式。這是我們自研的一套同步系統,它是一個(gè)波形發(fā)生器,精度可達到亞毫秒級別,最高支持120fps的曝光。而且算法會(huì )自動(dòng)糾正隨著(zhù)時(shí)間帶來(lái)的累計誤差,保障長(cháng)時(shí)間采集拍攝過(guò)程中的穩定同步。
第二個(gè)特點(diǎn)是自動(dòng)標定,行業(yè)人士都知道,幾百臺相機的標定是很麻煩的問(wèn)題,我們已經(jīng)自研超高精度標定算法,所有相機全局收斂,全局誤差小于0.5個(gè)像素,而且整個(gè)過(guò)程全自動(dòng)化,10分鐘以?xún)染湍芡瓿蓭装賯€(gè)相機的同步標定。
第三個(gè)特點(diǎn)是高速采集+傳輸,從相機輸出、傳輸網(wǎng)絡(luò )到存儲系統輸入都是萬(wàn)兆網(wǎng)架構,保證海量數據采集傳輸順暢無(wú)延時(shí),無(wú)卡頓。
第四個(gè)特點(diǎn)是存儲系統,在存儲上,我們采用了M.2高速固態(tài)硬盤(pán)采集系統 + 企業(yè)級HHD硬盤(pán)陣列,既保證高速采集,又確保存儲可靠。
這個(gè)產(chǎn)品主要有四大應用場(chǎng)景,第一是無(wú)標記點(diǎn)動(dòng)捕人體骨骼數據采集,第二是三維人體動(dòng)態(tài)模型重建數據采集,第三是三維人體動(dòng)態(tài)點(diǎn)云數據采集,第四是語(yǔ)音表情動(dòng)態(tài)數據采集。
在可選相機里面,我們同時(shí)支持卷簾快門(mén)相機以及全局快門(mén)相機。有些應用對深度有要求,因此我們還提供一個(gè)模組,這個(gè)模組由兩個(gè)IR相機、彩色相機和隨機散斑投射器的POD組成,可以完成非常準確的深度采集。該模組適用于三維建模,點(diǎn)云采集,像流行的NeRF、NeuS等都可以通過(guò)這個(gè)方式采集數據。
在可選軟件包里,首先講下IR雙目的stereo,這就是一個(gè)典型的IR相機拍出來(lái)的圖像,身上的散斑都是我們研發(fā)的一些非均勻散斑,通過(guò)這種散斑和自研的stereo的一些算法可以做到高精度的深度計算,之后再用基于神經(jīng)網(wǎng)絡(luò )的方式讓它變得更加精確。
圖片上顯示的是一個(gè)骨骼檢測軟件包,可實(shí)現全身骨骼點(diǎn)檢測以及高精度的臉部掃描。在通過(guò)多相機的擬合和檢測后,骨骼點(diǎn)和臉部的表情點(diǎn)會(huì )非常準,這個(gè)軟件包比較適合一些動(dòng)捕人體骨骼數據采集的需求。
除了關(guān)鍵點(diǎn)的采集,我們還支持比較典型的SMPL和SMPLX的一些參數人體模型的采集。關(guān)于臉部的關(guān)鍵參數模型等,整套系統也同樣支持。所以不管是全身還是臉部都可以采用這套相機矩陣,通過(guò)增減或者選不同的模塊去實(shí)現。
接下來(lái)介紹一些成功案例,港科大有我們一套動(dòng)態(tài)的重建及應用元實(shí)驗室數字人重建拍攝系統。深圳第二高級技術(shù)學(xué)院、江西軟件職業(yè)技術(shù)大學(xué)、貴州盛華職業(yè)技術(shù)學(xué)院、北京容積視覺(jué)有限公司等,他們的整套方案也是我們提供的。
最后總結一下,公司研發(fā)的這套相機矩陣采集系統的相機數量從幾臺到幾百臺可選,相機類(lèi)型不僅可選2K、4K、卷簾快門(mén)、全局快門(mén),紅外IR相機都是可選的,占地面積7米乘7米,可拍攝范圍是5米乘3米高的圓柱體。
此外,我們產(chǎn)品有三大優(yōu)勢,超過(guò)10年的產(chǎn)品研發(fā),迭代,大量客戶(hù)長(cháng)期使用,系統穩定,好用,完整;清華,港科大博士團隊從底層研發(fā),底層可控可定制,算法水平屬?lài)H第一梯隊;軟硬件全國產(chǎn),成本可控有優(yōu)勢。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
