iPhone X帶起的深度攝像頭熱,移動(dòng)端的路到底怎么走?

巫盼 8年前 (2017-12-06)

最近一段時(shí)間,我們也采訪(fǎng)了不少做深度傳感器的廠(chǎng)商,聊來(lái)聊去,繞不開(kāi)的一個(gè)話(huà)題就是:曾經(jīng)小眾的深度攝像頭市場(chǎng),正在慢慢走向大眾化。

我們大腦皮層有50%的區域是用于視覺(jué),在經(jīng)過(guò)幾億年的進(jìn)化以后,我們的眼睛可以在150毫秒內將看到的場(chǎng)景識別理解出來(lái)。但是,現在要讓機器只憑簡(jiǎn)單的攝像頭做到這些是不可能的。

所以出現了可以捕捉三維深度信息的深度傳感器,雖然聽(tīng)名字這是一顆傳感器,其實(shí)它的最終形態(tài)和我們的眼睛一樣,需要去觀(guān)察、認識以及理解這個(gè)世界。

尤其是在蘋(píng)果推出Face ID之后,相關(guān)的智能手機廠(chǎng)商都想跟風(fēng),雖然這股風(fēng)現在還沒(méi)起來(lái),但是大多已經(jīng)開(kāi)始蠢蠢欲動(dòng)。最近,華為在某場(chǎng)手機發(fā)布會(huì )上,也公布了點(diǎn)云深度攝像頭Jupiter X,和Phone X的“齊劉海”系統十分相似……

從小眾走向大眾的深度傳感器市場(chǎng)

最近一段時(shí)間,我們也采訪(fǎng)了不少做深度傳感器的廠(chǎng)商,聊來(lái)聊去,繞不開(kāi)的一個(gè)話(huà)題就是:曾經(jīng)小眾的深度攝像頭市場(chǎng),正在慢慢走向大眾化,而iPhone X在其中發(fā)揮了關(guān)鍵性的作用。

數據顯示,深度攝像頭市場(chǎng)規模將從2015年的12.5億美元增長(cháng)到2021年的78.9 億美元,年均增長(cháng)率達35%。

來(lái)自Markets and Markets的一份報告也顯示,預計到2020年全球機器視覺(jué)市場(chǎng)規模將達到125億美元。麥姆斯咨詢(xún)也顯示,預計2016~2022年間3D傳感器市場(chǎng)規模的復合年增長(cháng)率為26.5%,2022年將達到54.6億美元。

這也是為什么蘋(píng)果、微軟、英特爾這樣的大公司會(huì )在五年時(shí)間內,紛紛投資或者收購深度傳感器、手勢識別算法以及上下游相關(guān)解決方案公司:

比如蘋(píng)果在2013年花費3.6億美元收購的PrimeSense,其前身是微軟Kinect的技術(shù)提供商,被蘋(píng)果收入麾下后,他們的結構光方案也就成功的運用到iPhone X上。

而蘋(píng)果的帶頭作用也已經(jīng)對整個(gè)智能手機市場(chǎng)產(chǎn)生影響,很多手機廠(chǎng)商正著(zhù)手尋求和國內外3D傳感器供應商合作。

另外一方面,隨著(zhù)AI和智能制造時(shí)代的到來(lái),機器人市場(chǎng)對于深度傳感器的需求也隨之增加。

毫不夸張的說(shuō),深度攝像頭所代表的三維視覺(jué)技術(shù)是一項非?;A的技術(shù),早早的進(jìn)行技術(shù)或者專(zhuān)利的布局,就是為之后的大規模應用夯實(shí)基礎。

深度攝像頭的“三駕馬車(chē)”

深度攝像頭雖然也叫作攝像頭,但是它和我們日常見(jiàn)到的還是有很大區別,以我們日常使用的手機相機為例,無(wú)論像素有多高,它也只能捕捉到一些簡(jiǎn)單的二維信息,而深度攝像頭如其名所示,它能夠測量視野內空間每個(gè)點(diǎn)的深度數據,從而獲得完整三維坐標信息。

而一旦獲得這種三維信息,就能為機器感知和智能分析提供最基礎的數據信息。

目前,市面上比較成熟的深度信息捕捉方案主要就三種:結構光、雙目視覺(jué)以及TOF(飛行時(shí)間)。

第一種是結構光方案,通過(guò)發(fā)射特定圖形的散斑或者點(diǎn)陣的激光紅外圖案,攝像頭捕捉到被測物體反射回來(lái)的圖案,計算上面散斑或者點(diǎn)的大小,然后跟原始的尺寸做對比,從而測算出被測物體到攝像頭之間的距離。

第二個(gè)叫雙目,主要通過(guò)兩個(gè)普通的攝像頭獲得深度信息,簡(jiǎn)而言之它就是模仿人眼的結構,通過(guò)兩個(gè)攝像頭的視差來(lái)確定距離信息。

第三種是TOF,它是通過(guò)發(fā)出的激光反射回來(lái)的時(shí)間算距離,TOF的方案在第二代Kinect上有使用過(guò),傳感器發(fā)出調制的脈沖紅外光,然后遇到物體反射后,它會(huì )計算出光線(xiàn)發(fā)射和反射時(shí)間差或者相位差,實(shí)現距離的測量,最終產(chǎn)生深度信息。

可以說(shuō),既有的三種方案各有所長(cháng),TOF的響應速度快、精度高,不易受環(huán)境光線(xiàn)干擾,但是功耗和成本都比較大;結構光的工業(yè)化應用較多;雙目立體成像更適合室外強光條件和高分辨率應用,目前主要應用在機器人視覺(jué)、自動(dòng)駕駛等方面。

但是,現在很多技術(shù)廠(chǎng)商在盡可能的取長(cháng)補短,彌補既有技術(shù)的短板。

深度攝像頭的產(chǎn)業(yè)鏈分解

無(wú)論是哪種方案,追根溯源其產(chǎn)業(yè)鏈的話(huà),如下圖所示:

從產(chǎn)業(yè)鏈來(lái)看,相比較傳統的攝像頭,比較突出的就是紅外相關(guān)的元件。其實(shí),如果對比兩者的結構,也能很明顯發(fā)現深度攝像頭增加了不少新的硬件組件。

2D 攝像頭模組結構

典型的3D 攝像頭模組結構

發(fā)射端上新增了紅外激光發(fā)射器和輔助元件,包括衍射光柵和光學(xué)棱鏡部件(如準直鏡頭);在接收端,新增紅外接收部分,包括鏡頭、紅外傳感器和窄帶紅外濾光片;在圖像處理器芯片上,由于算法上的復雜性,也比簡(jiǎn)單的2D成像芯片成本更高。

還是以蘋(píng)果iPhone X為例,它的黑劉海就引入了紅外光學(xué)發(fā)射器VCSEL(垂直共振腔表面放射激光)。

相比較傳統的LED,VCSEL的精度、體積以及低功耗更適合移動(dòng)端,現在大多數深度攝像頭都會(huì )采用VCSEL作為紅外光源,像蘋(píng)果的VCSEL供應商之一是IQE,另一供應商則是Lumentum。

市場(chǎng)研究機構預測,2015年VCSEL市場(chǎng)規模為9.546億美元,至2022年預計將增長(cháng)至31.241億美元,2016~2022年期間的復合年增長(cháng)率可達17.3%。

VCSEL憑借其緊湊的尺寸、高可靠性、低功耗以及較低的制造成本而應用廣泛。而汽車(chē)產(chǎn)業(yè)電氣系統對VCSEL的應用增長(cháng),正推動(dòng)整個(gè)VCSEL的市場(chǎng)增長(cháng)。

隨著(zhù)這塊市場(chǎng)的逐漸打開(kāi),提供綜合技術(shù)方案的廠(chǎng)商也開(kāi)始嶄露頭角,比如我們此前采訪(fǎng)過(guò)的圖漾和華捷艾米,都是以提供最終的軟硬件產(chǎn)品,甚至是算法為主。

另外,現在一大趨勢就是三維視覺(jué)在算法端上和人工智能的結合,從而進(jìn)一步提高識別的精確度。

以人臉識別為例,像我們熟悉的商湯、曠視都接二連三獲得數億美元的融資,這塊市場(chǎng)的容量可想而知,商湯、曠視都是算法段的高手,但是3D攝像頭可以減少對這部分算法的依賴(lài),通過(guò)采集人臉圖像的深度信息,直接在終端上提高人臉識別技術(shù)的準確率。

機器人、無(wú)人駕駛、安防、VR/AR,深度攝像頭就像萬(wàn)金油

在一項智研咨詢(xún)的數據調查中,2016-2022年3D成像會(huì )在消費電子領(lǐng)域迎來(lái)爆發(fā),其平均年復合增速達到了160%,如下圖所示,

為此鎂客君也整理一份深度傳感器的應用市場(chǎng)情況,從宏觀(guān)上來(lái)看,基本上囊括了移動(dòng)智能手機、機器人、自動(dòng)駕駛、安防等領(lǐng)域,也難怪為什么大公司十分熱衷于收購這些技術(shù)公司。

如果簡(jiǎn)單梳理一下深度攝像頭的應用方向,如下圖所示,主要集中在消費端和工業(yè)領(lǐng)域:

說(shuō)到安防中的行為識別和生物特征識別。傳統的安防攝像頭只能記錄下海量的視頻信息,而無(wú)法對視頻里面人的行為做分析和預警,有了深度攝像頭,就有了對人的動(dòng)作獲取的硬件基礎,配合深度學(xué)習算法,就可以對人的行為做識別和預警,安防的設備能夠真正能夠體現出它的價(jià)值。

智能制造方面,包括流水化生產(chǎn)線(xiàn)上的工業(yè)機器人,無(wú)人倉儲內的送貨機器人都需要及時(shí)獲取深度信息,比如送貨機器自動(dòng)將不同大小、體重的包裹運送到規定的位置,僅僅是二維平面信息完全不夠,它必須要配備深度攝像頭去獲取包括深度在內的三維信息。

同樣是我們日常常見(jiàn)的掃地機器人,它在室內的避障也需要深度攝像頭去以捕獲周?chē)沫h(huán)境信息,然后再規劃出合適的路徑。

就像圖漾的聯(lián)合創(chuàng )始人徐韜所說(shuō),“三維視覺(jué)在整個(gè)人工智能領(lǐng)域的基礎性地位,深度攝像頭的應用范圍其實(shí)是在不斷拓展,將來(lái)有望成為所有機器的標配傳感器。”

在娛樂(lè )消費端,大家就比較熟悉它的幾個(gè)應用場(chǎng)景,比如類(lèi)似于微軟Kinect的體感游戲機。要實(shí)現體感交互,很重要的就是手勢、身體骨骼動(dòng)作的識別等,以華捷艾米的3D體感芯片為例,其中就包含了骨骼跟蹤技術(shù)以及slam算法(定位、跟蹤以及路徑規劃技術(shù)的核心)等。

消費端的另一個(gè)切入口就是我們一直提到的基于智能手機的面部識別,這也是現階段不少手機廠(chǎng)商攻克的難點(diǎn)。用華捷艾米聯(lián)合創(chuàng )始人沈瑄的話(huà)來(lái)說(shuō),“安卓手機要到明年9、10月份才能逐漸擁有類(lèi)似于iPhone X的Face ID功能。”

結構光、TOF各有各的難點(diǎn),移動(dòng)端正在成為兵家必爭之地

當然,技術(shù)的應用也要追求小而美,蘋(píng)果在2013年收購結構光方案的鼻祖PrimeSense,但是直到四年后的現在,才成功將其小型化到可以應用到智能手機上。

可以說(shuō),在深度攝像頭的發(fā)展歷程中,如何去縮減傳感器的體積以及降低功耗一直是各大公司努力的方向。同樣是英特爾的RealSense技術(shù),它的設備體積就非常大,而且需要借助PC電腦來(lái)完成識別,不適用于現在的移動(dòng)端需求。

相比較行業(yè)應用,移動(dòng)端在深度傳感器上的需求差別會(huì )非常大,徐韜曾經(jīng)向鎂客君提到,“移動(dòng)端深度傳感器的體積更小、功耗更低,很多東西都要重新研發(fā),需要投入大量的人才和資源去做這個(gè)事情。”

對于消費端來(lái)說(shuō),只有低功耗、小體積才能實(shí)現真正的商業(yè)化,這也是為什么很多廠(chǎng)商在做嵌入式方案、或者以“曲線(xiàn)救國”的形式去降低功耗等。

此前,公認的是TOF比結構光更加適合應用到智能手機上,因為采用TOF原理來(lái)實(shí)現動(dòng)作追蹤和深度感知已經(jīng)出現在谷歌的Project Tango方案中,Project Tango主要用于空間三維數據的采集。去年聯(lián)想推出了一款Project Tango技術(shù)方案的手機,但是時(shí)間證明,外形過(guò)大、重量過(guò)度的Tango手機并沒(méi)有打開(kāi)市場(chǎng),現在關(guān)于這款手機的量產(chǎn)和銷(xiāo)量也不得而知,不得不說(shuō),TOF的方案還需要“斟酌”。

深圳一家做深度攝像頭方案的繁維科技創(chuàng )始人程斯特則表示,“確切來(lái)說(shuō),TOF確實(shí)是比較適合移動(dòng)端,但目前也不能說(shuō)相比之下,結構光就不適合于移動(dòng)端,很多人都斷章取義了。”

確實(shí),從iPhone X的趨勢來(lái)看,結構光正在成功攻陷移動(dòng)端。

但值得注意的是,Face ID并不是普通的結構光技術(shù),它實(shí)際上叫做激光散斑,是PrimeSense的專(zhuān)利技術(shù),而蘋(píng)果收購了他們,目前這個(gè)技術(shù)也只能是蘋(píng)果使用。

也就是說(shuō),Face ID的激光散斑技術(shù)比較封閉,而且對處理器要求高,相對來(lái)說(shuō)對接受器要求比較低;但是,TOF技術(shù)對于接收器要求比較高,而對于處理器要求很低。所以TOF的方案一定要把芯片做小,減少接收端的壓力。

一旦能實(shí)現這點(diǎn),深度傳感器會(huì )快速打開(kāi)消費端應用的市場(chǎng)。

“所有的技術(shù)在某個(gè)時(shí)間點(diǎn)都有最優(yōu)的性?xún)r(jià)比選擇,只能說(shuō)在當前這個(gè)階段,結構光是最佳的選擇,這也是為什么蘋(píng)果會(huì )選擇結構光。其實(shí)從蘋(píng)果的角度,它的實(shí)力、現金流,做任何技術(shù)都可以,但是它為什么選了結構光,也說(shuō)明其他技術(shù)在一些問(wèn)題上沒(méi)法在當前階段做一些消費級的產(chǎn)品。”沈瑄表示。

雖然移動(dòng)消費端的市場(chǎng)誘惑很大,但是這也意味著(zhù)更激烈的競爭。像高通已經(jīng)和奇景光電共同推出完整的解決方案,以高通在移動(dòng)芯片市場(chǎng)的壟斷地位,其他廠(chǎng)商很難和它進(jìn)行直面的競爭。

但是這也并不妨礙一些綜合方案解決商“快馬加鞭”地優(yōu)化自己的算法和技術(shù),去盡可能的進(jìn)入到這塊紅海市場(chǎng)中。

結語(yǔ):

此前,鎂客君在采訪(fǎng)北航教授李波的時(shí)候,他提到,將來(lái)計算機的感知系統應該是用綜合型的視覺(jué)來(lái)完成,而不是現在被動(dòng)式的采圖。比如我們會(huì )用激光、紅外、雷達、GPS等結合起來(lái)的攝像設備。

“客觀(guān)世界遠遠不止深度,還有很多像溫度、濕度、速度、方向等等,所以未來(lái)的深度相機應該要把更多的信息整合到一起。”

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到