眼擎科技代勇:拋棄傳統ISP成像架構,讓視覺(jué)成像能力將全方位超越人眼
在其看來(lái),日常生活中,如若不能解決弱光、逆光、反光等環(huán)境中的自適應成像問(wèn)題,AI視覺(jué)產(chǎn)品便無(wú)法大規模落地、進(jìn)行產(chǎn)業(yè)化。
4月25日,由硬科技第一產(chǎn)業(yè)媒體鎂客網(wǎng)主辦,蘇州市科學(xué)技術(shù)局指導,蘇州工業(yè)園區人工智能產(chǎn)業(yè)協(xié)會(huì )、蘇州國際科技園、蒲公英孵化器協(xié)辦的“M-TECH主題論壇——AI創(chuàng )新帶來(lái)的智能革命”在蘇州南園賓館圓滿(mǎn)落幕。
現場(chǎng),眼擎科技商務(wù)總監代勇帶來(lái)了主題演講《成像引擎芯片:AI視覺(jué)的最后一公里》。過(guò)程中,其詳細結構了當前成像技術(shù)的痛點(diǎn)——在傳統的攝像頭領(lǐng)域,最大的痛點(diǎn)就是不能像人眼一樣,能夠適應各種各樣的復雜光線(xiàn)。
以下為代勇演講的要點(diǎn)摘錄:
1、很多計算機視覺(jué)系統的識別率可以達到99.9%,甚至更高。但是,這里面有一個(gè)重要的前提——所有圖像的成像效果是正常的;
2、在傳統攝像頭領(lǐng)域,它最大的痛點(diǎn)是不能像人眼一樣,能夠適應各種各樣的復雜光線(xiàn)。不管是手機還是攝像頭,它的成像能力比人臉至少差30倍以上;
3、日常生活中,如若不能解決弱光、逆光、反光等環(huán)境中的自適應成像問(wèn)題,AI視覺(jué)產(chǎn)品便無(wú)法大規模落地、進(jìn)行產(chǎn)業(yè)化;
4、成像分為三個(gè)年代,第一個(gè)是以美國柯達公司為代表的30年代,那時(shí)候的成像是光和化學(xué)的轉化;第二個(gè)是以日本成像架構為代表的數碼時(shí)代;第三個(gè)則是以AI為代表的成像時(shí)代;
5、以前,傳統的成像設備為了“人看圖像”而做的研發(fā),現在,給機器看的視覺(jué)時(shí)代開(kāi)始了;
6、當你要做一個(gè)原創(chuàng )芯片產(chǎn)品的時(shí)候,一定要做心理準備——前三年甚至更長(cháng)時(shí)間,就是老老實(shí)實(shí)的做技術(shù)研發(fā),然后兩年的市場(chǎng)推廣,才很有可能迎來(lái)接下來(lái)兩年的大規模收割。
7、中國以前做芯片,大部分是從中低端產(chǎn)品開(kāi)始做起,比如說(shuō)有一個(gè)數字控制芯片,我們做的是美國或者歐洲價(jià)格的十分之一,性能差一點(diǎn),可靠性差一點(diǎn)沒(méi)有關(guān)系,最后有市場(chǎng),所以我們看到的市場(chǎng)就是做進(jìn)口替代的生意。
以下為代勇演講全文:
今天很親切看到合作伙伴和朋友從深圳和北京來(lái)到今天的現場(chǎng)。
我們現在可以看到,從視覺(jué)來(lái)看,我們所熟知的AI公司,如商湯和曠視等等,就像在做人類(lèi)大腦的事情,即認知分析層面的事情。而眼擎科技要解決的是“AI視覺(jué)成像的最后一公里”,做類(lèi)似于“人眼”的東西。
AI視覺(jué)里面,今天看到許多媒體報道,很多計算機視覺(jué)系統的識別率可以達到99.9%,甚至更高。但是,這里面有一個(gè)重要的前提——當這些產(chǎn)品在實(shí)驗室里,所有圖像的成像效果是正常的。
在現實(shí)生活中,我們自己有很深的感受,就比如淘寶的買(mǎi)家秀和賣(mài)家秀。
在賣(mài)家秀的照片中,層次分明、顏色豐富、光線(xiàn)很正常。但是買(mǎi)家秀的照片,往往很黑、沒(méi)有細節。這時(shí)候就出現問(wèn)題了,AI算法該怎么識別呢?
其實(shí),在這方面,包括語(yǔ)音在內,都可以看到比較大的問(wèn)題。當語(yǔ)音算法非常優(yōu)秀的時(shí)候,最受制約的就是前端的麥克風(fēng),后者比算法落后了十年。
為什么有這個(gè)問(wèn)題?就有一個(gè)現象——在傳統的攝像頭領(lǐng)域,它最大的痛點(diǎn)是不能像人眼一樣,能夠適應各種各樣的復雜光線(xiàn)。不管是手機還是攝像頭,它的成像能力比我們人臉至少差30倍以上。
前一段時(shí)間,Uber自動(dòng)駕駛汽車(chē)在美國道路上行駛的時(shí)候撞死行人,這個(gè)事已經(jīng)眾所周知了。雖然事故的原因仍在調查,但在公布的視頻里,在撞人的一瞬間,這個(gè)行人非常不湊巧的是從大燈的暗光部走到亮光部,對于傳統的攝像頭就意味著(zhù)亮度不夠。
我們自己開(kāi)車(chē)也有一個(gè)體驗,因為道路有路燈,汽車(chē)有大燈,人在那兒肯定能看到這個(gè)行人。但是,當機器的眼睛的能力不夠時(shí),就做不到這一點(diǎn)。
因此我們認為在A(yíng)I視覺(jué)的產(chǎn)業(yè)中,如若不能解決弱光、逆光、反光等環(huán)境中的自適應成像問(wèn)題,AI視覺(jué)產(chǎn)品便無(wú)法大規模落地、進(jìn)行產(chǎn)業(yè)化。
還原一下,從歷史的成因來(lái)看,成像分為三個(gè)年代:
一個(gè)時(shí)代是以美國柯達公司為代表的30年代,那時(shí)候是光和化學(xué)的轉化;
80年代,日本開(kāi)始做起來(lái),整個(gè)成像產(chǎn)業(yè)進(jìn)入了日系統治時(shí)代,我們可以看到今天所有的設備、攝像機都是日系的。還有一個(gè)奇怪的現象,當日本開(kāi)始數碼時(shí)代之后,美國和歐洲都沒(méi)有踏足成像技術(shù)。目前,所有成像ISP技術(shù)的核心全部是日本的。同樣,成像技術(shù)的架構革新能不能適應AI時(shí)代的需要,如果日本不做,大家就一直要等待;
到2018年,以AI為代表的時(shí)代來(lái)臨,很多興起的產(chǎn)業(yè)都是在中國。我們認為,數碼相機ISP架構是沒(méi)有辦法解決高動(dòng)態(tài)范圍內復雜的光線(xiàn)問(wèn)題。
為什么會(huì )這樣?傳統的ISP架構有一個(gè)致命缺陷,那就是基于8位的數據處理導致大量RAW 數據信息丟失,從而讓圖像細節丟失嚴重。喜歡玩單反的朋友們都知道,很多專(zhuān)業(yè)的攝影師,其實(shí)在拍照的時(shí)候,是不用JPG格式的圖片的,更多是是基于后期的軟件修圖,最后把照片調的非常漂亮。在日系成像架構里,傳統的ISP架構有一個(gè)非常不好的地方,它所有出來(lái)的RAW數據,第一步進(jìn)入ISP處理的時(shí)候,直接就把16位的裁成8位,,RAW數據是一個(gè)單獨的數據流,如果是16位的信息被ISP裁成8位,那么JPG格式照片比原始RAW數據信息少256倍。就是通俗理解的,這個(gè)圖片在傳統的架構上給到算法識別的時(shí)候,這個(gè)圖像的信息少了接近200多倍,這就導致了圖片出現問(wèn)題,為什么圖像的質(zhì)量那么差,那么不清晰,為什么逆光拍的不清楚。這個(gè)里面有一個(gè)大概的結構,包括鏡頭、CMOS傳感器,還有成像引擎,我們就是要專(zhuān)門(mén)解決這個(gè)問(wèn)題。
眼擎科技是一家致力于研發(fā)比人眼更強的成像引擎公司。我們可以看到左邊的圖片,這是實(shí)驗室現場(chǎng)圖景,很黑,但是經(jīng)過(guò)成像引擎的處理之后,在現場(chǎng)沒(méi)有任何輔助光源的前提下,我們可以把照片中物體的顏色進(jìn)行還原,讓成像很清楚。
左邊有一個(gè)短視頻,沒(méi)有成像引擎的時(shí)候,整個(gè)場(chǎng)景都是很黑的,但是我們開(kāi)啟成像引擎的時(shí)候,就可以把圖像的顏色和亮度,物體的細節就都可以被看清楚。
通過(guò)努力,我們可以做到在實(shí)時(shí)的弱光、逆光等復雜光纖環(huán)境下,讓設備的成像能力超越人眼,并且幫助算法進(jìn)行正常的識別。目前成像引擎暗光能力比人眼高8倍,降噪能力比攝像頭高64倍,逆光能力比攝像頭高32倍。未來(lái)三年,眼擎科技的使命就是讓視覺(jué)成像能力將全方位超越人眼。
我們怎么做到呢?剛才講傳統ISP核心的問(wèn)題,就是不管圖像信息多豐富,我進(jìn)來(lái)先給你裁剪成8位數據,信息量就少了200多倍。我們第一天就徹底拋棄了日系的傳統架構,在成型引擎架構中,當一個(gè)CMOS 14~20位RAW數據進(jìn)來(lái)的時(shí)候,我們直接基于Raw數據進(jìn)行處理,最后在把它壓縮成8位的JPG圖像,保留所有圖像細節信息讓AI機器可以識別出來(lái),不管是什么樣的光線(xiàn)環(huán)境下,都可以很好的處理。
這里跟大家分享一下:AI的革新帶給成像產(chǎn)業(yè)的變革是什么?
以前傳統的成像設備都是基于“人看圖像”在做研發(fā),現在,給機器看的視覺(jué)時(shí)代開(kāi)始了。首先,AI視覺(jué)不需要美化圖像,需要的是高精度的視覺(jué)測量?jì)x器,即圖像準不準,顏色準不準。另外,顏色是AI視覺(jué)測量世界的根本依據,包括信噪比也是衡量顏色準確度的關(guān)鍵指標。
我們眼擎科技的產(chǎn)品是eyemore×42成像芯片,是AI機器的視覺(jué)中樞。比較傳統的成像能力,我們在有20倍的算力提升、20+算法以及500多種光線(xiàn)場(chǎng)景的驗證數據。
明年,我們會(huì )做到28納米,2020年我們會(huì )做成一個(gè)14納米的SOC,這樣的話(huà),我們的算力將更加強大,功能更加豐富。
做一個(gè)芯片挺難的,更難的是怎么把芯片賣(mài)出去。從第一天開(kāi)始,我們就深刻認識單獨做一個(gè)芯片很難形成一個(gè)產(chǎn)業(yè),當一個(gè)客戶(hù)有一個(gè)新場(chǎng)景的時(shí)候,最先用的是開(kāi)發(fā)套件驗證性能和場(chǎng)景,然后,會(huì )用你的模組進(jìn)行小批量試產(chǎn),等到規模穩定之后才考慮用你的芯片,后面還有IP授權,行業(yè)定制等模式,這是我們建立起來(lái)的完整商業(yè)模式。
我們是一個(gè)“3+2+2”模式,怎么說(shuō)呢?當你要做一個(gè)原創(chuàng )芯片產(chǎn)品的時(shí)候,一定要做心理準備——前三年甚至更長(cháng)時(shí)間,就是老老實(shí)實(shí)的做技術(shù)研發(fā),然后兩年的市場(chǎng)推廣,才很有可能迎來(lái)接下來(lái)兩年的大規模收割。
我們成立于2014年,幾年來(lái)專(zhuān)注做一件事情,就是開(kāi)發(fā)超越人眼的成像引擎。我們今年是第四年,市場(chǎng)推廣的第二年,我們徹底拋棄傳統的ISP成像架構,從解決復雜光線(xiàn)下的成像品質(zhì)角度起步,形成單點(diǎn)突破,最終超越人眼。
分享一個(gè)案例,4月20日我們發(fā)布了針對自動(dòng)駕駛和輔助駕駛的DX120汽車(chē)成像方案,產(chǎn)品系統整個(gè)都是車(chē)規級要求的。我們第一天做的時(shí)候就是從非常成熟的產(chǎn)業(yè)角度去做的這個(gè)事情。其中,120dB是什么概念呢?這個(gè)是個(gè)歐洲車(chē)規標準,這個(gè)動(dòng)態(tài)范圍基本與我們人眼的能力等同,我們先將汽車(chē)的視覺(jué)能力提升到和人能力等同,以后路上汽車(chē)也可以很安全的看路而行。
視覺(jué)其實(shí)是一個(gè)很直觀(guān)的事情,可能大家不是做這一塊的,就不了解我們的技術(shù),在這就分享一個(gè)在深圳道路實(shí)測的視頻。右邊是我們的DX120拍的,過(guò)隧道非常典型的場(chǎng)景,有逆光,還有道路漆黑,左邊對比的情況下,大家看不清楚的時(shí)候,其實(shí)可以看到DX120 視頻流中圖像的層次,輪廓和車(chē)牌都可以看得很清楚,這就是我們講的120dB的概念。
這個(gè)是北京實(shí)驗室拍的,很多人都知道逆光是很頭疼的事情,你想拍清楚人的時(shí)候,背景過(guò)度曝光,左邊就是可以看到人和背景,同時(shí)也可以看得非常清楚。
產(chǎn)業(yè)布局也是一樣的,我們的技術(shù)會(huì )重點(diǎn)放在自動(dòng)駕駛、安防、工業(yè)檢測、無(wú)人零售和機器人、深度相機六個(gè)領(lǐng)域。
2018年,我們的市場(chǎng)策略是針對行業(yè)領(lǐng)域樹(shù)立標準,同時(shí)兼顧戰略客戶(hù)、行業(yè)標桿客戶(hù)和落地客戶(hù)的市場(chǎng)戰略,歡迎大家跟我們建立合作。
這是我們產(chǎn)業(yè)布局的分布。芯片產(chǎn)業(yè)現在比較有意思,以前受制于產(chǎn)業(yè)格局的局限,所有的東西都是CPU一家獨大,現在所有的算法基于GPU,它的重要性就被體現出來(lái)了。當GPU的算力達到很高標準,算法很豐富的時(shí)候,前端攝像頭這個(gè)眼睛的成像能力好壞,就成了“最后一公里”的關(guān)鍵問(wèn)題,也是我們現在在做的事情。
最后跟大家分享一個(gè)中興的事情。很多朋友問(wèn)我,說(shuō)中國航母都造出來(lái)了,火箭也造出來(lái)了,為什么一個(gè)芯片會(huì )這么困擾大家?
中國人做芯片只能做很簡(jiǎn)單的,比如說(shuō)有一個(gè)數字控制芯片,我們做的是美國或者歐洲價(jià)格的十分之一,性能差一點(diǎn),可靠性差一點(diǎn)沒(méi)有關(guān)系,最后有市場(chǎng),所以我們看到的市場(chǎng)就是做進(jìn)口替代的生意。以前想做芯片其實(shí)沒(méi)有空間,現在A(yíng)I的興起,對AI芯片需求逐漸多樣化,全球都在統一起跑線(xiàn)上,大家才有機會(huì ),我們第一天起就很清楚要做這個(gè)領(lǐng)域屬于自己的原創(chuàng )數字的高端芯片,將來(lái)成為成像引擎芯片產(chǎn)業(yè)的領(lǐng)導者
這個(gè)是我們的創(chuàng )業(yè)團隊,創(chuàng )始人是朱繼志,1998年在北大電子系畢業(yè),他后來(lái)在中興做了十年的視頻圖像產(chǎn)品研發(fā)和管理,接著(zhù)在國內最大的芯片分銷(xiāo)商做了八年,負責包括汽車(chē)、手機、工業(yè)等芯片推廣,所以我們在視覺(jué)、芯片都有比較資深的經(jīng)驗。另外,我們CTO余博士專(zhuān)注成像領(lǐng)域技術(shù)20年,在圖像領(lǐng)域和成像算法研發(fā)都有豐富的經(jīng)驗。
也希望更多合作伙伴能夠與我們一起探索AI視覺(jué)時(shí)代的新成像市場(chǎng)。
我的演講到此結束!謝謝大家。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
