3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

IM2Maker 5年前 (2020-06-24)

該芯片定位于高性能AI推理,已完成量產(chǎn)。

2020年6月23日,鯤云科技在深圳舉行產(chǎn)品發(fā)布會(huì ),發(fā)布全球首款數據流AI芯片CAISA,定位于高性能AI推理,已完成量產(chǎn)。鯤云通過(guò)自主研發(fā)的數據流技術(shù)在芯片實(shí)測算力上實(shí)現了技術(shù)突破,較同類(lèi)產(chǎn)品在芯片利用率上提升了最高11.6倍。第三方測試數據顯示僅用1/3的峰值算力,CAISA芯片可以實(shí)現英偉達T4最高3.91倍的實(shí)測性能。鯤云科技的定制數據流技術(shù)不依靠更大的芯片面積和制程工藝,通過(guò)數據流動(dòng)控制計算順序來(lái)提升實(shí)測性能,為用戶(hù)提供了更高的算力性?xún)r(jià)比。

深圳市人民政府副市長(cháng)、黨組成員聶新平,福田區委副書(shū)記、區長(cháng)黃偉,市科技創(chuàng )新委員會(huì )副主任鐘海、市工信局副局長(cháng)徐志斌、市科協(xié)黨組成員、常務(wù)委員孫楠和福田區委常委、副區長(cháng)舒毓民、原政協(xié)深圳市委員會(huì )副主席、黨組成員、深圳市源創(chuàng )力離岸創(chuàng )新中心理事長(cháng)王學(xué)為等政府領(lǐng)導及山東產(chǎn)業(yè)技術(shù)研究院副院長(cháng)雷斌,深圳市源創(chuàng )力離岸創(chuàng )新中心總裁周路明,英特爾PSG中國區總經(jīng)理、銷(xiāo)售總監Tiffany Xia夏迎麗等合作伙伴出席發(fā)布會(huì )。聶新平、舒毓民同志分別為活動(dòng)致辭。中國科協(xié)黨組成員、書(shū)記處書(shū)記宋軍,鯤云科技聯(lián)合創(chuàng )始人兼首席科學(xué)家、英國皇家工程院院士、美國電子電氣工程師學(xué)會(huì )(IEEE)會(huì )士、英國計算機學(xué)會(huì )(BCS)會(huì )士Wayne Luk陸永青院士,浪潮信息副總裁、浪潮AI & HPC總經(jīng)理劉軍,清華大學(xué)信息科學(xué)技術(shù)學(xué)院副院長(cháng)、電子工程系主任、深鑒科技聯(lián)合創(chuàng )始人汪玉教授,戴爾科技集團全球資深副總裁、大中華區企業(yè)解決方案總經(jīng)理曹志平,鵬城實(shí)驗室高級顧問(wèn)、黨委書(shū)記、清華大學(xué)計算機系教授、學(xué)位委員會(huì )主席、CCF會(huì )士楊士強,Intel Tiffany Xia夏迎麗,中國信息通信研究院云大所人工智能部主任、工信部人工智能技術(shù)和應用評測實(shí)驗室常務(wù)副主任、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)總體組組長(cháng)、南京新一代人工智能研究院院長(cháng)孫明俊等嘉賓為鯤云成功實(shí)現全球首款數據流AI芯片量產(chǎn)送上了祝福和寄語(yǔ)。

超高芯片利用率,定制數據流芯片架構完成3.0升級

此次發(fā)布的CAISA芯片采用鯤云自研的定制數據流芯片架構CAISA 3.0,相較于上一代芯片架構,CAISA3.0在架構效率和實(shí)測性能方面有了大幅的提升,并在算子支持上更加通用,支持絕大多數神經(jīng)網(wǎng)絡(luò )模型快速實(shí)現檢測、分類(lèi)和語(yǔ)義分割部署。CAISA3.0在多引擎支持上提供了4倍更高的并行度選擇,架構的可拓展性大大提高,在A(yíng)I芯片內,每一個(gè)CAISA都可以同時(shí)處理AI工作負載,進(jìn)一步提升了CAISA架構的性能,在峰值算力提升6倍的同時(shí)保持了高達95.4%的芯片利用率,實(shí)測性能線(xiàn)性提升。同時(shí)新一代CAISA架構對編譯器RainBuilder的支持更加友好,軟硬件協(xié)作進(jìn)一步優(yōu)化,在系統級別上為用戶(hù)提供更好的端到端性能。

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | CAISA3.0架構圖

CAISA3.0架構繼續保持在數據流技術(shù)路線(xiàn)的全球領(lǐng)先地位,指令集架構采用馮諾依曼計算方式,通過(guò)指令執行次序控制計算順序,并通過(guò)分離數據搬運與數據計算提供計算通用性。CAISA架構依托數據流流動(dòng)次序控制計算次序,采用計算流和數據流重疊運行方式消除空閑計算單元,并采用動(dòng)態(tài)配置方式保證對于人工智能算法的通用支持,突破指令集技術(shù)對于芯片算力的限制。此次升級,CAISA架構解決了數據流架構作為人工智能計算平臺的三大核心挑戰:

高算力性?xún)r(jià)比:在保持計算正確前提下,通過(guò)不斷壓縮每個(gè)空閑時(shí)鐘推高芯片實(shí)測性能以接近芯片物理極限,讓芯片內的每個(gè)時(shí)鐘、每個(gè)計算單元都在執行有效計算;

高架構通用性:在保證每個(gè)算法在CAISA上運行能夠實(shí)現高芯片利用率的同時(shí),CAISA3.0架構通用支持所有主流CNN算法;

高軟件易用性:通過(guò)專(zhuān)為CAISA定制的編譯工具鏈實(shí)現算法端到端自動(dòng)部署,用戶(hù)無(wú)需底層數據流架構背景知識,簡(jiǎn)單兩步即可實(shí)現算法遷移和部署,降低使用門(mén)檻。

具體來(lái)講,鯤云CAISA3.0架構的三大技術(shù)突破主要通過(guò)以下的技術(shù)方式實(shí)現:

· 高算力性?xún)r(jià)比:時(shí)鐘級準確的計算

CAISA3.0架構由數據流來(lái)驅動(dòng)計算過(guò)程,無(wú)指令操作,可以實(shí)現時(shí)鐘級準確的計算,最大限度的減少硬件計算資源的空閑時(shí)間。CAISA3.0架構通過(guò)數據計算與數據流動(dòng)的重疊,壓縮計算資源的每一個(gè)空閑時(shí)鐘;通過(guò)算力資源的動(dòng)態(tài)平衡,消除流水線(xiàn)的性能瓶頸;通過(guò)數據流的時(shí)空映射,最大化復用芯片內的數據流帶寬,減少對外部存儲帶寬的需求。上述設計使CNN算法的計算數據在CAISA3.0內可以實(shí)現不間斷的持續運算,最高可實(shí)現95.4%的芯片利用率,在同等峰值算力條件下,可獲得相對于GPU 3倍以上的實(shí)測算力,從而為用戶(hù)提供更高的算力性?xún)r(jià)比。

· 高架構通用性:流水線(xiàn)動(dòng)態(tài)重組

CAISA3.0架構可以通過(guò)流水線(xiàn)動(dòng)態(tài)重組實(shí)現對不同深度學(xué)習算法的高性能支持。通過(guò)CAISA架構層的數據流引擎、全局數據流網(wǎng)、全局數據流緩存,以及數據流引擎內部的人工智能算子模塊、局部數據流網(wǎng)、局部數據流緩存的分層設計,在數據流配置器控制下,CAISA架構中的數據流連接關(guān)系和運行狀態(tài)都可以被自動(dòng)化動(dòng)態(tài)配置,從而生成面向不同AI算法的高性能定制化流水線(xiàn)。在保證高性能的前提下,支持用戶(hù)使用基于CAISA3.0架構的計算平臺實(shí)現如目標檢測、分類(lèi)及語(yǔ)義分割等廣泛的人工智能算法應用。

· 高軟件易用性:算法端到端自動(dòng)化部署

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | RainBuilder架構圖

專(zhuān)為CAISA3.0架構配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動(dòng)化部署,用戶(hù)和開(kāi)發(fā)者無(wú)需了解架構的底層硬件配置,簡(jiǎn)單兩步即可實(shí)現算法快速遷移和部署。RainBuilder編譯器可自動(dòng)提取主流AI開(kāi)發(fā)框架(TensorFlow,Caffe,Pytorch,ONNX等)中開(kāi)發(fā)的深度學(xué)習算法的網(wǎng)絡(luò )結構和參數信息,并面向CAISA結構進(jìn)行優(yōu)化;工具鏈中的運行時(shí)(Runtime)和驅動(dòng)(Driver)模塊負責硬件管理并為用戶(hù)提供標準的API接口,運行時(shí)可以基于精確的CAISA性能模型,實(shí)現算法向CAISA架構的自動(dòng)化映射,同時(shí)提供可以被高級語(yǔ)言直接調用的API接口;最底層的驅動(dòng)可以實(shí)現對用戶(hù)透明的硬件控制。RainBuilder工具鏈使用簡(jiǎn)單,部署方便,通用性強,可以讓用戶(hù)快速和低成本的部署和遷移已有算法到CAISA硬件平臺上。

首款量產(chǎn)數據流AI芯片,CAISA帶來(lái)AI芯片研發(fā)新方向

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | CAISA芯片

作為全球首款采用數據流技術(shù)的AI芯片,CAISA搭載了四個(gè)CAISA 3.0引擎,具有超過(guò)1.6萬(wàn)個(gè)MAC(乘累加)單元,峰值性能可達10.9TOPs。該芯片采用28nm工藝,通過(guò)PCIe 3.0×4接口與主處理器通信,同時(shí)具有雙DDR通道,可為每個(gè)CAISA引擎提供超過(guò)340Gbps的帶寬。

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | CAISA芯片架構圖

作為一款面向邊緣和云端推理的人工智能芯片,CAISA可實(shí)現最高95.4%的芯片利用率,為客戶(hù)提供更高的算力性?xún)r(jià)比。CAISA芯片具有良好的通用性,可支持所有常用AI算子,通過(guò)數據流網(wǎng)絡(luò )中算子的不同配置和組合,CAISA芯片可支持絕大多數的CNN算法。針對CAISA芯片,鯤云提供RainBuilder 3.0工具鏈,可實(shí)現推理模型在芯片上的端到端部署,使軟件工程師可以方便的完成CAISA芯片在A(yíng)I應用系統中的集成。

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | 鯤云科技創(chuàng )始人牛昕宇發(fā)布全球首款數據流AI芯片

高算力性?xún)r(jià)比的AI計算平臺星空加速卡系列產(chǎn)品發(fā)布

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | 星空加速卡系列產(chǎn)品圖

發(fā)布會(huì )上,鯤云科技創(chuàng )始人和CEO牛昕宇博士還發(fā)布了基于CAISA芯片的星空系列邊緣和數據中心計算平臺,X3加速卡和X9加速卡,并公布了由人工智能產(chǎn)業(yè)技術(shù)聯(lián)盟(AIIA)測試的包括ResNet-50, YOLO v3等在內的主流深度學(xué)習網(wǎng)絡(luò )的實(shí)測性能。

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | 星空X3加速卡發(fā)布

星空X3加速卡是搭載單顆CAISA 芯片的數據流架構深度學(xué)習推斷計算平臺,為工業(yè)級半高半長(cháng)單槽規格的PCIe板卡。得益于其輕量化的規格特點(diǎn),X3加速卡可以與不同類(lèi)型的計算機設備進(jìn)行適配,包括個(gè)人電腦、工業(yè)計算機、網(wǎng)絡(luò )視頻錄像機、工作站、服務(wù)器等,滿(mǎn)足邊緣和高性能場(chǎng)景中的AI計算需求。相較于英偉達邊緣端旗艦產(chǎn)品Xavier,X3可實(shí)現1.48-4.12倍的實(shí)測性能提升。

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

*模型參考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X3 vs Xavier 芯片利用率對比圖

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X3 vs Xavier 性能對比圖

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X3 vs Xavier 延時(shí)對比圖

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | 星空X9加速卡發(fā)布

星空X9加速卡為搭載4顆CAISA 芯片的深度學(xué)習推斷板卡,峰值性能43.6TOPS,主要滿(mǎn)足高性能場(chǎng)景下的AI計算需求。同英偉達旗艦產(chǎn)品T4相對,X9在ResNet-50,YOLOv3等模型上的芯片利用率提升2.84-11.64倍。在實(shí)測性能方面,X9在ResNet50可達5240FPS,與T4性能接近,在YOLO v3、UNetIndustrial等檢測分割網(wǎng)絡(luò ),實(shí)測性能相較T4有1.83-3.91倍性能提升。在達到最優(yōu)實(shí)測性能下,X9處理延時(shí)相比于T4降低1.83-32倍。實(shí)測性能以及處理延時(shí)的大幅領(lǐng)先,讓數據流架構為AI芯片的發(fā)展提供了提升峰值性能之外的另一條技術(shù)路線(xiàn)。

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

*模型參考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X9 vs T4 芯片利用率對比圖

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X9 vs T4 性能對比圖

3.91倍T4實(shí)測性能提升!鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X9 vs T4 延時(shí)對比圖

鯤云科技通過(guò)CAISA數據流架構提高芯片利用率,同樣的實(shí)測性能,對芯片峰值算力的要求可大幅降低3-10倍,從而降低芯片的制造成本,為客戶(hù)提供更高的算力性?xún)r(jià)比。目前星空X3加速卡已經(jīng)實(shí)現量產(chǎn),星空X9加速卡將于今年8月推出市場(chǎng)。鯤云科技成為國內首家在發(fā)布會(huì )現場(chǎng)披露Benchmark的AI芯片公司。

商業(yè)落地先行,鯤云加速卡實(shí)現多領(lǐng)域規模落地

作為技術(shù)驅動(dòng)的AI芯片公司,鯤云科技自成立以來(lái)一直注重商業(yè)落地,目前鯤云科技已與多家行業(yè)巨頭達成戰略合作,成為英特爾全球旗艦FPGA合作伙伴,在技術(shù)培訓、營(yíng)銷(xiāo)推廣以及應用部署等方面進(jìn)行合作;與浪潮、戴爾達成戰略簽約,在A(yíng)I計算加速方面開(kāi)展深入合作;與山東產(chǎn)業(yè)技術(shù)研究院共建山東產(chǎn)研鯤云人工智能研究院,推進(jìn)人工智能芯片及應用技術(shù)的規?;涞?。明星產(chǎn)品“星空”加速卡已在電力、教育、航空航天、智能制造、智慧城市等領(lǐng)域落地。自2016年成立至今,鯤云科技已經(jīng)完成了天使輪,Pre-A輪及A輪融資,設有深圳、山東、倫敦研發(fā)中心。2018年成立人工智能創(chuàng )新應用研究院,定位于建立人工智能產(chǎn)業(yè)化技術(shù)平臺,支持人工智能最新技術(shù)在各垂直領(lǐng)域快速實(shí)際落地,啟動(dòng)鯤云高校計劃,開(kāi)展人工智能課程培訓和科研合作。除與Intel合作進(jìn)行人工智能課程培訓外,鯤云人工智能應用創(chuàng )新研究院已同帝國理工學(xué)院、哈爾濱工業(yè)大學(xué)、北京航空航天大學(xué)、天津大學(xué)、香港城市大學(xué)等成立聯(lián)合實(shí)驗室,在定制計算、AI芯片安全、工業(yè)智能等領(lǐng)域開(kāi)展前沿研究合作。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到