搜索

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

IM2Maker 5年前 (2020-06-24)

該芯片定位于高性能AI推理，已完成量產(chǎn)。

2020年6月23日，鯤云科技在深圳舉行產(chǎn)品發(fā)布會(huì )，發(fā)布全球首款數據流AI芯片CAISA，定位于高性能AI推理，已完成量產(chǎn)。鯤云通過(guò)自主研發(fā)的數據流技術(shù)在芯片實(shí)測算力上實(shí)現了技術(shù)突破，較同類(lèi)產(chǎn)品在芯片利用率上提升了最高11.6倍。第三方測試數據顯示僅用1/3的峰值算力，CAISA芯片可以實(shí)現英偉達T4最高3.91倍的實(shí)測性能。鯤云科技的定制數據流技術(shù)不依靠更大的芯片面積和制程工藝，通過(guò)數據流動(dòng)控制計算順序來(lái)提升實(shí)測性能，為用戶(hù)提供了更高的算力性?xún)r(jià)比。

深圳市人民政府副市長(cháng)、黨組成員聶新平，福田區委副書(shū)記、區長(cháng)黃偉，市科技創(chuàng )新委員會(huì )副主任鐘海、市工信局副局長(cháng)徐志斌、市科協(xié)黨組成員、常務(wù)委員孫楠和福田區委常委、副區長(cháng)舒毓民、原政協(xié)深圳市委員會(huì )副主席、黨組成員、深圳市源創(chuàng )力離岸創(chuàng )新中心理事長(cháng)王學(xué)為等政府領(lǐng)導及山東產(chǎn)業(yè)技術(shù)研究院副院長(cháng)雷斌，深圳市源創(chuàng )力離岸創(chuàng )新中心總裁周路明，英特爾PSG中國區總經(jīng)理、銷(xiāo)售總監Tiffany Xia夏迎麗等合作伙伴出席發(fā)布會(huì )。聶新平、舒毓民同志分別為活動(dòng)致辭。中國科協(xié)黨組成員、書(shū)記處書(shū)記宋軍，鯤云科技聯(lián)合創(chuàng )始人兼首席科學(xué)家、英國皇家工程院院士、美國電子電氣工程師學(xué)會(huì )（IEEE）會(huì )士、英國計算機學(xué)會(huì )（BCS）會(huì )士Wayne Luk陸永青院士，浪潮信息副總裁、浪潮AI & HPC總經(jīng)理劉軍，清華大學(xué)信息科學(xué)技術(shù)學(xué)院副院長(cháng)、電子工程系主任、深鑒科技聯(lián)合創(chuàng )始人汪玉教授，戴爾科技集團全球資深副總裁、大中華區企業(yè)解決方案總經(jīng)理曹志平，鵬城實(shí)驗室高級顧問(wèn)、黨委書(shū)記、清華大學(xué)計算機系教授、學(xué)位委員會(huì )主席、CCF會(huì )士楊士強，Intel Tiffany Xia夏迎麗，中國信息通信研究院云大所人工智能部主任、工信部人工智能技術(shù)和應用評測實(shí)驗室常務(wù)副主任、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟（AIIA）總體組組長(cháng)、南京新一代人工智能研究院院長(cháng)孫明俊等嘉賓為鯤云成功實(shí)現全球首款數據流AI芯片量產(chǎn)送上了祝福和寄語(yǔ)。

超高芯片利用率，定制數據流芯片架構完成3.0升級

此次發(fā)布的CAISA芯片采用鯤云自研的定制數據流芯片架構CAISA 3.0，相較于上一代芯片架構，CAISA3.0在架構效率和實(shí)測性能方面有了大幅的提升，并在算子支持上更加通用，支持絕大多數神經(jīng)網(wǎng)絡(luò )模型快速實(shí)現檢測、分類(lèi)和語(yǔ)義分割部署。CAISA3.0在多引擎支持上提供了4倍更高的并行度選擇，架構的可拓展性大大提高，在A(yíng)I芯片內，每一個(gè)CAISA都可以同時(shí)處理AI工作負載，進(jìn)一步提升了CAISA架構的性能，在峰值算力提升6倍的同時(shí)保持了高達95.4%的芯片利用率，實(shí)測性能線(xiàn)性提升。同時(shí)新一代CAISA架構對編譯器RainBuilder的支持更加友好，軟硬件協(xié)作進(jìn)一步優(yōu)化，在系統級別上為用戶(hù)提供更好的端到端性能。

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | CAISA3.0架構圖

CAISA3.0架構繼續保持在數據流技術(shù)路線(xiàn)的全球領(lǐng)先地位，指令集架構采用馮諾依曼計算方式，通過(guò)指令執行次序控制計算順序，并通過(guò)分離數據搬運與數據計算提供計算通用性。CAISA架構依托數據流流動(dòng)次序控制計算次序，采用計算流和數據流重疊運行方式消除空閑計算單元，并采用動(dòng)態(tài)配置方式保證對于人工智能算法的通用支持，突破指令集技術(shù)對于芯片算力的限制。此次升級，CAISA架構解決了數據流架構作為人工智能計算平臺的三大核心挑戰：

高算力性?xún)r(jià)比：在保持計算正確前提下，通過(guò)不斷壓縮每個(gè)空閑時(shí)鐘推高芯片實(shí)測性能以接近芯片物理極限，讓芯片內的每個(gè)時(shí)鐘、每個(gè)計算單元都在執行有效計算；

高架構通用性：在保證每個(gè)算法在CAISA上運行能夠實(shí)現高芯片利用率的同時(shí)，CAISA3.0架構通用支持所有主流CNN算法；

高軟件易用性：通過(guò)專(zhuān)為CAISA定制的編譯工具鏈實(shí)現算法端到端自動(dòng)部署，用戶(hù)無(wú)需底層數據流架構背景知識，簡(jiǎn)單兩步即可實(shí)現算法遷移和部署，降低使用門(mén)檻。

具體來(lái)講，鯤云CAISA3.0架構的三大技術(shù)突破主要通過(guò)以下的技術(shù)方式實(shí)現：

· 高算力性?xún)r(jià)比：時(shí)鐘級準確的計算

CAISA3.0架構由數據流來(lái)驅動(dòng)計算過(guò)程，無(wú)指令操作，可以實(shí)現時(shí)鐘級準確的計算，最大限度的減少硬件計算資源的空閑時(shí)間。CAISA3.0架構通過(guò)數據計算與數據流動(dòng)的重疊，壓縮計算資源的每一個(gè)空閑時(shí)鐘；通過(guò)算力資源的動(dòng)態(tài)平衡，消除流水線(xiàn)的性能瓶頸；通過(guò)數據流的時(shí)空映射，最大化復用芯片內的數據流帶寬，減少對外部存儲帶寬的需求。上述設計使CNN算法的計算數據在CAISA3.0內可以實(shí)現不間斷的持續運算，最高可實(shí)現95.4%的芯片利用率，在同等峰值算力條件下，可獲得相對于GPU 3倍以上的實(shí)測算力，從而為用戶(hù)提供更高的算力性?xún)r(jià)比。

· 高架構通用性：流水線(xiàn)動(dòng)態(tài)重組

CAISA3.0架構可以通過(guò)流水線(xiàn)動(dòng)態(tài)重組實(shí)現對不同深度學(xué)習算法的高性能支持。通過(guò)CAISA架構層的數據流引擎、全局數據流網(wǎng)、全局數據流緩存，以及數據流引擎內部的人工智能算子模塊、局部數據流網(wǎng)、局部數據流緩存的分層設計，在數據流配置器控制下，CAISA架構中的數據流連接關(guān)系和運行狀態(tài)都可以被自動(dòng)化動(dòng)態(tài)配置，從而生成面向不同AI算法的高性能定制化流水線(xiàn)。在保證高性能的前提下，支持用戶(hù)使用基于CAISA3.0架構的計算平臺實(shí)現如目標檢測、分類(lèi)及語(yǔ)義分割等廣泛的人工智能算法應用。

· 高軟件易用性：算法端到端自動(dòng)化部署

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | RainBuilder架構圖

專(zhuān)為CAISA3.0架構配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動(dòng)化部署，用戶(hù)和開(kāi)發(fā)者無(wú)需了解架構的底層硬件配置，簡(jiǎn)單兩步即可實(shí)現算法快速遷移和部署。RainBuilder編譯器可自動(dòng)提取主流AI開(kāi)發(fā)框架（TensorFlow，Caffe，Pytorch，ONNX等）中開(kāi)發(fā)的深度學(xué)習算法的網(wǎng)絡(luò )結構和參數信息，并面向CAISA結構進(jìn)行優(yōu)化；工具鏈中的運行時(shí)（Runtime）和驅動(dòng)（Driver）模塊負責硬件管理并為用戶(hù)提供標準的API接口，運行時(shí)可以基于精確的CAISA性能模型，實(shí)現算法向CAISA架構的自動(dòng)化映射，同時(shí)提供可以被高級語(yǔ)言直接調用的API接口；最底層的驅動(dòng)可以實(shí)現對用戶(hù)透明的硬件控制。RainBuilder工具鏈使用簡(jiǎn)單，部署方便，通用性強，可以讓用戶(hù)快速和低成本的部署和遷移已有算法到CAISA硬件平臺上。

首款量產(chǎn)數據流AI芯片，CAISA帶來(lái)AI芯片研發(fā)新方向

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | CAISA芯片

作為全球首款采用數據流技術(shù)的AI芯片，CAISA搭載了四個(gè)CAISA 3.0引擎，具有超過(guò)1.6萬(wàn)個(gè)MAC（乘累加）單元，峰值性能可達10.9TOPs。該芯片采用28nm工藝，通過(guò)PCIe 3.0×4接口與主處理器通信，同時(shí)具有雙DDR通道，可為每個(gè)CAISA引擎提供超過(guò)340Gbps的帶寬。

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | CAISA芯片架構圖

作為一款面向邊緣和云端推理的人工智能芯片，CAISA可實(shí)現最高95.4%的芯片利用率，為客戶(hù)提供更高的算力性?xún)r(jià)比。CAISA芯片具有良好的通用性，可支持所有常用AI算子，通過(guò)數據流網(wǎng)絡(luò )中算子的不同配置和組合，CAISA芯片可支持絕大多數的CNN算法。針對CAISA芯片，鯤云提供RainBuilder 3.0工具鏈，可實(shí)現推理模型在芯片上的端到端部署，使軟件工程師可以方便的完成CAISA芯片在A(yíng)I應用系統中的集成。

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | 鯤云科技創(chuàng )始人牛昕宇發(fā)布全球首款數據流AI芯片

高算力性?xún)r(jià)比的AI計算平臺星空加速卡系列產(chǎn)品發(fā)布

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | 星空加速卡系列產(chǎn)品圖

發(fā)布會(huì )上，鯤云科技創(chuàng )始人和CEO牛昕宇博士還發(fā)布了基于CAISA芯片的星空系列邊緣和數據中心計算平臺，X3加速卡和X9加速卡，并公布了由人工智能產(chǎn)業(yè)技術(shù)聯(lián)盟（AIIA）測試的包括ResNet-50, YOLO v3等在內的主流深度學(xué)習網(wǎng)絡(luò )的實(shí)測性能。

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | 星空X3加速卡發(fā)布

星空X3加速卡是搭載單顆CAISA 芯片的數據流架構深度學(xué)習推斷計算平臺，為工業(yè)級半高半長(cháng)單槽規格的PCIe板卡。得益于其輕量化的規格特點(diǎn)，X3加速卡可以與不同類(lèi)型的計算機設備進(jìn)行適配，包括個(gè)人電腦、工業(yè)計算機、網(wǎng)絡(luò )視頻錄像機、工作站、服務(wù)器等，滿(mǎn)足邊緣和高性能場(chǎng)景中的AI計算需求。相較于英偉達邊緣端旗艦產(chǎn)品Xavier，X3可實(shí)現1.48-4.12倍的實(shí)測性能提升。

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

*模型參考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X3 vs Xavier 芯片利用率對比圖

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X3 vs Xavier 性能對比圖

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X3 vs Xavier 延時(shí)對比圖

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | 星空X9加速卡發(fā)布

星空X9加速卡為搭載4顆CAISA 芯片的深度學(xué)習推斷板卡，峰值性能43.6TOPS，主要滿(mǎn)足高性能場(chǎng)景下的AI計算需求。同英偉達旗艦產(chǎn)品T4相對，X9在ResNet-50,YOLOv3等模型上的芯片利用率提升2.84-11.64倍。在實(shí)測性能方面，X9在ResNet50可達5240FPS，與T4性能接近，在YOLO v3、UNetIndustrial等檢測分割網(wǎng)絡(luò )，實(shí)測性能相較T4有1.83-3.91倍性能提升。在達到最優(yōu)實(shí)測性能下，X9處理延時(shí)相比于T4降低1.83-32倍。實(shí)測性能以及處理延時(shí)的大幅領(lǐng)先，讓數據流架構為AI芯片的發(fā)展提供了提升峰值性能之外的另一條技術(shù)路線(xiàn)。

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

*模型參考：https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X9 vs T4 芯片利用率對比圖

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X9 vs T4 性能對比圖

3.91倍T4實(shí)測性能提升！鯤云科技發(fā)布全球首款數據流AI芯片

圖 | X9 vs T4 延時(shí)對比圖

鯤云科技通過(guò)CAISA數據流架構提高芯片利用率，同樣的實(shí)測性能，對芯片峰值算力的要求可大幅降低3-10倍，從而降低芯片的制造成本，為客戶(hù)提供更高的算力性?xún)r(jià)比。目前星空X3加速卡已經(jīng)實(shí)現量產(chǎn)，星空X9加速卡將于今年8月推出市場(chǎng)。鯤云科技成為國內首家在發(fā)布會(huì )現場(chǎng)披露Benchmark的AI芯片公司。

商業(yè)落地先行，鯤云加速卡實(shí)現多領(lǐng)域規模落地

作為技術(shù)驅動(dòng)的AI芯片公司，鯤云科技自成立以來(lái)一直注重商業(yè)落地，目前鯤云科技已與多家行業(yè)巨頭達成戰略合作，成為英特爾全球旗艦FPGA合作伙伴，在技術(shù)培訓、營(yíng)銷(xiāo)推廣以及應用部署等方面進(jìn)行合作；與浪潮、戴爾達成戰略簽約，在A(yíng)I計算加速方面開(kāi)展深入合作；與山東產(chǎn)業(yè)技術(shù)研究院共建山東產(chǎn)研鯤云人工智能研究院，推進(jìn)人工智能芯片及應用技術(shù)的規?；涞?。明星產(chǎn)品“星空”加速卡已在電力、教育、航空航天、智能制造、智慧城市等領(lǐng)域落地。自2016年成立至今，鯤云科技已經(jīng)完成了天使輪，Pre-A輪及A輪融資，設有深圳、山東、倫敦研發(fā)中心。2018年成立人工智能創(chuàng )新應用研究院，定位于建立人工智能產(chǎn)業(yè)化技術(shù)平臺，支持人工智能最新技術(shù)在各垂直領(lǐng)域快速實(shí)際落地，啟動(dòng)鯤云高校計劃，開(kāi)展人工智能課程培訓和科研合作。除與Intel合作進(jìn)行人工智能課程培訓外，鯤云人工智能應用創(chuàng )新研究院已同帝國理工學(xué)院、哈爾濱工業(yè)大學(xué)、北京航空航天大學(xué)、天津大學(xué)、香港城市大學(xué)等成立聯(lián)合實(shí)驗室，在定制計算、AI芯片安全、工業(yè)智能等領(lǐng)域開(kāi)展前沿研究合作。

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

IM2Maker作者

硬科技產(chǎn)業(yè)媒體，關(guān)注技術(shù)驅動(dòng)創(chuàng )新

IM2Maker作者

硬科技產(chǎn)業(yè)媒體，關(guān)注技術(shù)驅動(dòng)創(chuàng )新

530篇

文章總數

最新文章

正式定檔！2025 CBA-China中國年會(huì )暨CBA成立三十周年慶典

2025（第七屆）民用航空發(fā)動(dòng)機與燃氣輪機行業(yè)大會(huì )暨渦輪技術(shù)展覽會(huì )震撼登陸蘇州

整頓政治正確，馬斯克進(jìn)軍游戲行業(yè)！

開(kāi)了6個(gè)月小米SU7，福特CEO也成了米粉？

高通開(kāi)芯片發(fā)布會(huì )，為何ARM急了？

janpanese日本护士tube_色欲久久久天天天_国产精品国产三级区别第一集_一色屋任你精品亚洲香蕉