前景可觀(guān)的存算一體技術(shù),到底有多難商用?
沒(méi)有一家公司的存算一體技術(shù)解決方案收到廣泛的市場(chǎng)認可。
最近,隨著(zhù)5G商用和云計算需求的迅猛增長(cháng),建設新一代適用各類(lèi)AI場(chǎng)景的大規模數據中心成為各大運營(yíng)商和巨頭公司接下來(lái)的工作重點(diǎn),其中,提升性能和降低成本是大家最為關(guān)心的話(huà)題之一。
今年年初阿里達摩院發(fā)布了2020年十大科技趨勢,它認為存算一體是突破AI算力瓶頸的關(guān)鍵技術(shù)。因為利用存算一體技術(shù),設備性能不僅能夠顯著(zhù)提升,建設成本也能夠大幅降低。
然而盡管存算一體技術(shù)方向廣受認可,英特爾、Arm、微軟等公司也均參與到該技術(shù)方向的投資,也有多家公司給出了可行的存算一體解決方案,但有一個(gè)不爭的事實(shí)是,沒(méi)有一家公司的存算一體技術(shù)解決方案受到廣泛的市場(chǎng)認可。
簡(jiǎn)單來(lái)說(shuō),雖然“存算一體”概念很容易理解,即計算與存儲兩個(gè)模塊的融合設計以實(shí)現對數據的高效處理,但落到場(chǎng)景和商業(yè)發(fā)展推進(jìn)過(guò)程中,它面臨的產(chǎn)業(yè)矛盾和難處遠超業(yè)內的想象。
存算一體技術(shù)有多復雜?
存算一體技術(shù)雖然極具前景,但其實(shí)非常復雜,因此很多大公司都選擇投資初創(chuàng )公司來(lái)完成這件事,而不是自己從頭去開(kāi)發(fā)。
如美國著(zhù)名的存算一體AI芯片初創(chuàng )公司Mythic,因其在存內計算芯片(IPU)有顯著(zhù)的研究進(jìn)展,在2019年剛剛結束的B+輪融資中,它就受到了軟銀、美光等投資者的支持,此前它還獲得了美國國防部的資金支持。此外,美國另一家專(zhuān)注于語(yǔ)音識別的存算一體AI芯片初創(chuàng )公司Syntiant,它的背書(shū)者們——微軟、英特爾、亞馬遜、博世等,也是廣泛分布在計算和存儲領(lǐng)域的巨頭公司,甚至高通也邀請Syntiant來(lái)做可穿戴設備芯片的語(yǔ)音解決方案。
在國內,現在在這一領(lǐng)域有所探索的,包括知存科技、閃億半導體、憶芯科技等,也都是初創(chuàng )公司。
可以看見(jiàn),大公司更傾向于選擇“站隊”,在巨頭們中,除了下游大力推進(jìn)基于ReRAM的存內計算方案的臺積電,IBM是唯一公開(kāi)自己存算一體技術(shù)布局的公司。
在相變存內計算方面,IBM已經(jīng)有了多年的技術(shù)積累,因此它也可以代表整個(gè)存算一體技術(shù)產(chǎn)業(yè)的先進(jìn)水平。但盡管在核心部件PCM器件上有了十余年的研究積累,并且IBM在2016年就透露了其關(guān)于存內計算的研發(fā)計劃,提出了混合精度內存計算的新概念,至今為止,IBM也只發(fā)布了基于該項技術(shù)的8位模擬芯片,定位是處理深度神經(jīng)網(wǎng)絡(luò )。
與傳統芯片相比,該芯片在成本和功耗上有非常顯著(zhù)的改進(jìn),包括存儲與計算之間的通信成本也大大降低了,但是它的弱點(diǎn)也很明顯:因為AI訓練需要保持梯度計算的保真度和權重更新,現有AI芯片大多在16位精度以上,8位的精度看起來(lái)是沒(méi)有辦法廣泛使用的。
這也很讓人懷疑,費了大力氣研發(fā)出來(lái)的全新架構芯片,到底能不能走出實(shí)驗室?
不得不直面的“困境”
存算一體技術(shù)商用真的那么難?
受計算機馮·諾依曼計算機體系架構影響,計算和存儲一直以來(lái)是相互分離的設計。但是隨著(zhù)大數據時(shí)代的到來(lái),以數據為中心的數據密集型技術(shù)成為主流系統設計思路,我們的關(guān)注點(diǎn)也不再僅限于數據的計算和加工,而更為看重的是對數據的“搬運”,即從根本上消除不必要的數據流動(dòng),這催生了計算與存儲的融合(存算一體)。
簡(jiǎn)單來(lái)說(shuō),在傳統計算機的設定里,存儲模塊是為計算服務(wù)的,因此設計上會(huì )考慮存儲與計算的分離與優(yōu)先級。但是如今,存儲和計算不得不整體考慮,以最佳的配合方式為數據采集、傳輸和處理服務(wù)。這里面,存儲與計算的再分配過(guò)程就會(huì )面臨各種問(wèn)題,而它們主要體現為存儲墻、帶寬墻和功耗墻問(wèn)題。
以存儲墻問(wèn)題為例,因為計算與存儲各自獨立演進(jìn),且傳統的觀(guān)點(diǎn)認為計算系統性能受限于計算能力,因而過(guò)去幾十年產(chǎn)業(yè)界在計算方面的投入巨大。有數據顯示,過(guò)去二十年,處理器性能以每年大約55%的速度提升,內存性能的提升速度每年只有10%左右。結果長(cháng)期下來(lái),不均衡的發(fā)展速度造成了當前的存儲速度嚴重滯后于處理器的計算速度,內存瓶頸導致高性能存儲器難以發(fā)揮應有的功效,遭遇了所謂的存儲墻問(wèn)題。
因此,存算一體技術(shù)的提出不僅僅要打破人們對傳統存儲和計算的認知,它還要解決這些已有的“歷史遺留”問(wèn)題,實(shí)現存算之間更加低成本的“無(wú)縫對接”。
目前,業(yè)內提出了幾種可行的技術(shù)解決方向,其中計算型存儲、存內計算、3D堆疊和類(lèi)腦計算頗受關(guān)注,但究竟哪一種可行,眾說(shuō)紛紜。
圖 | 3D堆疊
以現在最為火熱的存內計算技術(shù)來(lái)說(shuō),為了推動(dòng)這項技術(shù)的發(fā)展,近兩年的芯片設計頂會(huì )ISSCC已經(jīng)為其設立了專(zhuān)門(mén)的議程,同時(shí)2019年電子器件領(lǐng)域頂級會(huì )議IEDM有三個(gè)專(zhuān)門(mén)的議程共二十余篇存內計算相關(guān)的論文。
其實(shí)存內計算的核心思想很簡(jiǎn)單,就是把帶權重加和計算的權重部分存在內存單元中,然后在內存的核心電路上做修改,從而讓讀出的過(guò)程就是輸入數據和權重在模擬域做點(diǎn)乘的過(guò)程,相當于實(shí)現了輸入的帶權重累加,即卷積運算。而同時(shí),由于卷積運算是深度學(xué)習算法中的核心組成部分,因此存內計算非常適合AI,對未來(lái)AI芯片的存算一體和算力突破都有幫助。
但是不同于傳統的數字電路計算,存內計算是用模擬電路做計算,這對存儲器本身和存內計算的設計者都是一個(gè)全新的、需要探索的領(lǐng)域,IBM所研究的正是這個(gè)方向,里面的難度可想而知。
不僅如此,隨著(zhù)數據量的加大,功耗、存算之間的通信等方面都需要變革,以通信的硬件實(shí)現工藝來(lái)看,是采用光互聯(lián)技術(shù)還是采用3D堆疊的新型封裝實(shí)現高性能互聯(lián),這就是一個(gè)大問(wèn)題,因為采用不同的技術(shù)將會(huì )導致整體解決方案天壤之別。
AI芯片公司還是存儲芯片公司,存算一體技術(shù)應該由誰(shuí)來(lái)做?
可以說(shuō),現在對于業(yè)內而言,樹(shù)在大家面前的首要問(wèn)題就是達成技術(shù)方向上的共識,而想要達成技術(shù)共識之前,可能大家首先要解決的是,存算一體到底由AI芯片公司來(lái)做還是由存儲公司來(lái)做?
由AI芯片公司來(lái)做,技術(shù)方向更多偏向于計算型存儲或類(lèi)腦計算,而由存儲公司來(lái)做,存內計算方向則會(huì )更容易被發(fā)展和推動(dòng)。
上文介紹的存內計算是從存儲的角度去做計算上的融合,尤其伴隨SSD產(chǎn)品(由NAND flash構成)的興起,因嵌入了ARM核和DRAM,NAND flash、ARM和DRAM、控制器和內部總線(xiàn)實(shí)際上構成了一個(gè)計算機系統,這讓存儲產(chǎn)品本身就可以做計算任務(wù),因此也為存算一體提供了發(fā)展平臺。國內就有諸多初創(chuàng )公司在探索這個(gè)方向,尤其是由于A(yíng)I的引入,各種數據的Key-value只要直接存儲在硬盤(pán)里,AI需要的數據就可以自動(dòng)完成分類(lèi),可以顯著(zhù)提升非關(guān)系數據庫的性能。
而計算型存儲則是將存儲做到計算芯片上,如現在很多處理器公司都在做片上存儲這件事,IBM設計的Blue Gene Active Storage(BGAS)結點(diǎn)就是一種‘存儲上的計算’系統,每一個(gè)BGAS結點(diǎn)包含32個(gè)處理器,每個(gè)處理器通過(guò)PCIe接口連接2TB的SLC NAND非易失閃存介質(zhì),大致就是這樣一個(gè)思路 。
當然不僅僅如此,超越馮·諾依曼架構之上,人的大腦就是一個(gè)典型的存儲計算系統,而仿照人腦的仿生系統也被認為是最有可能顛覆現有技術(shù)的終極發(fā)展方向。
作為電子復興計劃的一部分,DAPRA看中的就是這個(gè)更高級的系統——通過(guò)將電子元件編程為離散阻值狀態(tài)并將不同權重的電子元件相互卷積以建立一個(gè)類(lèi)似突觸和神經(jīng)元的系統,即神經(jīng)擬態(tài)計算,又被稱(chēng)為類(lèi)腦計算。此前,國內清華大學(xué)類(lèi)腦計算團隊打造的“天機芯”就是被稱(chēng)為異構融合類(lèi)腦計算芯片,復旦大學(xué)也在單晶體管邏輯架構上有突破性的進(jìn)展,為存算一體發(fā)展奠定了技術(shù)基礎。然而需要指出的是,DAPRA團隊在這項研究上已經(jīng)涉及了超過(guò)1800種混合材料,其難度之高可想而知,而后面架構搭建等都是商用道路上必須要邁過(guò)去的坎,因此可以說(shuō),類(lèi)腦的存算一體系統遙不可及。
盡管類(lèi)腦遙不可及,退回到現有的芯片設計上,存算一體的挑戰也是十分之多,如器件方面,現有的浮柵器件存儲就不適合存內計算;在芯片的工藝上,存算一體的設計和流片周期都將會(huì )很長(cháng),甚至連現有的EDA工具,目前尚沒(méi)有支持存算一體設計的。
總體來(lái)看,存算一體有IBM、知存科技等數十家大大小小企業(yè)在投入和探索,它們廣泛分布在存儲、計算等領(lǐng)域里,幾大技術(shù)方向也都在發(fā)展中。但是因可探索的方向很多,且沒(méi)有人知道哪一種是最適合商用的方向,可以說(shuō)整個(gè)市場(chǎng)還處在早期的百家爭鳴狀態(tài)。
降低成本,市場(chǎng)驅動(dòng)存算一體
說(shuō)到這里,可以發(fā)現存算一體的未來(lái)商用發(fā)展前景是極其不明晰的。但看向應用端,存算一體的市場(chǎng)發(fā)展驅動(dòng)卻是非常強烈的。
以數據中心為例,百億億次(E級)的超級計算機成為各國比拼算力的關(guān)鍵點(diǎn),為此美國能源部啟動(dòng)了“百億億次計算項目(Exascale Computing Project)”,希望于2021年至少交付一臺E級超算;中國則聯(lián)合國防科大、中科曙光和國家并行計算機工程技術(shù)研究中心積極開(kāi)展相關(guān)研究,計劃于2020年推出首臺E級超算。但要想研制E級超算,科學(xué)家面臨的挑戰之中首當其沖的就是功耗過(guò)高問(wèn)題。
隨著(zhù)速度和性能要求的不斷提高,如果按現有設計方法,通過(guò)不斷增加處理器數量來(lái)研制超算,其體型和規模會(huì )越來(lái)越大,數據在存儲器和處理器之間進(jìn)出所耗費的功率會(huì )越來(lái)越多。以現有技術(shù)研制的E級超算功率高達千兆瓦,需要一個(gè)專(zhuān)門(mén)的核電站來(lái)給它供電,而其中50%以上的功耗都來(lái)源于數據的“搬運”,本質(zhì)上就是馮·諾依曼計算機體系結構計算與存儲的分離設計所致。
如何降低功耗成為超算中心必須要解決的問(wèn)題,各國科學(xué)家都在致力于降低超算功率,其中一些可行的技術(shù)方案包括讓存儲器更靠近計算器,減少數據行進(jìn)距離;讓高性能存儲器向三維擴展而不是朝二維延伸;超算與閃存的結合等,而這些都隸屬于存算一體的技術(shù)方向。
另一方面,在邊緣計算和物聯(lián)網(wǎng)端,因存算一體能夠大幅帶來(lái)性能的提升和功耗的降低,因此也被大家寄予厚望。
當然,不僅僅是成本上,如阿里達摩院在發(fā)布的技術(shù)報告所言,AI的出現與存內計算格外匹配,存算一體也將會(huì )改善現有的AI算力瓶頸。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
