大算力與高能效AI芯片發(fā)起沖鋒!2023全球AI芯片峰會(huì )第二日干貨總結
芯東西9月19日報道,9月14日-15日,2023全球AI芯片峰會(huì )(GACS 2023)在深圳市南山區圓滿(mǎn)舉行。繼首日開(kāi)幕式及AI芯片創(chuàng )新專(zhuān)...
芯東西9月19日報道,9月14日-15日,2023全球AI芯片峰會(huì )(GACS 2023)在深圳市南山區圓滿(mǎn)舉行。繼首日開(kāi)幕式及AI芯片創(chuàng )新專(zhuān)場(chǎng)火熱開(kāi)場(chǎng)(《云邊端AI芯片熱戰大模型!2023全球AI芯片峰會(huì )首日干貨》),峰會(huì )次日演講繼續輸出密集干貨滿(mǎn)載,在上午場(chǎng)的最后一個(gè)環(huán)節,2023中國AI芯片先鋒企業(yè)TOP30和2023中國AI芯片新銳企業(yè)TOP10評選結果正式公布。
▲2023中國AI芯片先鋒企業(yè)TOP30
▲2023中國AI芯片新銳企業(yè)TOP10
2023全球AI芯片峰會(huì )由智一科技旗下芯東西聯(lián)合智猩猩發(fā)起主辦,在南山區科技創(chuàng )新局的指導下以“AI大時(shí)代 逐鹿芯世界”為主題,設置七大板塊,主會(huì )場(chǎng)包括開(kāi)幕式和AI芯片架構創(chuàng )新、AI大算力芯片和高能效AI芯片三大專(zhuān)場(chǎng);分會(huì )場(chǎng)包括首次增設的集成電路政策交流會(huì )、AI芯片分析師論壇、智算中心算力與網(wǎng)絡(luò )高峰論壇。
在第二天的AI大算力芯片論壇、高能效AI芯片論壇上,上海交通大學(xué)計算機科學(xué)與工程系教授梁曉峣發(fā)表開(kāi)場(chǎng)演講,隨后來(lái)自英特爾Habana、壁仞科技、千芯科技、Graphcore、中科加禾、芯和半導體、云天勵飛、知存科技、諾磊科技、邁特芯、肇觀(guān)電子、智芯科、原粒半導體、九天睿芯等15家頂尖AI芯片企業(yè)及新銳企業(yè)的創(chuàng )始人、技術(shù)決策者及高管分別發(fā)表主題演講,分享前沿研判與最新實(shí)踐。
通過(guò)峰會(huì )次日的嘉賓分享和觀(guān)點(diǎn)碰撞,我們看到大多數AI芯片企業(yè)都在積極備戰生成式AI與大模型浪潮帶來(lái)的時(shí)代機遇,嘉賓分享的議題焦點(diǎn)可以歸納為幾個(gè)關(guān)鍵詞:生成式AI、NVIDIA、GPGPU、落地挑戰、架構創(chuàng )新、存算一體。
無(wú)論是大算力AI芯片還是高能效AI芯片,都面臨存儲墻、功耗墻等共通的傳統架構痼疾,也正分別從核心應用場(chǎng)景的迫切之需出發(fā),通過(guò)廣聯(lián)生態(tài)伙伴、優(yōu)化軟硬協(xié)同,更大程度挖掘芯片性能的潛能,探索不依賴(lài)先進(jìn)制程來(lái)實(shí)現性能提升、能效提升的新路徑、新解法。
一、破解大模型落地挑戰,大算力芯片亮出三項關(guān)鍵技術(shù)
大模型落地進(jìn)程已經(jīng)提速,但其與算力供應之間的差距目前沒(méi)有被彌合,國產(chǎn)大算力芯片正在通過(guò)不同的技術(shù)路徑發(fā)起沖鋒,提高芯片能效比的同時(shí)加速大模型落地。
1、GPGPU加速大模型訓練,用開(kāi)源解決人、錢(qián)、時(shí)間難題
上海交通大學(xué)計算機科學(xué)與工程系教授梁曉峣談道,大家在A(yíng)I大時(shí)代淘金,賣(mài)鏟子的NVIDIA“賺錢(qián)賺的最多”。他認為,包含CUDA Core和Tensor core(張量計算核心)的V100這代GPGPU,幫助NVIDIA奠定AI時(shí)代算力基座的行業(yè)地位。當谷歌、特斯拉等芯片公司拿出比NVIDIA更有效的矩陣計算方式后,NVIDIA為了鞏固自己在人工智能時(shí)代的霸主地位,在數制、稀疏性、互聯(lián)、內存帶寬等方面進(jìn)行了多項革新。此外,NVIDIA構建的涵蓋編程語(yǔ)言、運行環(huán)境等完善的軟件生態(tài)是讓芯片好用的“護城河”。
芯片生態(tài)從軟件廠(chǎng)商圍繞核心芯片(架構)開(kāi)發(fā)“領(lǐng)域專(zhuān)用軟件”發(fā)展到芯片廠(chǎng)商圍繞核心軟件(框架)開(kāi)發(fā)“領(lǐng)域專(zhuān)用芯片”,直到現在芯片廠(chǎng)商和大模型公司圍繞核心應用開(kāi)發(fā)“領(lǐng)域專(zhuān)用系統”。梁曉峣提到,當競爭對手領(lǐng)先時(shí),可以用開(kāi)源的方式解決資金、人才和時(shí)間的問(wèn)題。開(kāi)源也被證明是當對手特別強大時(shí),較為有效的突圍方式。
去年,梁曉峣團隊推出自研開(kāi)源GPGPU平臺“青花瓷”,支持大規模并行通用計算。梁曉峣解釋道,說(shuō)的直接點(diǎn)就是除了游戲,希望NVIDIA的芯片能做的“青花瓷”都能做,同時(shí)還特別重視對NVIDIA GPGPU產(chǎn)品的兼容。他補充說(shuō),“青花瓷”平臺完全免費開(kāi)放,這一平臺最主要目的是為行業(yè)提供GPGPU架構參考設計,開(kāi)放給企業(yè)、高校進(jìn)行基礎研究、實(shí)踐平臺、突破創(chuàng )新。
▲上海交通大學(xué)計算機科學(xué)與工程系教授梁曉峣
在產(chǎn)業(yè)界,壁仞科技也認同高性能GPGPU是訓練GPT大模型的關(guān)鍵。一方面,大模型在計算機體系結構中面臨計算、通信、存儲、并行擴展、穩定可靠五大挑戰;另一方面,還要解決用戶(hù)視角下,存得下、易擴展、易使用三大“溫飽”需求,以及高性能、低成本、低延時(shí)三大“小康”需求。
針對這些挑戰和需求,壁仞科技打造了面向大模型的軟硬一體全棧優(yōu)化的解決方案,包括高性能集群、機器學(xué)習平臺suCloud、加速庫、訓練框架和推理引擎、超大模型框架、算法/應用六層架構。壁仞科技系統架構副總裁丁云帆談道,高性能通用GPU是訓練GPT大模型的關(guān)鍵算力基礎,互聯(lián)帶寬/拓撲是支撐GPT大模型分布式高效擴展的關(guān)鍵,基于自研BR104 GPU的主流量產(chǎn)產(chǎn)品壁勵104,壁仞科技可構建千卡GPU集群,并結合大模型分布式策略?xún)?yōu)化助力大模型創(chuàng )新落地。另外壁仞科技還與產(chǎn)業(yè)界的框架、模型伙伴、科研機構、高校等緊密合作打造大模型產(chǎn)學(xué)研用生態(tài)。
▲壁仞科技系統架構副總裁丁云帆
2、傳統架構難突破帶寬、成本瓶頸,大模型時(shí)代亟需超越GPU新架構
“大模型本質(zhì)是對知識的壓縮和對輸入的反饋,即存算一體、以存代算。”千芯科技董事長(cháng)陳巍談道,“LLM/MLM的開(kāi)源資源、部署訓練架構、算力成本成為大模型應用落地和企業(yè)盈虧的關(guān)鍵分水嶺。”
陳巍介紹了幾種典型的商用大模型存算一體架構落地情況,并指出”特斯拉的Dojo芯片使用了近存計算架構優(yōu)化數據通道,或是為大模型量身定制“,”微軟三星等科技巨頭正在投資存算一體芯片企業(yè)“。
Habana中國區負責人于明揚一上臺便放話(huà):演講不摻廣告,都是真實(shí)體驗。“我們認為,每個(gè)Billion(十億)的參數規模,在有限時(shí)間范圍內要把訓練做好,基本需要的算力大概在16卡。”
他談到大模型給硬件層帶來(lái)壓力,對單卡的算力、內存、服務(wù)器互聯(lián)方案、集群長(cháng)時(shí)間穩定運行等提出更高要求。在大模型發(fā)展過(guò)程中,上層框架及軟件生態(tài)扮演的角色越來(lái)越重要。傳統模型很大程度需要CUDA的資源進(jìn)行訓練,但大模型時(shí)代更多強調高層框架軟件生態(tài)——如何解決集群管理與穩定性、訓練過(guò)程中的并行化要求等。
于明揚總結了面向大模型高效訓練和推理的一些選擇,包括計算速度、高速存儲、高擴展性、易用性、高能效、高性?xún)r(jià)比。在大模型時(shí)代,企業(yè)如果能很好地針對框架做優(yōu)化,有機會(huì )繞開(kāi)CUDA生態(tài)墻,打破NVIDIA在市場(chǎng)上一家獨大的局面。
▲Habana中國區負責人于明揚
GPU、CPU之外,英國芯片公司Graphcore(擬未科技)提出了IPU架構,支持FP8浮點(diǎn)運算,基于此來(lái)應對對話(huà)式AI的時(shí)延、應用成本與能耗的挑戰。早在2018年,AI教父Geoff Hinton就看到了IPU架構的潛力,他在接受采訪(fǎng)時(shí)以Graphcore的IPU芯片為例,大力倡導為構建功能更像大腦的機器學(xué)習系統轉向不同類(lèi)型的計算機。
Graphcore中國區產(chǎn)品總負責人朱江提到,IPU采用了大規模并行的多指令多數據架構,并極大地擴展了片上SRAM的大小,使得片內存儲吞吐量達到65TB/s。這樣大規模的片上存儲和分布式設計,可以極大地提高訪(fǎng)存帶寬和內存訪(fǎng)問(wèn)效率,有力地幫助客戶(hù)打破內存墻的瓶頸。IPU的獨特設計還使其實(shí)現了高效的訪(fǎng)存能耗。同樣是搬運一個(gè)byte的數據,CPU大概需要消耗320pJ,GPU大概需要64pJ,而IPU大概需要1pJ。此外,Graphcore推出的Bow IPU還采用了WoW的先進(jìn)封裝,并在支持數據類(lèi)型上進(jìn)行了投入,成為業(yè)內最早支持FP8精度的硬件之一。
▲Graphcore中國區產(chǎn)品總負責人朱江
3、產(chǎn)業(yè)鏈創(chuàng )新:編譯器+EDA平臺,提高AI芯片適配性
大模型應用與算力之間的差距,加速了企業(yè)在兩者間構建“橋梁”,縮小其中差距的步伐。
中科加禾創(chuàng )始人崔慧敏認為,大模型讓國產(chǎn)AI芯片面臨的生態(tài)困境更加凸顯,編譯器成為一大破解之道。簡(jiǎn)單來(lái)說(shuō),編譯器是用于將機器語(yǔ)言翻譯為人類(lèi)語(yǔ)言的工具,在A(yíng)I芯片產(chǎn)業(yè)鏈中,相當于A(yíng)I芯片與AI用戶(hù)之間的“橋梁”。
在GPU時(shí)代,編譯器大家主要使用的是NVIDIA的CUDA編譯器。隨著(zhù)AI時(shí)代到來(lái),編譯器的內涵和外延進(jìn)一步擴大,涉及了圖、張量、指令、圖算融合等不同層面的編譯。
大模型時(shí)代,編譯器能夠促進(jìn)芯片性能提升、跨平臺優(yōu)化及安全性增強。崔慧敏談道,在性能方面,編譯技術(shù)可以發(fā)掘更激進(jìn)的融合策略,進(jìn)一步全局對計算、同步進(jìn)行重排優(yōu)化,為模型推理側帶來(lái)最高2~3倍的性能提升;在跨平臺方面,中科加禾認為基于機器模型可以有效支撐編譯優(yōu)化的跨平臺表現;在安全方面,編譯技術(shù)能以很低的開(kāi)銷(xiāo)來(lái)實(shí)現軟件TEE,增強安全性。
目前,中科加禾正聚焦搭建對不同芯片都適用的工具集,通過(guò)組件化服務(wù)助力AI芯片完成生態(tài)遷移等目標,并計劃在2023年12月推出跨平臺大模型推理引擎。
▲中科加禾創(chuàng )始人崔慧敏
單芯片SoC向新型“SoC”(System of Chiplets)架構演進(jìn)過(guò)程中,芯和半導體產(chǎn)品應用總監蘇周祥談道,Chiplet對單顆SoC的拆分、組合和架構規劃問(wèn)題,給傳統的設計流程帶來(lái)了很大的挑戰。
他認為,Chiplet從系統最初的設計到最終的嵌合簽核,都需要新的工具、新的思路和新的方法學(xué)。芯和半導體給出的答案是一個(gè)圍繞Chiplet產(chǎn)業(yè)的全新EDA平臺,蘇周祥說(shuō)道,全新平臺需要支持系統級連接、堆棧管理、層次化設計,還需要在物理實(shí)現方面協(xié)同設計環(huán)境、支持各領(lǐng)域的工具、多芯片3D布局規劃和布線(xiàn)。
因此,芯和半導體推出專(zhuān)為3DIC Chiplet量身定做的仿真全流程EDA平臺,這是一個(gè)針對Chiplet的完整的包括設計、SI/PI/多物理場(chǎng)分析的解決方案。該平臺擁有AI驅動(dòng)的網(wǎng)格剖分技術(shù),以及云計算加載的分布式并行計算能力,還支持裸芯片、中介層和基板的聯(lián)合仿真引擎技術(shù)。
▲芯和半導體產(chǎn)品應用總監蘇周祥
二、遍地能跑大模型!解讀高能效AI芯片三大趨勢
大模型強大的內容生成、理解能力,使得其在云邊端的多類(lèi)型應用場(chǎng)景出現,不同場(chǎng)景為高能效AI芯片提出了新要求。邊緣AI芯片對低功耗、高性能的需求增長(cháng);大模型對容量和帶寬既要又要,存算一體芯片的存儲介質(zhì)如何選擇。
這一背景下,高能效AI芯片的發(fā)展呈現出三大趨勢,分別是為大模型構建低功耗AI網(wǎng)絡(luò ),通過(guò)存內計算突破功耗墻和存儲墻問(wèn)題,以及邊緣端的智能視覺(jué)處理芯片需求增長(cháng)。
1、算力方案構建低功耗AI網(wǎng)絡(luò ),大小模型或在云邊端協(xié)同進(jìn)化
智芯科聯(lián)合創(chuàng )始人&CEO顧渝驄談道,大模型發(fā)展會(huì )面臨兩方面瓶頸,大數據和大模型所產(chǎn)生的顯存墻問(wèn)題(模型是否能跑起來(lái))以及計算墻(能否在合理時(shí)間內完成推理)問(wèn)題。他認為,存內計算是解決這兩大難題的有效解法,相比于GPU能更有效地利用數據,降低功耗;更高效地讀取寫(xiě)入數據;集成存儲和計算,提供更大內存容量。智芯科計劃基于精度無(wú)損SRAM的存內計算CIM推出針對大模型的900系列芯片,有望替代NVIDIA在專(zhuān)有云、推理側的應用。
大模型帶來(lái)的算力爆發(fā)遠超摩爾定律,同時(shí)大功耗算力設施帶來(lái)的碳排放量巨大,因此,邁特芯希望做一款低功耗芯片,把功耗降下來(lái)。邁特芯基于立方脈動(dòng)并行架構的存算芯片來(lái)滿(mǎn)足大模型部署。邁特芯創(chuàng )始人兼CEO黃瀚韜談道,通過(guò)用更低的bit來(lái)表示GPT-3的主要數據,可以將大模型參數規模變小,邁特芯可在ChatGLM2-6B大模型上用INT4和INT2算力,達到跟ChatGLM2-6BFP16相當的推理水平。在架構方面,邁特芯針對大模型算法搭建立方單元架構,通過(guò)立方脈動(dòng)陣列實(shí)現高強度并行計算,其解決方案能兼顧高通量和低功耗。
▲邁特芯創(chuàng )始人兼CEO黃瀚韜
在原粒半導體聯(lián)合創(chuàng )始人原鋼看來(lái),隨著(zhù)大模型蒸餾技術(shù)發(fā)展,超大模型可以生成一系列適合邊端的小模型,取得接近于大模型的效果。原粒半導體基于AI Chiplet把SoC算力跟NPU(神經(jīng)網(wǎng)絡(luò )處理器)的AI算力解綁,再靈活組合出邊緣端芯片,以適配邊緣端大模型的推理要求。目前,原粒半導體已研發(fā)出多模態(tài)算力核心CalCore技術(shù),支持企業(yè)將大模型部署在端側;以及自適應算力融合CalFusion技術(shù),自動(dòng)分配芯粒以捆綁不同的算力。
▲原粒半導體聯(lián)合創(chuàng )始人原鋼
全球邊緣計算市場(chǎng)規模不斷擴大,但因場(chǎng)景、芯片平臺、算力需求碎片化等痛點(diǎn)使得其算法投入產(chǎn)出往往不成正比,這有望依托于大模型強大的圖像、語(yǔ)言理解、場(chǎng)景泛化能力得到突破。同時(shí),云天勵飛副總裁、芯片業(yè)務(wù)線(xiàn)總經(jīng)理李?lèi)?ài)軍提到,邊緣計算芯片設計需要考慮SoC集成、算力可靈活擴展芯片架構、統一的工具鏈架構、隱私保護等方面因素。云天勵飛基于其自研算法開(kāi)發(fā)平臺和算法芯片化平臺,訓練了“云天書(shū)”大模型,推出內置云天勵飛第四代神經(jīng)網(wǎng)絡(luò )處理器的新一代邊緣計算芯片DeepEdge10,能滿(mǎn)足大模型部署需要。
▲云天勵飛副總裁、芯片業(yè)務(wù)線(xiàn)總經(jīng)理李?lèi)?ài)軍
2、多存儲介質(zhì)方案迸發(fā),存算一體突破功耗、存儲瓶頸
當前大模型對容量和帶寬既要又要,存算一體芯片正處于多種存儲介質(zhì)百花齊放的格局。
千芯科技將不同類(lèi)型存儲器融合到統一存算架構(UMCA),可為客戶(hù)的應用場(chǎng)景提供SRAM、Flash、RRAM多種存算芯片方案;通過(guò)多處理器融合,使存算一體保持大算力高能效,同步獲得CPU、GPGPU的通用生態(tài)能力。其存算一體架構不依賴(lài)先進(jìn)工藝,可基于成熟工藝達到先進(jìn)算力;并提供芯片級算法壓縮技術(shù),方便大模型客戶(hù)無(wú)感使用量化剪枝稀疏等壓縮技術(shù)來(lái)達到降本增效的目標。
▲千芯科技董事長(cháng)陳巍
智芯科聚焦的是SRAM,智芯科聯(lián)合創(chuàng )始人&CEO顧渝驄提到,他們將推出針對大模型的900系列,該系列可以提供1000-2000TOPS的算力,為邊緣側大模型推理提供算力,功耗為150W,采用12nm制程,價(jià)格遠低于NVIDIA。
此外還有推出基于SRAM純數字及模數混合架構的多重融合存內計算技術(shù)的九天睿芯。九天睿芯副總裁袁野談道,AIGC在內容生成之外,還帶來(lái)AR/VR、具身智能、外部感知信號鏈等的全面升級,其采用的混合架構模式,能實(shí)現有效精度計算,CIMD(純數字存內計算)+CIMX(模數混合純內計算)兩種存算架構在芯片方面融合,能支持訓練+推理一體應用,并使性能最大化。此外,存內計算可以通過(guò)互聯(lián)、疊加實(shí)現更大算力,九天睿芯已積累多個(gè)智能信號鏈(智能感知/互聯(lián))的基礎IP,并啟動(dòng)告訴互聯(lián)接口技術(shù)研發(fā),為實(shí)現大算力做準備。
▲九天睿芯副總裁袁野
在知存科技業(yè)務(wù)拓展副總裁詹慕航看來(lái),AI神經(jīng)網(wǎng)絡(luò )或者CNN矩陣運算、卷積運算的核心就是矩陣乘法/乘加運算,越典型的大模型越需要矩陣運算,便越適合存內計算的方式,將“存”和“算”結合,一次性并行完成。因此,知存科技選擇使用Flash存儲器完成AI神經(jīng)網(wǎng)絡(luò )的儲存和運算,以解決存儲墻問(wèn)題。
知存科技推出的WTM-2端側AI芯片,具備極低功耗、極低延遲,其已量產(chǎn)的國際首顆存內計算芯片WTM2101功耗僅5uA-3mA,兼具高算力,適用端側智能物聯(lián)網(wǎng)場(chǎng)景。下一步,知存科技還將針對視頻增強場(chǎng)景推出WTM-8系列芯片,該系列芯片具備4核存算MPU,單核提升算力80倍,提升效率10倍。
▲知存科技業(yè)務(wù)拓展副總裁詹慕航
3、3D視覺(jué)應用滲透加速,創(chuàng )新方案1個(gè)大腦指揮8只眼睛
肇觀(guān)電子CEO馮歆鵬認為,隨著(zhù)視覺(jué)技術(shù)從2D向3D發(fā)展,智能3D視覺(jué)應用將滲透到全行業(yè),且路線(xiàn)圖可以往五十年以后延伸。但硬件成像限制和AI感知局限是3D視覺(jué)行業(yè)繞不開(kāi)的痛點(diǎn),馮歆鵬談道,為了解決上述問(wèn)題,肇觀(guān)電子積累了3D、VSLAM、AI和OCR光學(xué)字符識別等多項機器視覺(jué)核心技術(shù)。其中,肇觀(guān)電子3D深度相機能適用冷庫機器人在-18℃的環(huán)境里啟動(dòng)“眼睛”完成任務(wù)等極限場(chǎng)景,他還提到,部分海外巨頭的機器視覺(jué)技術(shù)甚至無(wú)法在低溫環(huán)境里開(kāi)機。
▲肇觀(guān)電子CEO馮歆鵬
諾磊科技推出的集成CIS+AI+MCU光譜識別功能的感算一體AI光譜分析芯片陣列技術(shù)“Eye with Brain”,能做到“1個(gè)眼睛照顧8個(gè)大腦”,還能實(shí)現對多頻段光譜的檢測與分析。有別于A(yíng)I業(yè)界的傳統算法,諾磊科技的產(chǎn)品配合高度集成機器影像辨識傳感器,能獨立運行實(shí)現影像偵測、追蹤及識別。諾磊科技創(chuàng )始人、CEO Raymond Wu提到,諾磊科技在首款110nm工藝量產(chǎn)芯片NB1001上,結合WLO(晶圓級光學(xué))技術(shù),將光學(xué)元件集成到半導體晶圓上,設計為類(lèi)似于麥克風(fēng)陣列的光譜檢測陣列。
Raymond Wu還提到,曾經(jīng)一枝獨秀的影像解決方案CCD由于系統體積大、成本高、功耗大、落地難逐漸被CIS(CMOS圖像傳感器)取代。這與當下AI應用有相似性,他認為高算力并不是能百分之百解決所有AI應用的手段,AI應用的算力需求取決于具體應用的場(chǎng)景,單一化應用沒(méi)有必要做復雜的AI芯片。
▲諾磊科技創(chuàng )始人、CEO Raymond Wu
結語(yǔ):云邊端AI芯片熱戰大模型,2023全球AI芯片峰會(huì )升級
2023全球AI芯片峰會(huì )第二天,云邊端AI芯片熱戰大模型的戰況更盛。
一方面,面向大模型的海量算力需求,國產(chǎn)大算力芯片廠(chǎng)商已經(jīng)發(fā)起技術(shù)沖鋒。GPGPU廠(chǎng)商從芯片設計、解決方案和生態(tài)多方面加快大模型場(chǎng)景落地,國內外的AI芯片廠(chǎng)商試圖用創(chuàng )新架構打破NVIDIA一家獨大局面,此外上下游產(chǎn)業(yè)鏈也在通過(guò)編譯器、EDA等技術(shù)的創(chuàng )新為AI芯片性能提供“放大器”。
另一方面,大模型的落地場(chǎng)景正從云端延伸至邊緣側、端側,使得國內一批高能效AI芯片廠(chǎng)商看到了市場(chǎng)發(fā)展機遇。通過(guò)存內計算、立方單元架構、Chiplet等不同創(chuàng )新架構,AI芯片廠(chǎng)商不約而同地探索降低AI芯片能耗和算力成本的最短路徑,從而為大模型的規?;涞靥峁l件。隨著(zhù)大模型在端側、邊緣側的部署門(mén)檻降低,大小模型有望實(shí)現更好的協(xié)同,從而促進(jìn)AI落地產(chǎn)業(yè)的深度和廣度大大加強。
通過(guò)第二天的峰會(huì ),我們可以看到以下五大產(chǎn)業(yè)發(fā)展趨勢值得關(guān)注:
1、作為首屈一指的芯片巨頭,NVIDIA通過(guò)在數值、稀疏性、互聯(lián)、內存帶寬等方面的革新,鞏固了其在A(yíng)I時(shí)代的霸主地位。對此,國內GPGPU廠(chǎng)商可以通過(guò)開(kāi)源的方式解決錢(qián)、人、時(shí)間的問(wèn)題。
2、傳統架構難以突破大模型訓練中的帶寬和成本瓶頸,市場(chǎng)需要超過(guò)NVIDIA GPU的新架構。存內計算/邏輯能讓芯片能效大幅提高,突破功耗墻和存儲墻問(wèn)題,從而以成熟工藝突圍大算力芯片。
3、面向大模型場(chǎng)景,AI芯片廠(chǎng)商需要滿(mǎn)足存得下、易擴展、易使用三大溫飽需求,以及易使用、低成本、低延時(shí)三大升級需求。這需要AI芯片廠(chǎng)商加快技術(shù)架構創(chuàng )新,也需要用軟硬一體化解決方案去突破。
4、大模型讓國產(chǎn)AI芯片面臨的生態(tài)困境更加凸顯,需要產(chǎn)業(yè)鏈上下游加快適配。比如通過(guò)編譯器創(chuàng )新,產(chǎn)業(yè)能夠促進(jìn)芯片性能提升、跨平臺優(yōu)化及安全性增強;也有企業(yè)打造圍繞Chiplet產(chǎn)業(yè)的全新EDA平臺,為芯片設計創(chuàng )新提供支持。
5、大模型正從云端場(chǎng)景向邊緣側、終端延展。在邊緣側和終端場(chǎng)景,客戶(hù)對AI芯片的能耗和成本更加敏感。為此,AI芯片領(lǐng)域的玩家通過(guò)存內計算、立體單元架構、模型稀疏化、Chiplet等路徑降低芯片能耗和成本,支持大模型“下沉”。
結合前后兩天的2023全球AI芯片峰會(huì )產(chǎn)學(xué)研投領(lǐng)域46+位大佬的交鋒,我們發(fā)現,“得算力者得天下”已經(jīng)成為大模型時(shí)代的特征,跳出NVIDIA GPU路徑的新架構、新產(chǎn)品越來(lái)越多。隨著(zhù)摩爾定律逼近極限,現實(shí)算力資源與理想算力資源之間存在巨大鴻溝,在NVIDIA之外,市場(chǎng)上已經(jīng)涌現出更多能夠填補市場(chǎng)空白的AI芯片企業(yè),推動(dòng)市場(chǎng)呈現“百花齊放”態(tài)勢。
從2018年舉辦第一屆開(kāi)始發(fā)展到今天,全球AI芯片峰會(huì )至今已連續舉辦五屆,峰會(huì )目前已經(jīng)觸達到了AI芯片產(chǎn)業(yè)鏈的設計、EDA、編譯器等多個(gè)核心重要環(huán)節,覆蓋云邊端等全場(chǎng)景的芯片巨頭和新銳創(chuàng )企,以及來(lái)自學(xué)術(shù)圈和投資界的專(zhuān)業(yè)人士。在過(guò)去兩天的峰會(huì )中,我們聽(tīng)到了頂級AI芯片產(chǎn)學(xué)研用及投融資領(lǐng)域專(zhuān)家們的思想交鋒,多元的精彩觀(guān)點(diǎn)在這里碰撞。乘風(fēng)新技術(shù)浪潮,全球AI芯片峰會(huì )已經(jīng)成為國內極少數專(zhuān)注在A(yíng)I芯片領(lǐng)域且具有較大影響力的行業(yè)峰會(huì )。
在接下來(lái)幾周里,芯東西將陸續輸出新鮮的干貨圖文,并放送多個(gè)精彩主題演講的圖文速記整理,具體請關(guān)注芯東西與智東西公眾號推送內容。
本文來(lái)源于公眾號:芯東西(公眾號:aichip001),本站經(jīng)授權轉載。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
