AI集群,對抗英偉達的新“殺手锏”?
大力出奇跡,也是一個(gè)新思路。
上周,英偉達以3.3萬(wàn)億美元成功超越蘋(píng)果等巨頭,登上了全球市值第一。
除了股價(jià)上的成功外,英偉達以不可阻擋的膨脹勢頭,再次證明了自己在AI設施領(lǐng)域的王者地位。
目前,英偉達的AI芯片已經(jīng)占據了全世界數據中心約80%的份額,包括大模型、智能汽車(chē)、機器人在內,多個(gè)行業(yè)都依賴(lài)著(zhù)英偉達龐大的算力體系。
反觀(guān)同樣逐鹿AI浪潮的AMD,在戰略上已經(jīng)遠遠落后于英偉達。
這其中,英偉達在軟件生態(tài)上的優(yōu)勢占了很大一部分原因。而另一方面,AMD其實(shí)選擇了一條不一樣的思路——他們思考如何將數量龐大的GPU構建成一個(gè)更大規模的超大規模集群。
近日,AMD執行副總裁兼數據中心解決方案集團總經(jīng)理Forrest Norrod在接受采訪(fǎng)時(shí)表示,AMD將構建全球最大的單體AI訓練集群,將集成高達120萬(wàn)片的GPU。
作為對比,目前全球最強的超級計算機Frontier所配備的GPU數量只有37888片,這也意味著(zhù)這個(gè)AI訓練集群的GPU規模將是目前最強超算的30多倍。
不過(guò)AMD方面并沒(méi)有透露哪個(gè)組織正在考慮構建這種規模的AI系統,但提到這個(gè)AI訓練集群將花費數百億到數千億美元。
AI集群并不是什么新概念,包括英偉達自己也多次提到“AI工廠(chǎng)”。
單從字面意思就非常好理解,就是把成千上萬(wàn)個(gè)GPU集成到一個(gè)工廠(chǎng)里,從而來(lái)訓練大模型或是進(jìn)行其他工作。
而其他組織搭建AI集群的初衷大多是想降低AI的訓練成本。要知道訓練AI的花銷(xiāo)大頭還是GPU,且不說(shuō)單個(gè)芯片根本沒(méi)辦法滿(mǎn)足大模型訓練的需求,更重要的是高算力的GPU供不應求,只能將算力稍差的GPU進(jìn)行互連。
但對比通常由幾千個(gè) GPU構建而成AI集群,如果要創(chuàng )建一個(gè)擁有高達120萬(wàn)個(gè) GPU 的單體 AI 集群,意味著(zhù)將會(huì )面臨極為復雜的高速互連網(wǎng)絡(luò ),并且還會(huì )有延遲、功耗、硬件故障等諸多的問(wèn)題,這似乎是難以實(shí)現的。
另外,如此龐大的AI訓練集群,將會(huì )產(chǎn)生極為龐大的能耗,供電將會(huì )是一個(gè)大難題。
值得一提的是,英偉達早已預料到這個(gè)風(fēng)險。因此在去年,黃仁勛召集了一系列會(huì )議,與公司高管討論了數據中心空間不足的問(wèn)題以及客戶(hù)是否有足夠電廠(chǎng)來(lái)容納、運行所訂購的GPU。
對于A(yíng)MD來(lái)說(shuō),他們是優(yōu)勢之一就是優(yōu)秀的“計算能效”。
近些年以來(lái),AMD的核心目標之一就是提升計算能效。蘇姿豐也在演講中多次提到,提高計算能效可以更好地解決能源與算力之間的矛盾,并且讓超級計算中心可以被部署到更多的地方。
可見(jiàn),AMD的產(chǎn)品在設計時(shí)就已經(jīng)考慮到能源負擔與AI能力之前的關(guān)系,最終也是為大面積建設AI集群提供基礎。
總的來(lái)說(shuō),AI集群的思路就是“大力出奇跡”,雖然有許多客觀(guān)因素的限制,但確實(shí)是一條值得探索的道路。
一方面,算力需求的膨脹的是可以長(cháng)期預測的趨勢。另一方面,隨著(zhù)臺積電代工能力日趨飽和,來(lái)自硬件層面的限制將影響單個(gè)GPU上限的發(fā)展速度。
或許一個(gè)由120萬(wàn)片GPU組成的瘋狂計劃,很快就能成為現實(shí)。
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅動(dòng)創(chuàng )新
