英偉達H200發(fā)布,性能很強,奈何買(mǎi)不到

偉銘 2年前 (2023-11-14)

“皮衣刀客”才是最大贏(yíng)家

英偉達H200發(fā)布,性能很強,奈何買(mǎi)不到

前幾天,OpenAI一場(chǎng)開(kāi)發(fā)者大會(huì ),讓整個(gè)AI人工智能行業(yè)的從業(yè)者幾乎徹夜難眠。而今天,NVIDIA英偉達同樣帶來(lái)了一個(gè)重磅消息——幾乎可以說(shuō)是目前最快的AI算力芯片H200正式發(fā)布。

距離上一次英偉達發(fā)布“新品”還沒(méi)過(guò)去多久,皮衣刀客的步伐可以說(shuō)是又快又穩。根據官方透露的信息,H200相比于此前的旗艦H100,直接性能提升有60%到90%,參數可以說(shuō)是拉滿(mǎn)了。

算力GPU作為當下“地球上最稀缺的工程資源之一”,一度引來(lái)科技大廠(chǎng)們的“瘋搶”。在H200發(fā)布之后,相信已經(jīng)有AI公司開(kāi)始訂貨了。

不過(guò)仔細看H200的規格就能發(fā)現,H200的升級可能并沒(méi)有那么夸張,值得期待的,也許還是后來(lái)者。

只是一個(gè)“小”升級

對比H200與前代H100的規格,主要負責計算能力的核心單元部分規格并沒(méi)有改變,算力規模完全一致,所帶來(lái)的提升只是顯存容量從80GB提高到了141GB,顯存的規格從原本的HBM3升級到了HBM3e。

英偉達H200發(fā)布,性能很強,奈何買(mǎi)不到

(圖源:anandtech)

由于本身算力部分并沒(méi)有變化,因此換用H200并不會(huì )對AI大模型的訓練速度產(chǎn)生更好的影響,以訓練175B大小的GPT-3舉例,同規模的H200大概只比H100快10%左右。

而它主要的提升之處在于“推理”。

一般而言,推理對于算力的需求并不高,限制反而在于單芯片的顯存大小以及顯存帶寬,如果應用到多GPU的互聯(lián),那么信息通信的帶寬反而會(huì )不夠。即便如NV Link提供的900GB/s的數據通信速度,也無(wú)法媲美單卡內部超過(guò)3TB/s的速度,更不用說(shuō)換了HBM3e顯存后高達4.8TB/s的性能了。

英偉達H200發(fā)布,性能很強,奈何買(mǎi)不到

(圖源:NVIDIA)

同樣,更大的單卡顯存容量也能有效減少跨卡訪(fǎng)問(wèn)的次數,算是一種變相的效率提升。

隨著(zhù)當前AI大語(yǔ)言模型逐步邁向應用化,計算任務(wù)的重心已經(jīng)由早期的訓練模型轉變?yōu)閼枚说耐评硇袨椤?/p>

此前OpenAI就曾苦于A(yíng)I太過(guò)火爆,擠占了大量的推理資源,國內比如此前曾紅極一時(shí)的“妙鴨相機”也因為用戶(hù)太多,沒(méi)有足夠的推理資源而需要等待很長(cháng)時(shí)間才能出片。

而H200對比H100的推理能耗直接減半,極大降低了使用成本,真應了那句話(huà)——「買(mǎi)的越多,省的越多」

英偉達H200發(fā)布,性能很強,奈何買(mǎi)不到

(圖源:NVIDIA)

有業(yè)內人士推測,后續消費級GPU可能也會(huì )出現類(lèi)似的轉變,即在算力一定的情況下,通過(guò)提升顯存容量和帶寬以獲得更好的模型推理體驗,畢竟在“全民AI”的時(shí)代,客戶(hù)端的性能也需要跟上。

英偉達大規模與高性能計算副總裁Ian Buck表示:要利用生成式人工智能和高性能計算應用創(chuàng )造智能,必須使用大型、快速的GPU顯存,來(lái)高速高效地處理海量數據。借助H200,業(yè)界領(lǐng)先的端到端人工智能超算平臺的速度會(huì )變得更快,一些世界上最重要的挑戰,都可以被解決。

顯存是關(guān)鍵

自從近兩年AI爆火后就迅速帶動(dòng)了AI服務(wù)器的需求爆發(fā),AI大模型的數據參數龐大,除了需要算力支撐模型訓練,同樣需要數據的傳遞和處理。

過(guò)去20年間,算力硬件的性能提升了90000倍,但是內存、存儲的互聯(lián)帶寬只提升了30倍,二者已然有所脫節,數據傳遞的速度可能遠低于數據處理的效率。因此,如英偉達這樣的GPU廠(chǎng)商,就引入了HBM代替原本的GDDR內存,通過(guò)硅中介層與計算核心緊密互聯(lián),加快數據傳輸速度。

據SK海力士介紹,HBM3e不僅滿(mǎn)足了用于A(yíng)I的存儲器速度規格,也在發(fā)熱控制和客戶(hù)使用便利性等所有方面有所提升。在速度方面,其最高每秒可以處理1.15TB的數據。

早在今年8月,NVIDIA就已經(jīng)計劃發(fā)布配備HBM3e顯存的 Grace Hopper GH200 超級芯片版本。

英偉達H200發(fā)布,性能很強,奈何買(mǎi)不到

(圖源:NVIDIA)

根據anandtech的描述,H200差不多就是GH200的GPU部分,從前面也可以看到,H200的HBM3e顯存的容量有些奇怪,是141GB,HBM3e的物理容量應該是144GB,這是由于產(chǎn)量和良率而保留了部分容量。另一方面,H200的顯存頻率應該是6.5Gbps,雖然比H100提升了25%,但依舊沒(méi)有達到美光希望中的9.2Gbps。

所以,此次發(fā)布的H200可能依舊算不上“滿(mǎn)血版”,只能算是加上了HBM3e顯存的H100小更新,也正因此兩者是互相兼容的,已經(jīng)在使用H100進(jìn)行模型訓練的可以直接更換成H200。

需要注意的是,H200的實(shí)際出貨時(shí)間是2024年第二季度,也是由于海力士的HBM3e顯存需要到今年年底才能產(chǎn)出,最快量產(chǎn)得到明年初。由此可見(jiàn)顯存其實(shí)才是整個(gè)AI發(fā)展的重中之重。

英偉達H200發(fā)布,性能很強,奈何買(mǎi)不到

(圖源:NVIDIA)

不過(guò),在發(fā)布中還提到了一些細節,比如2024年的B100,似乎在性能上又能有接近兩倍的提升?推測未來(lái)的新架構可能會(huì )帶來(lái)一些不同,說(shuō)不定就是那個(gè)真正的“滿(mǎn)血版”。

寫(xiě)在最后

當然,受制于美國的出口禁令,H200再強,也賣(mài)不到國內。

前兩天有消息稱(chēng),英偉達專(zhuān)為中國市場(chǎng)又開(kāi)發(fā)了新的HGX H20、L20 PCle和L2 PCle GPU,幾乎卡在了管制的算力極限上。

英偉達H200發(fā)布,性能很強,奈何買(mǎi)不到

(圖源:知乎)

只可惜這個(gè)規格,嗨……希望國產(chǎn)替代盡快到來(lái)吧。

本文作者:Visssom,觀(guān)點(diǎn)僅代表個(gè)人,圖源:NVIDIA

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到