AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

admin 1年前 (2024-05-13)

預算有限情況下,能自由地在工作站上跑AI的感覺(jué)還是很好的。

過(guò)往知道4090可以跑AI,預算充足的情況下可以上NVIDIA Tesla顯卡,但是服務(wù)器資源有限,我們最近就直接用新到手的英偉達 RTX 5000 Ada 搭到自己工作站上做了個(gè)升級,這樣方便在辦公室自由地跑跑推理和模型微調。最近主要測試了跑跑llma3。

以下就是我們用RTX 5000 Ada 工作站測試當紅大模型llma3的情況:

測試環(huán)境:

軟件平臺:系統:Ubuntu22.04;架構: VLLM/Transformer;

測試的模型:Llama3-8B,使用AWQ量化的Llama3-8B,使用GPTQ量化的Llama3-70B。

測試用例兩種模式:

一種是對話(huà)模式,就是說(shuō)我們輸入比較少生成的一個(gè)數量恰中的一個(gè)水平,我們這里用的是32個(gè)token的輸入以及生成256個(gè)輸出的一個(gè)情況。

另一種是檢索模式,輸入1K tokens,輸出256 token。這個(gè)是較為典型的RAG用例,即檢索增強生成。

測試參數:

1、Throughput:吞吐率,單位為token/s,即每秒生成的token數量。對于中文字符來(lái)說(shuō),可以認為是每秒生成的字數。

2、Latency:時(shí)延,在我們做大模型推理的時(shí)候,從輸入到所有輸出生成完畢的所需時(shí)間,單位為秒。

3、AWQ/GPTQ:大模型的量化技術(shù),普遍使用4bit的方式來(lái)代表原本16bit的浮點(diǎn)數,可以大大節省對顯存的占用率,同時(shí)提高推理速率。

4、Batch size,我們在做大模型推理的時(shí)候,可以并發(fā)輸入大模型里面的用戶(hù)請求的數量,一般來(lái)說(shuō)我們的并發(fā)數量越大,吞吐率越高。但過(guò)大的批量,會(huì )導致時(shí)延大大加長(cháng),適得其反。所以需要取值適中。

測試過(guò)程及結果:

1、單卡5000 Ada 測試AWQ量化的Llama3-8B。

當batch size 達到128時(shí),能達到最大的吞吐率,為2205 t/s,即每秒可輸出2205個(gè)Token,時(shí)延小于15秒。比較理想的batch size是32-64。

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

2、單卡5000 Ada 測試Llama3-8BRAG。

當batch size 達到24時(shí),能達到最大的吞吐率約156 t/s,其時(shí)延約39秒。對比過(guò)去測試單卡4090 的性能來(lái)看,4090單卡最大只能加載到16個(gè)請求。

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

3、4卡5000 Ada 測試AWQ量化的Llama3-8B

當batch size 達到256時(shí),能達到最大的吞吐率3635 t/s,其時(shí)延約為18秒。比較理想的batch size是32-128。

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

4、4卡5000 Ada 測試GPTQ量化的Llama3-70B

當batch size 達到256時(shí),能達到最大的吞吐率903 t/s,其時(shí)延約為72秒。建議batch size控制在32以?xún)取?/p>

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

總體感受不錯,畢竟預算有限,還能自由地在工作站上跑跑AI的感覺(jué)還是很好的。

(外觀(guān)參數等可參照:https://www.bilibili.com/video/BV1FN4y1f7wo/?share_source=copy_web&vd_source=9b60e49bb50bbcdce771cafe00e5dca5

AI不是只有4090、A800這些卡, 英偉達RTX 5000 Ada工作站也能跑AI

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

分享到