搜索

AI不是只有4090、A800這些卡，英偉達RTX 5000 Ada工作站也能跑AI

admin 1年前 (2024-05-13)

預算有限情況下，能自由地在工作站上跑AI的感覺(jué)還是很好的。

過(guò)往知道4090可以跑AI，預算充足的情況下可以上NVIDIA Tesla顯卡，但是服務(wù)器資源有限，我們最近就直接用新到手的英偉達 RTX 5000 Ada 搭到自己工作站上做了個(gè)升級，這樣方便在辦公室自由地跑跑推理和模型微調。最近主要測試了跑跑llma3。

以下就是我們用RTX 5000 Ada 工作站測試當紅大模型llma3的情況：

測試環(huán)境：

軟件平臺：系統：Ubuntu22.04；架構: VLLM/Transformer；

測試的模型：Llama3-8B，使用AWQ量化的Llama3-8B，使用GPTQ量化的Llama3-70B。

測試用例兩種模式：

一種是對話(huà)模式，就是說(shuō)我們輸入比較少生成的一個(gè)數量恰中的一個(gè)水平，我們這里用的是32個(gè)token的輸入以及生成256個(gè)輸出的一個(gè)情況。

另一種是檢索模式，輸入1K tokens，輸出256 token。這個(gè)是較為典型的RAG用例，即檢索增強生成。

測試參數：

1、Throughput：吞吐率，單位為token/s，即每秒生成的token數量。對于中文字符來(lái)說(shuō)，可以認為是每秒生成的字數。

2、Latency：時(shí)延，在我們做大模型推理的時(shí)候，從輸入到所有輸出生成完畢的所需時(shí)間，單位為秒。

3、AWQ/GPTQ：大模型的量化技術(shù)，普遍使用4bit的方式來(lái)代表原本16bit的浮點(diǎn)數，可以大大節省對顯存的占用率，同時(shí)提高推理速率。

4、Batch size，我們在做大模型推理的時(shí)候，可以并發(fā)輸入大模型里面的用戶(hù)請求的數量，一般來(lái)說(shuō)我們的并發(fā)數量越大，吞吐率越高。但過(guò)大的批量，會(huì )導致時(shí)延大大加長(cháng)，適得其反。所以需要取值適中。

測試過(guò)程及結果：

1、單卡5000 Ada 測試AWQ量化的Llama3-8B。

當batch size 達到128時(shí)，能達到最大的吞吐率，為2205 t/s，即每秒可輸出2205個(gè)Token，時(shí)延小于15秒。比較理想的batch size是32-64。

AI不是只有4090、A800這些卡，英偉達RTX 5000 Ada工作站也能跑AI

2、單卡5000 Ada 測試Llama3-8BRAG。

當batch size 達到24時(shí)，能達到最大的吞吐率約156 t/s，其時(shí)延約39秒。對比過(guò)去測試單卡4090 的性能來(lái)看，4090單卡最大只能加載到16個(gè)請求。

AI不是只有4090、A800這些卡，英偉達RTX 5000 Ada工作站也能跑AI

3、4卡5000 Ada 測試AWQ量化的Llama3-8B

當batch size 達到256時(shí)，能達到最大的吞吐率3635 t/s，其時(shí)延約為18秒。比較理想的batch size是32-128。

AI不是只有4090、A800這些卡，英偉達RTX 5000 Ada工作站也能跑AI

4、4卡5000 Ada 測試GPTQ量化的Llama3-70B

當batch size 達到256時(shí)，能達到最大的吞吐率903 t/s，其時(shí)延約為72秒。建議batch size控制在32以?xún)取?/p>

AI不是只有4090、A800這些卡，英偉達RTX 5000 Ada工作站也能跑AI

總體感受不錯，畢竟預算有限，還能自由地在工作站上跑跑AI的感覺(jué)還是很好的。

（外觀(guān)參數等可參照：https://www.bilibili.com/video/BV1FN4y1f7wo/?share_source=copy_web&vd_source=9b60e49bb50bbcdce771cafe00e5dca5

AI不是只有4090、A800這些卡，英偉達RTX 5000 Ada工作站也能跑AI

最后，記得關(guān)注微信公眾號：鎂客網(wǎng)（im2maker），更多干貨在等你！

鎂客網(wǎng)

科技 | 人文 | 行業(yè)

微信ID：im2maker

長(cháng)按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅動(dòng)創(chuàng )新

admin作者

admin作者

14篇

文章總數

最新文章

“創(chuàng )”在高新！“新一代信息技術(shù)”行業(yè)賽圓滿(mǎn)落幕

倒計時(shí)14天！第十屆CDIE數字化創(chuàng )新博覽會(huì )！即將開(kāi)幕，抓住機遇，搶占席位~

五大國產(chǎn)大模型寫(xiě)高考作文，訊飛星火完勝

雨漩渦”室內瀑布背后的工程設計以及挑戰 | 西門(mén)子助力新加坡機場(chǎng)核心區域

11月cippe上海石化展助力石化企業(yè)發(fā)展新質(zhì)生產(chǎn)力

janpanese日本护士tube_色欲久久久天天天_国产精品国产三级区别第一集_一色屋任你精品亚洲香蕉