※ 本文轉寄自 ptt.cc, 文章原始頁面
Re: [情報] 情報數則
給太長直接End的:
沒人會用4090 train正經的模型
請愛用A100
-------------以下正文---------------
註:DL是Deep Learning
為了防止有人跟我吵說AI不只有深度學習blablabla
才特別寫明
不懂的話直接理解成AI就好
原文恕刪
先跟原PO道歉
我沒有要針對你
但我想原PO大概沒有認真搞過DL
有些觀念實在讓我不吐不快
雖然我也只是剛剛混了張紙的程度
但還是來丟個磚頭
有大神看到請小力鞭
BTW我也覺得米帝的制裁力道可以更大
但米帝絕不是像原PO說的傻跟笨
首先,正經做DL的肯定不是用4090
那種東西愛怎麼賣就怎麼賣
即使出了5090、6090
計算性能翻了兩倍三倍也沒關係
原因是絕大部分DL的瓶頸都在記憶體
主流的DL技術都包含了大量的矩陣運算
而矩陣運算的特色就是可以被高度的平行化
這也是為什麼沒人用CPU做DL
因為GPU或者ASIC隨便都是幾千個thread在做運算
記憶體的限制主要在兩個方面:容量跟頻寬
容量的話很簡單
爆掉就直接爆掉沒有第二句話
有摸過CUDA的話應該知道
叫GPU做任何事之前都要先把會用到的東西丟進GPU的記憶體
也就是說如果你會用到的東西超過VRAM大小
那恭喜你可以討預算升級設備了
當年我們菸酒生要開工的時候因為老闆太摳
又不想排隊等公用的伺服器
所以都自己買一張卡
那時都在討論要買3060還是3070
同學的結論是3060因為有12G VRAM
而肥宅我因為貪圖3070提升遊戲FPS的副作用所以還是買了3070
結果就是train彩色圖片的時候就被OOM鐵拳狠狠教訓
土豪同學的3080倒是沒問題
總之核心不夠力只是慢了點不過還是能算完
但VRAM爆了就是爆了
所以正經的DL是不會有人拿4090的
至少也是V100 32G
好一點的拿A100 40G
更好的拿A100 80G
現在最強的應該是H100吧
80G起跳最大188G
你說能有多少資料
實際情況會依設定跟訓練資料不同
單純討論模型本身就好
給個大概的概念:
一個16bit float是2byte
VGG16的參數有138 Million(不包含bias或其他optimizer的參數)
那模型本身就要至少276MB
用32bit float就是552MB
而GPT3的參數是175 Billion
16bit存模型本身就超過300GB
32bit就是600GB
至於GPU怎麼塞300GB等等再討論
這還只是模型本身喔
實際訓練時要的資料
運算時需要的記憶體等等都還沒討論
有哪些可以看圖
https://imgur.com/g63dyUe
(Source: https://reurl.cc/Q4rQQp )
另一個瓶頸是頻寬
話不多說先上圖
https://imgur.com/XmrL54v
(Source: https://reurl.cc/7RGxaN )
前面說過
叫GPU做任何事之前都要先把會用到的東西丟進GPU的記憶體
而灰色部分是程式在等待資料搬進記憶體佔總執行時間的百分比
可以看到mm那根棒棒超過90%
mm就是DL一直在做的矩陣乘法
這個搬進搬出的速度取決於頻寬
給個參考標準:
PCIE 5.0 SSD:約12GB/s
DDR4:約70GB/s
DDR5:約100GB/s
RTX3090:936.2GB/s
RTX4090:1008GB/s
V100S:1134GB/s
A100 40GB:約1500GB/s
A100 80GB:約2000GB/s
H100 188GB:7800GB/s
可以想像頻寬的影響有多大
再來談剛剛說了現在一個模型動輒幾百GB
整個train起來可能要幾TB
啊地表最強GPU也才188GB是要怎麼塞
答案是把GPU串起來
老黃的叫做NVLink
消費級最後支援NVLink的是3090
40系列全部不支援
蘇媽的...反正有跟沒有差不多
NVLink可以讓串在一起的GPU共用他們的記憶體
串8張A100 80GB就有640GB
可以說做DL生意的沒有不用NVLink的
當然這種共用的存取絕對比存取自己的記憶體慢很多
基本上現代DL發展的瓶頸就在這裡
給個參考數字:
V100:300GB/s
A100:600GB/s
H100 80GB:900GB/s
最後說說米帝幹了啥:
限制Nvidia把NVLink的速度降到400GB/s
就這樣
所以老黃把A100的NVLink閹了一刀改名A800
然後加價賣
為什麼我說米帝不蠢
你看他只砍一刀就砍在瓶頸
把瓶頸縮得更小
在幾乎沒損及美商利益的前提下造成最大的傷害
用過CUDA就知道那個生態系有多重要
基本上就是GPGPU的windows
你要是全禁了說不定他們自己煉蠱還真的煉出了個什麼來
但在有CUDA用的前提下
相信我
沒有人會想幹自己的
幹出來也沒人用
大概是這樣
下面談談我對原PO論點的看法
極權政府確實可以不論效率去幹一件事
但請別忘記資源是有限的
就AI這塊
不精確地說
DL本質上就是在一片無垠的解空間中隨便找個點開始往好的方向走
直到你走到你滿意的位置
或是走不下去從頭再來
當然高手可能每次都走得比你遠
而且可能幾次就找到他滿意的位置了
啊我們這種廢物就只能多走幾百次這樣
但基本上都有丟骰子的成分在
硬體效能的意義在於每丟一次要多久
而骰子在滾的期間無論你是高手還是廢物都是在等
只是廢物如我就直接去玩Switch
高手可能去學校教書或啃paper
於此同時你的對手可能已經滾完了在丟下一次
確實多買幾顆骰子可以解決問題
但請記得
中國在這方面的對手不只是任何一個政府
還有IBM、Google、微軟、Meta、Amazon等等科技巨頭
更不用說洛馬雷神波音這些牛鬼蛇神 <--- 軍武點(X
這些企業投入的資源可不會比中國政府少
更重要的是效率絕對比政府帶頭投入高出幾個數量級
還有
骰子是那個米帝的特級廚師一家獨大
他隨時可以把你的骰子再削一刀
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.223.90 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Military/M.1683641130.A.6A3.html
Re: 回文串
109266
Re: [情報] 情報數則
Military03/28 09:20
56155
Re: [情報] 情報數則
Military06/28 18:41
2539
Re: [情報] 情報數則
Military06/28 23:07
1734
Re: [情報] 情報數則
Military06/29 01:50
11
Re: [情報] 情報數則
Military06/30 03:50
1840
Re: [情報] 情報數則
Military09/12 00:33
93161
Re: [情報] 情報數則
Military09/12 16:51
102213
Re: [情報] 情報數則
Military09/12 18:19
3553
Re: [情報] 情報數則
Military09/13 04:05
2149
Re: [情報] 情報數則
Military09/13 05:10
169342
Re: [情報] 情報數則
Military09/14 18:13
1935
Re: [情報] 情報數則
Military09/14 19:42
2056
Re: [情報] 情報數則
Military09/14 19:53
1745
Re: [情報] 情報數則
Military09/14 21:37
3278
Re: [情報] 情報數則
Military09/15 03:20
2243
Re: [情報] 情報數則
Military09/15 03:42
5782
Re: [情報] 情報數則
Military09/15 06:58
5494
Re: [情報] 情報數則
Military09/15 07:49
72118
Re: [情報] 情報數則
Military09/15 13:28
1627
Re: [情報] 情報數則
Military09/15 18:36
2537
Re: [情報] 情報數則
Military09/16 03:47
5795
Re: [情報] 情報數則
Military09/16 05:24
87165
Re: [情報] 情報數則
Military09/16 16:02
49100
Re: [情報] 情報數則
Military09/17 02:05
4591
Re: [情報] 情報數則
Military09/17 07:46
77130
Re: [情報] 情報數則
Military09/17 20:07
4692
Re: [情報] 情報數則
Military09/18 00:57
4061
Re: [情報] 情報數則
Military09/18 02:27
2946
Re: [情報] 情報數則
Military09/18 02:36
79227
Re: [情報] 情報數則
Military09/18 07:39
5294
Re: [情報] 情報數則
Military09/18 17:43
74149
Re: [情報] 情報數則
Military09/19 11:54
4390
Re: [情報] 情報數則
Military09/20 01:39
179 則留言
FXW11314 作者的近期文章
12car
Re: [新聞] 測試造假風波延燒 大發暫停所有車款出貨https://youtu.be/CJthWhmQTuk?si=gNTqsthz096YMdaR 補充一下他們的玩法好了 造假樣態有174種,其中改裝測試車28個,造假資料143個,篡改數據3個,包含但不限於: 頭枕測試只測副駕位,駕駛座的
Re: [新聞] 歐盟打算監聽所有人的網路連線
大概講一下我的認知跟理解,我不是搞資安的所以有錯請不吝指教 現代網路會透過一個機制來確保傳輸的內容只有你跟對方看到的 方法是透過所謂的不對稱加密,這種加密機制會同時生成公鑰跟私鑰兩種密碼,其中公鑰是 可以任意洩漏的,而私鑰必須保密。而公鑰加
推
推
推
推
推
→
推
推
推
推
推
→
推
→
→
推
推
推
推
推
→
推
→
→
→
推
推
推
推
推
推
→
→
→
推
→
→
→
→
推
推
推
推
推
推
推