Re: [情報] 情報數則

時間2023-05-10 06:05:28

最新2023-05-18 18:27:00

留言179則留言，100人參與討論

推噓102 ( 103推1噓75→ )

回文60則回文

給太長直接End的：沒人會用4090 train正經的模型請愛用A100 -------------以下正文--------------- 註：DL是Deep Learning 為了防止有人跟我吵說AI不只有深度學習blablabla 才特別寫明不懂的話直接理解成AI就好原文恕刪先跟原PO道歉我沒有要針對你但我想原PO大概沒有認真搞過DL 有些觀念實在讓我不吐不快雖然我也只是剛剛混了張紙的程度但還是來丟個磚頭有大神看到請小力鞭 BTW我也覺得米帝的制裁力道可以更大但米帝絕不是像原PO說的傻跟笨首先，正經做DL的肯定不是用4090 那種東西愛怎麼賣就怎麼賣即使出了5090、6090 計算性能翻了兩倍三倍也沒關係原因是絕大部分DL的瓶頸都在記憶體主流的DL技術都包含了大量的矩陣運算而矩陣運算的特色就是可以被高度的平行化這也是為什麼沒人用CPU做DL 因為GPU或者ASIC隨便都是幾千個thread在做運算記憶體的限制主要在兩個方面：容量跟頻寬容量的話很簡單爆掉就直接爆掉沒有第二句話有摸過CUDA的話應該知道叫GPU做任何事之前都要先把會用到的東西丟進GPU的記憶體也就是說如果你會用到的東西超過VRAM大小那恭喜你可以討預算升級設備了當年我們菸酒生要開工的時候因為老闆太摳又不想排隊等公用的伺服器所以都自己買一張卡那時都在討論要買3060還是3070 同學的結論是3060因為有12G VRAM 而肥宅我因為貪圖3070提升遊戲FPS的副作用所以還是買了3070 結果就是train彩色圖片的時候就被OOM鐵拳狠狠教訓土豪同學的3080倒是沒問題總之核心不夠力只是慢了點不過還是能算完但VRAM爆了就是爆了所以正經的DL是不會有人拿4090的至少也是V100 32G 好一點的拿A100 40G 更好的拿A100 80G 現在最強的應該是H100吧 80G起跳最大188G 你說能有多少資料實際情況會依設定跟訓練資料不同單純討論模型本身就好給個大概的概念：一個16bit float是2byte VGG16的參數有138 Million(不包含bias或其他optimizer的參數) 那模型本身就要至少276MB 用32bit float就是552MB 而GPT3的參數是175 Billion 16bit存模型本身就超過300GB 32bit就是600GB 至於GPU怎麼塞300GB等等再討論這還只是模型本身喔實際訓練時要的資料運算時需要的記憶體等等都還沒討論有哪些可以看圖 https://imgur.com/g63dyUe

(Source: https://reurl.cc/Q4rQQp ) 另一個瓶頸是頻寬話不多說先上圖 https://imgur.com/XmrL54v

(Source: https://reurl.cc/7RGxaN ) 前面說過叫GPU做任何事之前都要先把會用到的東西丟進GPU的記憶體而灰色部分是程式在等待資料搬進記憶體佔總執行時間的百分比可以看到mm那根棒棒超過90% mm就是DL一直在做的矩陣乘法這個搬進搬出的速度取決於頻寬給個參考標準： PCIE 5.0 SSD：約12GB/s DDR4：約70GB/s DDR5：約100GB/s RTX3090：936.2GB/s RTX4090：1008GB/s V100S：1134GB/s A100 40GB：約1500GB/s A100 80GB：約2000GB/s H100 188GB：7800GB/s 可以想像頻寬的影響有多大再來談剛剛說了現在一個模型動輒幾百GB 整個train起來可能要幾TB 啊地表最強GPU也才188GB是要怎麼塞答案是把GPU串起來老黃的叫做NVLink 消費級最後支援NVLink的是3090 40系列全部不支援蘇媽的...反正有跟沒有差不多 NVLink可以讓串在一起的GPU共用他們的記憶體串8張A100 80GB就有640GB 可以說做DL生意的沒有不用NVLink的當然這種共用的存取絕對比存取自己的記憶體慢很多基本上現代DL發展的瓶頸就在這裡給個參考數字： V100：300GB/s A100：600GB/s H100 80GB：900GB/s 最後說說米帝幹了啥：限制Nvidia把NVLink的速度降到400GB/s 就這樣所以老黃把A100的NVLink閹了一刀改名A800 然後加價賣為什麼我說米帝不蠢你看他只砍一刀就砍在瓶頸把瓶頸縮得更小在幾乎沒損及美商利益的前提下造成最大的傷害用過CUDA就知道那個生態系有多重要基本上就是GPGPU的windows 你要是全禁了說不定他們自己煉蠱還真的煉出了個什麼來但在有CUDA用的前提下相信我沒有人會想幹自己的幹出來也沒人用大概是這樣下面談談我對原PO論點的看法極權政府確實可以不論效率去幹一件事但請別忘記資源是有限的就AI這塊不精確地說 DL本質上就是在一片無垠的解空間中隨便找個點開始往好的方向走直到你走到你滿意的位置或是走不下去從頭再來當然高手可能每次都走得比你遠而且可能幾次就找到他滿意的位置了啊我們這種廢物就只能多走幾百次這樣但基本上都有丟骰子的成分在硬體效能的意義在於每丟一次要多久而骰子在滾的期間無論你是高手還是廢物都是在等只是廢物如我就直接去玩Switch 高手可能去學校教書或啃paper 於此同時你的對手可能已經滾完了在丟下一次確實多買幾顆骰子可以解決問題但請記得中國在這方面的對手不只是任何一個政府還有IBM、Google、微軟、Meta、Amazon等等科技巨頭更不用說洛馬雷神波音這些牛鬼蛇神 <--- 軍武點(X 這些企業投入的資源可不會比中國政府少更重要的是效率絕對比政府帶頭投入高出幾個數量級還有骰子是那個米帝的特級廚師一家獨大他隨時可以把你的骰子再削一刀 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.223.90 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Military/M.1683641130.A.6A3.html

Re: 回文串

3954

[情報] 情報數則

Military03/18 05:17

95168

[情報] 情報數則

Military03/28 02:42

109266

Re: [情報] 情報數則

Re: 回文串

179 則留言

FXW11314 作者的近期文章