※ 本文轉寄自 ptt.cc, 文章原始頁面

看板Stock

作者waitrop (嘴砲無雙)

標題

Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

時間2024-02-29 11:38:32

最新2024-03-02 11:22:00

留言257則留言，107人參與討論

推噓115 ( 119推4噓134→ )

回文4則回文

你劃錯重點, 先不論這篇論文的可行性與實用性, 你真的劃錯重點了算力重要嗎? 重要但是不是影響販售/採購晶片的主因, 這個年代是用軟體思考的年代, 有兩個軟體方面的主因是AI晶片的關鍵: 1. LLM 2. API/framework: CUDA, OpenCL, tensorflow, pytorch 很多人嗆我說廢話, 但是很多人卻是連廢話都不懂, LLM 全名叫做 "Large" language model, 都已經叫做Large 了, 還放在最前面以表示重要性, 所以能夠處理"Large" 模型的能力遠比算力重要的多, 這篇文章有圖形解釋cpu vs gpu vs tpu的差別, https://www.linkedin.com/pulse/ cpu-vs-gpu-tpu-unveiling-powerhouse-trio-computing-abhineet-raj/ 所以拿這三者來比較算力是很蠢的事情, 這三者的算力彼此之間個差了十倍到百倍的差距, 比方說我有一大串數字/資料要做運算, cpu 必須每個數字/資料做運算之後相加減, gpu 把數字/資料放進兩個矩陣一次就算完, tpu 直接把算法設計成硬體邏輯, 數字/資料放進tpu可以直接得到結果, 所以你看出問題了嗎? 當你的資料與模型太大會塞不進去矩陣 (v-ram), 同樣的道理, 資料與模型太大會塞不進去tpu裡頭 (v-ram), 現代化的AI 瓶頸已經從算力提升到模型太大, 而這就是NVDA 厲害的地方, 一顆GPU v-ram 不夠塞進資料與模型, 沒關係, NVDA 把GPU 串連起來, 數百萬顆的GPU 串連 v-ram提升數百萬倍, 總可以塞進資料與模型來運算了吧, 請參考"電池串連"原理就可以了解我在說什麼 TPU 原本把算法設計成硬體邏輯是個優點, 但是在串連運算上面卻成了缺點, 矩陣運算可以串連串起來運算, 邏輯電路要串連 v-ram 運算反而變得非常複雜與難實現, 所以TPU 被綁在自身v-ram 的大小限制上面, 太大的模型與資料無法放進v-ram 就無法運算, 不過還是有解決方法, 這邊就不多說了所以算力重要嗎? 在LLM 面前真的不是最主要的考量 2. CUDA 版上吵翻天了, 不需要多說了, 你算力就算能比NVDA快上萬倍, 你也要能夠繞過CUDA 再說, 更何況算力有沒有比較快都很難說 ※ 引述《oopFoo (3d)》之銘言： : 千禧年的網路泡沫，也是先炒作硬體商，Cisco, Sun...，Sun還有"dot in dot-com"的廣告。 : 網路確實是改變世界，但真正大賺的是軟體公司，而且是完全新鮮的軟體公司。 : 這次AI浪潮，應該也是類似。 : N家這次炒作這麼高，是因為真的，Compute是供不應求。每個大公司都怕買不夠，跟不上。 : 但最近一些AI的發展，也許會發現，這些Compute是不需要的。 : Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity，這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。 : Mamba我很看好，它的作者之一也是"Flash Attention"的作者。 : 但昨天一篇新的論文，可能是真的翻天覆地的開始。 : https://arxiv.org/abs/2402.17764 : "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits" : https://news.ycombinator.com/item?id=39535800 : hn的討論。 : 現在討論的共識是，可行，理論基礎很扎實。各路人馬開始指出，從2006年開始的這方面研究，已經找出好多篇證實這方向是可行的。 : 現在的LLM是用fp16(16bits)，這方法可1.58bits，(討論說可以縮到0.68bits) : 然後本來是fp dot product的只要int add。 : 輕鬆10x的效能，新ASIC針對Ternary weight發展可以輕鬆100x的效能改善？ : 如果這篇證實是可行的，AI起跑點重新設置，所有公司的價值都要重新計算。 : 這篇的作者群很有資歷，但很有趣的是，主要是來自北京/清華大學。美國猛力壓制中國的運力運算，造就不太需要Compute的方法的發現，戳破美國AI泡沫，這會是非常的諷刺。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1709177914.A.EF9.html

輝達

Re: 回文串

119269

[新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

Stock02/28 16:33

10212

Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

Stock02/29 08:06

115257

> Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

Stock02/29 11:38

1939

Re: [新聞] 輝達H100晶片紓壓了訂單大戶開始轉售

Stock03/03 01:59

257 則留言

推

pmes986602/29 11:40, 1F

好的歐印TQQQ

推

leochen12402/29 11:41, 2F

謝謝分享

推

poisonB02/29 11:44, 3F

何必跟一知半解的認真

推

Aska052002/29 11:44, 4F

感謝分享 ALL IN NVDA

推

kid1a2b3c4d02/29 11:44, 5F

講中文啦QQ

→

aimlikenoob02/29 11:45, 6F

問就是買

→

tctv200202/29 11:48, 7F

嗯嗯跟我想的一樣

→

fatb02/29 11:49, 8F

閱

推

rkilo02/29 11:51, 9F

謝分享

推

sam9020502/29 11:52, 10F

何必認真看到那篇論文的產地就可以end了.

推

kducky02/29 11:55, 11F

00757會漲嗎0.0

推

roseritter02/29 11:55, 12F

推. 硬體受限情況下只能從其他地方突破惹

推

ab4daa02/29 11:55, 13F

歐印TQQQ

推

a06927523502/29 11:55, 14F

樓下幫我看一下這一大篇有沒有股點

GPU => NVDA
vram => hbm => MU
switch => AVGO
包牌 => QQQ

→

roseritter02/29 11:55, 15F

中國的HBM不知道何時商業量產

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 11:58:09

推

Altair02/29 11:56, 16F

豪!!! 所以要歐印誰?

→

kausan02/29 11:57, 17F

所以沒有比cuda更屌的東西你還是要舔nv

有比cuda更屌的東西,
但是掌握在七巨頭手上

→

a06927523502/29 11:58, 18F

感恩明牌五星推！

推

abc2108699902/29 11:59, 19F

我記得原Po是在G工作的FTE

推

j65p4m302/29 11:59, 20F

好窩歐印

※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:03:04

推

esproject02/29 12:04, 21F

幹嘛跟對岸小粉紅認真www 整天再吹利害了窩的鍋

推

leoloveivy02/29 12:06, 22F

但如果要tpu 一定是port一個可以的model v-ram加上

→

leoloveivy02/29 12:06, 23F

去面積大價錢還是比H100划算吧嗎

推

lonzoball0202/29 12:06, 24F

繞過去就好了

推

iamjojo02/29 12:11, 25F

推解釋這我看得懂

推

minikai02/29 12:12, 26F

問就是TQQQ

推

WTF5566556602/29 12:14, 27F

那文就是裝逼拐個彎吹支那或成最大贏家而已

→

WTF5566556602/29 12:14, 28F

欠打臉

推

TheObServer02/29 12:15, 29F

請問什麼東西比庫打還猛？

CUDA 是最底層的軟硬體介面,
提供軟體(寫程式)得到硬體加速的效果,
但是Google 的Tensorflow,
以及Meta/Facebook 的Pytorch,
是建構在CUDA 之上的python API 套件,
現在已經很少人直接寫CUDA,
大部分的人都用pytorch or tensorflow,
我個人的經驗是pytorch 比較容易,
tensorflow 比較底層比較複雜,
但是相對的tensorflow 提供更強大與更自由的設計功能,
不論是Google or FB,
tensorflow or pytorch,
在公司內部project 都已經可以繞過cuda 直接對硬體溝通加速

→

JKjohnwick02/29 12:16, 30F

中國的科技業不是只能代工跟抄襲嗎

→

AndyMAX02/29 12:17, 31F

switch ==> Nintendo

→

TheObServer02/29 12:17, 32F

不會是量子電腦吧

推

subi02/29 12:18, 33F

現在好像開始談LPU了