※ 本文轉寄自 ptt.cc, 文章原始頁面
標題

Re: [閒聊] M2Ultra在AI比intel+nVIDIA有架構優勢?

時間
最新2023-07-05 21:00:00
留言52則留言,12人參與討論
推噓2 ( 7540 )
※ 引述《hugh509 ((0_ 0))》之銘言: : 先說我不懂AI運算 : 只是看了林亦的新影片 : https://youtu.be/UsfmqTb2NVY
就鬼扯,我也懶的噴他。現在老黃是遙遙領先所有人,AI全吃,沒什麼好爭辯的。 現在所謂的DL,第一需要的是運算,第二才是記憶體頻寬。 M2Ultra的gpu就27.2tflops(fp32),跟3080差不多,但ampere有兩倍的(fp16+fp32accumulate)還有4x的(fp16)。現在fp16訓練就很夠了,擔心你可以用fp16+fp32模式,那也是2x你m2 ultra。 https://images.nvidia.com/aem-dam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaper-v2.1.pdf https://tinyurl.com/yuak5w5d 4090是82.6tflops(fp32),330.3tflops(fp16)。m2ultra連車尾都看不到,可憐啊。 然後M2Ultra的31.6tops,那應該是int8無誤如果是int4那就更可憐。4090是660.6(int8)tops與1321.2(int4)tops。這已經是被超車好幾十圈了。(tops是inference用的) H100 datasheet https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet https://tinyurl.com/bdfuutbe h100 pcie是最低階的 756tflops(tf32) 1513tflop(fp16) h100是狠狠的虐了所有人包含a100。2x~4x(a100) https://www.mosaicml.com/blog/amd-mi250 AMD的mi250不到a100的80%,mi300的specs其實跟mi250差不多,mi300主要是apu功能。 只有google的tpu跟intel的gaudi2跟a100有輸有贏。 https://mlcommons.org/en/training-normal-30/ gaudi2在gpt3的訓練大概是h100的1/3性能。 intel為什麼要取消rialto bridge?現在ai當道,fp64強的hpc架構根本毫無用處。AMD因為只有mi300所以只能硬上了,但383tflops(fp16)要怎麼跟1500+tflops的h100比? intel現在把資源集中在gaudi3/4,期望2年內可以看到老黃的車尾。 有人以為老黃只是因為cuda軟體贏。其實nn很容易移植到其它架構,老黃是硬體大贏+長期耕耘ai。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.249.214 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1688351283.A.3EF.html

Re: 回文串

252
> Re: [閒聊] M2Ultra在AI比intel+nVIDIA有架構優勢?
PC_Shopping07/03 10:27

52 則留言

WYchuang, 1F
MI300應該沒有跟250差不多 … apu只是其218.164.221.191

WYchuang, 2F
中一個型號 mi300x才是全部gpu218.164.221.191

a000000000, 3F
mi300x我記得fp32沒輸h100多少喔76.132.63.174

a000000000, 4F
而且老黃是tensor core76.132.63.174

a000000000, 5F
現在也只有知道多少cu 不知道頻率76.132.63.174
這根本是外行話。 nn本來就是tensor。 有756tflops的tf32幹麼用51tflops的fp32。 h100還有fp8,有些training有用到更是可怕的效率。

cor1os, 6F
樓上射惹125.227.5.157

E6300, 7F
反正老黃就是拿遊戲卡來撐場子223.136.188.174

harry886901, 8F
他計算速度主要是開大batch size101.12.29.165

harry886901, 9F
這樣確實不用算力也能有效加速運算效101.12.29.165

harry886901, 10F
101.12.29.165
夢裡什麼都有。AMD戰未來。

CORYCHAN, 11F
為何您會得出MI300跟MI250差不多的結論223.139.79.158

CORYCHAN, 12F
呢?223.139.79.158
沒有架構大改。現在公開的數據就沒有變動很大。
※ 編輯: oopFoo (36.224.228.156 臺灣), 07/03/2023 12:47:14

spfy, 13F
先不管IA有沒有輸這麼多 那影片下面一堆人202.173.43.202

spfy, 14F
贊同蘋果要超越老黃 看的我好像走錯世界線202.173.43.202

oopFoo, 15F
現在一堆在講AI的都讓我覺得很莫名奇妙。36.224.228.156

oopFoo, 16F
也有跑ai模型理論很好的人,對硬體完全不36.224.228.156

oopFoo, 17F
懂,也是意見很奇杷。36.224.228.156

iuytjhgf, 18F
你怎麼會期待讀資訊科的人就會組電腦111.252.228.72

iuytjhgf, 19F
寫軟體只在意我的模型到底塞不塞的下去111.252.228.72

a000000000, 20F
尼484沒看懂我在講啥76.132.63.174

a000000000, 21F
h100 tf32 75676.132.63.174

a000000000, 22F
mi250 38476.132.63.174

a000000000, 23F
mi300x cu數4mi250的1.6倍76.132.63.174

a000000000, 24F
再加上頻率差 尼自己算一下76.132.63.174

a000000000, 25F
等等我好像看錯惹76.132.63.174

a000000000, 26F
384應該是mi300a的fp16 尷尬76.132.63.174

Arbin, 27F
不過就算目前mi300x有接近h100效能好了111.71.218.44

Arbin, 28F
DL公司應該還是會對他觀望111.71.218.44

Arbin, 29F
主要目前你各位還是太黏NVDA111.71.218.44

aegis43210, 30F
H100強在BF16和自己開發的TF32,這兩175.181.177.110

aegis43210, 31F
種場景都比CDNA3強很多175.181.177.110

aegis43210, 32F
但mi300在int8和int4相對mi250有4倍以175.181.177.110

aegis43210, 33F
上的提升175.181.177.110

oopFoo, 34F
mi300有400tops,假設是int8好了,h100的36.224.228.156

a000000000, 35F
我看惹一下 mi300在fp16含以下應該76.132.63.174

a000000000, 36F
mi300x大概h100的一半附近76.132.63.174

a000000000, 37F
目前LLM運算應用效率4沒到50%才對76.132.63.174

a000000000, 38F
主要都卡ram76.132.63.174

a000000000, 39F
而且那是a100的狀態76.132.63.174

a000000000, 40F
a100->h100 都是80GB hbm2e->hbm376.132.63.174

a000000000, 41F
tensor core運算效能多很多76.132.63.174

a000000000, 42F
能用到多少就很難說惹76.132.63.174

oopFoo, 43F
寫錯mi250大概400tops。mi300大概1600tops36.224.228.156

oopFoo, 44F
h100是3026tops,350w。mi300要?800w?36.224.228.156

oopFoo, 45F
int8/int4這種inference的東東,xilinx有36.224.228.156

oopFoo, 46F
比較划算的東東。MTL也有30?tops的vpu,這36.224.228.156

oopFoo, 47F
一塊還有空間給IA兩家機會搶。36.224.228.156

kqalea, 48F
m2 ultra 方向是對的啦36.227.221.216

kqalea, 49F
透過LoRA 之類的方法,不需要大量算力36.227.221.216

kqalea, 50F
就可以微調LLM 反而是large memory 可以讓36.227.221.216

kqalea, 51F
大模型輕鬆跑起來微調更重要36.227.221.216

kqalea, 52F
沒有個八張A100 訓練個 LLaMA 都不可能36.227.221.216

oopFoo 作者的近期文章

Re: [情報] 英特爾認錯…擴大釋單台積 操刀範圍擴及
※ 引述《AquaChen1012 (阿扁)》之銘言: : 英特爾執行長基辛格在法人會議中表示,英特爾晶片代工業務受到決策錯誤的拖累,包括 : 一年前反對使用荷蘭ASML的EUV設備。基辛格說,部分由於這些失誤,英特爾已將晶圓總 : 數的約
Re: [閒聊] 現在橫空出世的NPU
NPU還是很有用的,以後應用會越來越多。 我舉個遊戲應用的例子。 現在遊戲對話都是固定死的。但用現代ai可以活潑很多。我大概解釋一下技術流程。 玩家用語音跟遊戲角色對話。 用Whisper轉換語音到文字。 用bert/gpt來分析文字的情緒
Re: [閒聊] 現在橫空出世的NPU
※ 引述《wahaha99 (我討厭人類)》之銘言: : 以這個評測為例, 讓我有點霧裡看花, 不是很能明白: : Intel Ultra 7 155H : CPU分數 67 : GPU分數 413 : NPU分數 282 : 嗯....這
更多 oopFoo 作者的文章...