※ 本文轉寄自 ptt.cc, 文章原始頁面
標題

Re: [閒聊] 現在橫空出世的NPU

最新2023-12-31 13:24:00
留言152則留言,51人參與討論
推噓48 ( 480104 )
※ 引述《wahaha99 (我討厭人類)》之銘言: : 以這個評測為例, 讓我有點霧裡看花, 不是很能明白: : Intel Ultra 7 155H : CPU分數 67 : GPU分數 413 : NPU分數 282 : 嗯....這NPU看起來沒比較厲害? : 所以我的疑問就是: : 1. NPU 表現還不如 GPU, 這也許可以理解為最佳化還沒到位, : 不過即使未來能小贏, 為什麼不拿去做GPU就算了, 還可以增加3D性能。 npu/matrix/tensor其實不能增加傳統的3d性能。增加的是dlss/ray tracing的性能。 但這是個好問題,現在的情況,npu(matrix)如果併入gpu或cpu其實是更好的選擇。 : 2. NPU 能執行通用計算嗎? 如果可以, NPU 只是神經網路運算特化 : 的 GPU? npu是matrix(systolic array)特異化的超簡易cpu。不適合通用計算 : 3. 如何調用 NPU? 是視為 OpenCL / DirectML 裝置? : 還是又整出新的方法跟API了? : 又或只是在GPU下的子集? (調用核顯運算時指示調用NPU?) 目前就是另一個黑盒子運算機,不需要opencl/directml,可以直接從程式使用,如果os有開放出來。 gpu/avx,是simd,是1d array的運算 npu/amx/tensor是systolic array,是2d array的運算。 simd也可以matrix運算,但比較沒有效率,因為要一直切換資料。 gpu+tensor/cpu+amx,就是把傳統的1d暫存器擴張到2d暫存器(systolic array),把切換資料的時間省下來。效率可以2x~8x或更多。 現在影像的ai運用,npu是足夠的,這是當初設計npu的目的。就算是現在很紅的diffusion model,NPU也是很適合的,因為不需要即時反應。 現在的問題是,LLM(Large language Model),現在ai炒作其實就是講這個。 LLM吃記憶體吃記憶體頻寬吃運算能力。只用npu來暴力運算是行不通的。 N家的inference optimization文章 https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/ https://reurl.cc/37Nd7V 基本上,LLM的資料其實很鬆散,但很龐大,所以必須要想辦法做各種記憶體的規劃跟重組。 一個壓縮過,重組記憶體排列方法的Model,可以有10x以上的效能提昇,以後可能可以有100x的 提昇。 一個很有趣的例子,intel剛買下的Numenta https://technews.tw/2023/10/16/intel-xeon-numenta/ 他把Sparse的matrix重組成Compressed Sparse Row,然後運用cpu能力去解開到AMX再來運算,就達到10x~20x的提昇。 這個再加各種caching跟attention的優化,100x提昇是很有可能達到的。 趨勢來講,ai還在演變,cpu+amx或gpu+tensor還是會是短期發展的趨勢。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.70.128.119 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1703721942.A.506.html

Re: 回文串

48152
> Re: [閒聊] 現在橫空出世的NPU
PC_Shopping12/28 08:05

152 則留言

avans, 1F
推 專業見解說明42.79.173.45

hyde1arc, 2F
42.73.76.248

sbL, 3F
36.224.221.45

tsaigi, 4F
211.78.39.171

pinghg, 5F
推 以免人家說我看不懂125.229.155.20

labiron, 6F
推 應該沒人發現我看不懂114.137.214.99

mtc5566, 7F
推 這篇難得沒吹intel27.51.98.34

smallreader, 8F
所以GPU/NPU都還是疏鬆矩陣整個吞下114.27.25.210

smallreader, 9F
去硬幹? 囧114.27.25.210

hidalgo22976, 10F
他應該是針對LLM而已 attention本1.171.169.121

hidalgo22976, 11F
來就是sparse matrix1.171.169.121

hidalgo22976, 12F
不過這東西看起來就只是要做user端1.171.169.121

hidalgo22976, 13F
而已吧,有要取代gpu的意思嗎1.171.169.121

hidalgo22976, 14F
現在attention後期的研究幾乎就是1.171.169.121

hidalgo22976, 15F
想辦法不要整個matrix吞下去1.171.169.121

lpoijk, 16F
mtl跑ai 我bug還在解 嗚嗚嗚111.196.243.14

hidalgo22976, 17F
他提到的compressed sparse matrix1.171.169.121

hidalgo22976, 18F
應該就是其中一種,反正各種方式1.171.169.121

hidalgo22976, 19F
想辦法不要算那個大矩陣的演算法一1.171.169.121

hidalgo22976, 20F
1.171.169.121

oopFoo, 21F
大矩陣一定要算的,現在就是合併運算不要36.224.253.196

oopFoo, 22F
來回重複讀取大矩陣。另一個方向就是改變36.224.253.196

oopFoo, 23F
讀取的方式,更有效利用L2/L3快取。最後就36.224.253.196

aegis43210, 24F
model pruning是未來演算法及設計的重223.140.137.89

aegis43210, 25F
要一環,但現在不是重點223.140.137.89

oopFoo, 26F
是看運算法有沒突破,但這比較難36.224.253.196

hidalgo22976, 27F
反正後期就是想辦法不算那個大矩陣1.171.169.121

hidalgo22976, 28F
,幾乎也沒什麼特別突出的想法,每1.171.169.121

hidalgo22976, 29F
個都在簡化attention matrix的計算1.171.169.121

hidalgo22976, 30F
不過他提的npu好像跟你想像的不一1.171.169.121

hidalgo22976, 31F
樣,他應該是用在user端吧1.171.169.121

hidalgo22976, 32F
user端不會遇到記憶體問題啦,你要1.171.169.121

hidalgo22976, 33F
幾百張gpu做真‘’L"LM才要考量記1.171.169.121

hidalgo22976, 34F
憶體頻寬1.171.169.121

wahaha99, 35F
推專業說明 感謝118.169.11.48

qwe78971, 36F
太專業 看不太懂27.53.137.26

bw212, 37F
太專業了只能看戲111.246.150.41

bw212, 38F
不過突然有個想法 FPGA能拿來搞AI嗎111.246.150.41

chang1248w, 39F
長見識223.137.131.26

goldie, 139F
且需額外的driver/lib/framework才能調用42.75.4.60

goldie, 140F
但 throughput/能耗較好。42.75.4.60

goldie, 141F
AMX 是CPU指令集,整合進通用編譯器裡,42.75.4.60

goldie, 142F
可應用的範圍更大,但throughput/能耗效42.75.4.60

goldie, 143F
率沒NPU好。42.75.4.60

goldie, 144F
Intel AMX 來的確實有點晚,Arm 早就在做42.75.4.60

goldie, 145F
(乾… Ethos-U core driver 差點…42.75.4.60

goldie, 146F
在 Non-Secure 點不起來/port 失敗挫賽)42.75.4.60

sdbb, 147F
感謝科普112.104.66.116

protoss, 148F
有編譯器支援讓這類計算更方便使用更有機180.176.130.101

protoss, 149F
會發現實在的應用...還是要大廠推才比較180.176.130.101

protoss, 150F
好...180.176.130.101

AmigoSin, 151F
Nvidia有sparsed matrix的加速器223.136.91.96

AmigoSin, 152F
NV加速器的做法是直接不讀0的值223.136.91.96

oopFoo 作者的近期文章

Re: [情報] 英特爾認錯…擴大釋單台積 操刀範圍擴及
※ 引述《AquaChen1012 (阿扁)》之銘言: : 英特爾執行長基辛格在法人會議中表示,英特爾晶片代工業務受到決策錯誤的拖累,包括 : 一年前反對使用荷蘭ASML的EUV設備。基辛格說,部分由於這些失誤,英特爾已將晶圓總 : 數的約
Re: [閒聊] 現在橫空出世的NPU
NPU還是很有用的,以後應用會越來越多。 我舉個遊戲應用的例子。 現在遊戲對話都是固定死的。但用現代ai可以活潑很多。我大概解釋一下技術流程。 玩家用語音跟遊戲角色對話。 用Whisper轉換語音到文字。 用bert/gpt來分析文字的情緒
更多 oopFoo 作者的文章...