※ 本文轉寄自 ptt.cc, 文章原始頁面

看板PC_Shopping

作者oopFoo (3d)

標題

Re: [閒聊] 現在橫空出世的NPU

時間2023-12-28 08:05:36

最新2023-12-31 13:24:00

留言152則留言，51人參與討論

推噓48 ( 48推0噓104→ )

回文2則回文

※ 引述《wahaha99 (我討厭人類)》之銘言： : 以這個評測為例, 讓我有點霧裡看花, 不是很能明白: : Intel Ultra 7 155H : CPU分數 67 : GPU分數 413 : NPU分數 282 : 嗯....這NPU看起來沒比較厲害? : 所以我的疑問就是: : 1. NPU 表現還不如 GPU, 這也許可以理解為最佳化還沒到位, : 不過即使未來能小贏, 為什麼不拿去做GPU就算了, 還可以增加3D性能。 npu/matrix/tensor其實不能增加傳統的3d性能。增加的是dlss/ray tracing的性能。但這是個好問題，現在的情況，npu(matrix)如果併入gpu或cpu其實是更好的選擇。 : 2. NPU 能執行通用計算嗎? 如果可以, NPU 只是神經網路運算特化 : 的 GPU? npu是matrix(systolic array)特異化的超簡易cpu。不適合通用計算 : 3. 如何調用 NPU? 是視為 OpenCL / DirectML 裝置? : 還是又整出新的方法跟API了? : 又或只是在GPU下的子集? (調用核顯運算時指示調用NPU?) 目前就是另一個黑盒子運算機，不需要opencl/directml，可以直接從程式使用，如果os有開放出來。 gpu/avx，是simd，是1d array的運算 npu/amx/tensor是systolic array，是2d array的運算。 simd也可以matrix運算，但比較沒有效率，因為要一直切換資料。 gpu+tensor/cpu+amx，就是把傳統的1d暫存器擴張到2d暫存器(systolic array)，把切換資料的時間省下來。效率可以2x~8x或更多。現在影像的ai運用，npu是足夠的，這是當初設計npu的目的。就算是現在很紅的diffusion model，NPU也是很適合的，因為不需要即時反應。現在的問題是，LLM(Large language Model)，現在ai炒作其實就是講這個。 LLM吃記憶體吃記憶體頻寬吃運算能力。只用npu來暴力運算是行不通的。 N家的inference optimization文章 https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/ https://reurl.cc/37Nd7V 基本上，LLM的資料其實很鬆散，但很龐大，所以必須要想辦法做各種記憶體的規劃跟重組。一個壓縮過，重組記憶體排列方法的Model，可以有10x以上的效能提昇，以後可能可以有100x的提昇。一個很有趣的例子，intel剛買下的Numenta https://technews.tw/2023/10/16/intel-xeon-numenta/ 他把Sparse的matrix重組成Compressed Sparse Row，然後運用cpu能力去解開到AMX再來運算，就達到10x~20x的提昇。這個再加各種caching跟attention的優化，100x提昇是很有可能達到的。趨勢來講，ai還在演變，cpu+amx或gpu+tensor還是會是短期發展的趨勢。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.70.128.119 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1703721942.A.506.html

Re: 回文串

48152

> Re: [閒聊] 現在橫空出世的NPU

PC_Shopping12/28 08:05

29113

Re: [閒聊] 現在橫空出世的NPU

PC_Shopping12/29 06:44

152 則留言

推

avans12/28 08:23, 1F

推專業見解說明42.79.173.45

推

hyde1arc12/28 08:49, 2F

推42.73.76.248

推

sbL12/28 08:51, 3F

推36.224.221.45

推

tsaigi12/28 08:53, 4F

推211.78.39.171

推

pinghg12/28 08:57, 5F

推以免人家說我看不懂125.229.155.20

→

labiron12/28 09:13, 6F

推應該沒人發現我看不懂114.137.214.99

推

mtc556612/28 09:19, 7F

推這篇難得沒吹intel27.51.98.34

推

smallreader12/28 09:46, 8F

所以GPU/NPU都還是疏鬆矩陣整個吞下114.27.25.210

→

smallreader12/28 09:46, 9F

去硬幹? 囧114.27.25.210

推

hidalgo2297612/28 09:51, 10F

他應該是針對LLM而已 attention本1.171.169.121

→

hidalgo2297612/28 09:51, 11F

來就是sparse matrix1.171.169.121

→

hidalgo2297612/28 09:52, 12F

不過這東西看起來就只是要做user端1.171.169.121

→

hidalgo2297612/28 09:52, 13F

而已吧，有要取代gpu的意思嗎1.171.169.121

推

hidalgo2297612/28 09:55, 14F

現在attention後期的研究幾乎就是1.171.169.121

→

hidalgo2297612/28 09:55, 15F

想辦法不要整個matrix吞下去1.171.169.121

推

lpoijk12/28 09:56, 16F

mtl跑ai 我bug還在解嗚嗚嗚111.196.243.14

推

hidalgo2297612/28 09:59, 17F

他提到的compressed sparse matrix1.171.169.121

→

hidalgo2297612/28 09:59, 18F

應該就是其中一種，反正各種方式1.171.169.121

→

hidalgo2297612/28 09:59, 19F

想辦法不要算那個大矩陣的演算法一1.171.169.121

→

hidalgo2297612/28 09:59, 20F

堆1.171.169.121

→

oopFoo12/28 10:06, 21F

大矩陣一定要算的，現在就是合併運算不要36.224.253.196

→

oopFoo12/28 10:07, 22F

來回重複讀取大矩陣。另一個方向就是改變36.224.253.196

→

oopFoo12/28 10:09, 23F

讀取的方式，更有效利用L2/L3快取。最後就36.224.253.196

推

aegis4321012/28 10:09, 24F

model pruning是未來演算法及設計的重223.140.137.89

→

aegis4321012/28 10:09, 25F

要一環，但現在不是重點223.140.137.89

→

oopFoo12/28 10:09, 26F

是看運算法有沒突破，但這比較難36.224.253.196

推

hidalgo2297612/28 10:23, 27F

反正後期就是想辦法不算那個大矩陣1.171.169.121

→

hidalgo2297612/28 10:23, 28F

，幾乎也沒什麼特別突出的想法，每1.171.169.121

→

hidalgo2297612/28 10:23, 29F

個都在簡化attention matrix的計算1.171.169.121

→

hidalgo2297612/28 10:24, 30F

不過他提的npu好像跟你想像的不一1.171.169.121

→

hidalgo2297612/28 10:24, 31F

樣，他應該是用在user端吧1.171.169.121

→

hidalgo2297612/28 10:25, 32F

user端不會遇到記憶體問題啦，你要1.171.169.121

→

hidalgo2297612/28 10:25, 33F

幾百張gpu做真‘’L"LM才要考量記1.171.169.121

→

hidalgo2297612/28 10:25, 34F

憶體頻寬1.171.169.121

推

wahaha9912/28 10:29, 35F

推專業說明感謝118.169.11.48

推

qwe7897112/28 10:57, 36F

太專業看不太懂27.53.137.26

推

bw21212/28 11:06, 37F

太專業了只能看戲111.246.150.41

→

bw21212/28 11:08, 38F

不過突然有個想法 FPGA能拿來搞AI嗎111.246.150.41

推

chang1248w12/28 11:14, 39F

長見識223.137.131.26

→

goldie12/30 09:45, 139F

且需額外的driver/lib/framework才能調用42.75.4.60

→

goldie12/30 09:45, 140F

但 throughput/能耗較好。42.75.4.60

→

goldie12/30 09:45, 141F

AMX 是CPU指令集，整合進通用編譯器裡，42.75.4.60

→

goldie12/30 09:45, 142F

可應用的範圍更大，但throughput/能耗效42.75.4.60

→

goldie12/30 09:45, 143F

率沒NPU好。42.75.4.60

→

goldie12/30 09:45, 144F

Intel AMX 來的確實有點晚，Arm 早就在做42.75.4.60

→

goldie12/30 09:45, 145F

(乾… Ethos-U core driver 差點…42.75.4.60

→

goldie12/30 09:45, 146F

在 Non-Secure 點不起來/port 失敗挫賽)42.75.4.60

→

sdbb12/30 16:15, 147F

感謝科普112.104.66.116

→

protoss12/31 02:57, 148F

有編譯器支援讓這類計算更方便使用更有機180.176.130.101

→

protoss12/31 02:58, 149F

會發現實在的應用...還是要大廠推才比較180.176.130.101

→

protoss12/31 02:59, 150F

好...180.176.130.101

推

AmigoSin12/31 13:20, 151F

Nvidia有sparsed matrix的加速器223.136.91.96

推

AmigoSin12/31 13:24, 152F

NV加速器的做法是直接不讀0的值223.136.91.96

oopFoo 作者的近期文章

14PC_Shopping

Re: [情報] 英特爾認錯…擴大釋單台積操刀範圍擴及

※ 引述《AquaChen1012 (阿扁)》之銘言： : 英特爾執行長基辛格在法人會議中表示，英特爾晶片代工業務受到決策錯誤的拖累，包括 : 一年前反對使用荷蘭ASML的EUV設備。基辛格說，部分由於這些失誤，英特爾已將晶圓總 : 數的約

9PC_Shopping

Re: [情報] Intel 的 15700K 15900K 消息曝光

36PC_Shopping

[情報] MSI 6800/6800XT 特價$12990

7PC_Shopping

Re: [情報] Intel下放APO至12/13代CPU舊代K系列CPU

13PC_Shopping

[情報] MSI Claw A1M 掌機

39PC_Shopping

[閒聊] Steam Deck的Van Gogh APU有個隱藏的NPU

29PC_Shopping

Re: [閒聊] 現在橫空出世的NPU

NPU還是很有用的，以後應用會越來越多。我舉個遊戲應用的例子。現在遊戲對話都是固定死的。但用現代ai可以活潑很多。我大概解釋一下技術流程。玩家用語音跟遊戲角色對話。用Whisper轉換語音到文字。用bert/gpt來分析文字的情緒

13PC_Shopping

Re: [情報] Intel Lunar Lake消息

7PC_Shopping

[情報]MTL桌機會在2024發行

更多 oopFoo 作者的文章...