※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Tech_Job
標題

[新聞] IEEE:GPU很好,但不是唯一

最新2024-04-04 13:06:00
留言64則留言,46人參與討論
推噓15 ( 251029 )
IEEE:GPU很好,但不是唯一 https://www.qbitai.com/2024/03/131950.html 十三 CPU價值重新被發現 是時候讓CPU在AI應用上「支棱」起來了。 這是去年大語言模型大火之時,權威期刊 IEEE Spectrum 在一篇文章中,開門見山給出 的一個觀點;並且是由一群AI研究人員得出、聲量越來越大的那種。 文章還坦言道: 誠然GPU可能佔據了主導地位,但在AI領域中的許多情況下,CPU卻是更合適的那一個 。 例如文章引援了Hugging Face首席佈道官Julien Simon體驗的真實案例—— 拿一個 英特爾® 至強® 系列CPU ,就能輕鬆駕馭Q8-Chat這個大語言模型,而且反應速 度很快。 Simon對此開誠佈公地表示: GPU雖然很好,但壟斷從來不是一件好事,可能會加劇供應鏈問題並導致成本上升。 英特爾CPU在許多推理場景中都能很好地運作。 而這也正與當下大模型的發展趨勢變化相契合,即逐漸從訓練向推理傾斜,大模型不再僅 較真於參數規模、跑分和測評,更注重在應用側發力。 一言蔽之,比的就是看誰能 「快好省」 地用起來。 不過話雖如此,但在真實的AI場景中,CPU真的已經「支棱」起來了嗎? 京東雲,選擇CPU 如果說當時在這個話題上,IEEE扮演了“嘴替”,是在幫那些AI應用實踐的先行者們發聲 ,那麼這種發聲,確實又吸引或帶動了更多實幹者來驗證這種可行性。 他們如今已經可 以給出一個確定答案,即在許多AI推理的場景中,CPU已經能很好地上崗了。 例如中國公有雲服務器市場的翹楚例如中國公有雲伺服器市場的翹楚京東 雲,它pick的 便是最新的 第五代英特爾® 至強® 可擴充處理器 。 具體而言,是在其新一代京東雲端伺服器上搭載了這款高階CPU。 話不多說,我們直接先來看效果。 首先,從整體來看,新一代京東雲端伺服器的整機效能最高提升了23%! 除此之外,在AI推理方面的表現也是Up Up Up。 電腦視覺推理:表現提升38% Llama 2推理:性能提升51% 而之所以能有如此突破,核心就是第五代英特爾® 至強® 可擴展處理器內建的AMX(高 階矩陣擴充)技術對AI的加速能力。 英特爾® AMX 是針對矩陣運算推出的加速技術,支援在單一操作中計算更大的矩陣,讓 生成式AI 更快運作。 一言以蔽之,你可以把它當作內建在CPU中的Tensor Core。 展開來說, AMX引入了一種包含兩個組件的新矩陣處理框架,包括二維的寄存器文件,它 由被稱為“tile”的寄存器組成;另一個是一系列能夠在這些tile上執行操作的加速器。 在這些技術的加持之下,以向量檢索為例,當處理n個批次的任務時,需要對n個輸入向量 x和n個資料庫中的向量y進行相似度比較。 這一過程中的相似度計算涉及到大量的矩陣乘法運算,而英特爾® AMX能夠針對這類需求 提供顯著的加速效果。 https://tinyurl.com/bdzdkax9 △英特爾® AMX架構 在提升模型效能的過程中, 英特爾® oneDNN 作為AMX的軟體搭檔,可為操作者提供一種 高效的最佳化實現方式。 開發者只需呼叫MatMul原語,並提供必要的參數,包括一些後處理步驟,oneDNN便會自動 處理包括配置塊寄存器、數據從內存的加載、執行矩陣乘法計算以及將結果回寫到內存等 一系列複雜操作,並在最後釋放相關資源。 這種簡化的編程模式顯著減輕了工程師的編程負擔,同時提升了開發效率。 透過上述軟硬結合的最佳化措施,京東雲端新一代伺服器就可以在大模型推理和傳統深度 學習模型推理等場景裡提供能滿足客戶效能和服務品質(QoS) 需求的解決方案,同時還可 以強化各種CPU本就擅長的通用運算任務的處理效率。 僅就大家關心的大模型推理而言, 已經能用於問答、客服和文件總結等多種場景。 https://tinyurl.com/45vjymn7 △Llama2-13B推理性能測試數據 而且除了效能上的最佳化之外,由於搭載了英特爾® AMX等模組,新一代京東雲端伺服器 也可以更快地回應中小規模參數模型,把成本也狠狠地打了下去。 你以為這就結束了? 英特爾CPU為新一代京東雲端伺服器帶來的好處,可不僅涉及推理加 速和成本,更可靠的安全防護也是其獨到優勢之一。 基於新款處理器內建的 英特爾® Trust Domain Extension (Intel® TDX)技術,京東 雲在不改變現有應用程式的情況下,就能建構基於硬體設備的可信任執行環境(Trusted Execution Environment,TEE)。 英特爾® TDX透過引入 信任域 (Trust Domain,TD)虛擬環境,利用多密鑰全記憶體加 密技術,實現了不同TD、實例以及系統管理軟體之間的相互隔離,讓客戶的應用和資料與 外部環境隔離,防止未授權訪問,且效能損耗較低。 總的來說,英特爾CPU上的這項技術,是從硬體、虛擬化、記憶體到大模型應用等多個層 面,為新一代京東雲端伺服器的資料和應用保密提供了可靠支撐。 重新發現CPU的價值 AI進入2.0時代,所有應用都值得重寫一遍已逐漸成為共識。 如果站在算力基礎設施的視野重新檢視這場變革,還能發現這樣一個新趨勢:推理算力越 來越被重視起來。 也就是隨著大模型應用場景的日益豐富,對推理階段的效能要求也變得更高且多樣化。 一方面,即時性強、時延敏感的終端側場景需要盡可能短的反應時間; 另一方面,並發量大、吞吐量高的雲端服務則需要強大的批次能力。 同時,針對不同硬體平台、網路條件的推理適配也提出了更複雜甚至帶有不同前置條件的 要求。 如此一來,先前在硬體上的單一「審美觀」就被改寫,本來就主攻通用計算、能在整個AI 的協同編排中扮演重要角色,又能擼袖子自己上、兼顧AI加速,同時還有更多「才藝」、 應用適配也更為靈活,相比GPU或專用加速晶片獲取更容易,且已部署到無處不在的CPU, 其價值也被重新發現,這一切都順理成章。 相信隨著軟硬體適配的不斷深入,以及雲端端協同的加速落地,CPU還有望在AI,特別是 AI推理實踐中找到更多的用武之地,發揮更大的應用潛力。 可以預見,高性能、高效率、高適應性的CPU,在大模型越來越捲的時代,依舊是可靠的 選擇。 這一點,會有更多人因為實踐,而見證。 最後讓我們打個小廣告:為了科普CPU在AI推理新時代的玩法,量子位開設了 《最「in」 AI》 專欄,將從技術科普、產業案例、實戰優化等多個角度全面解讀。 我們希望透過這個專欄,讓更多的人了解CPU在AI推理加速,甚至是整個AI平台或全流程 加速上的實踐成果,重點就是如何更好地利用CPU來提升大模型應用的效能和效率。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.38.31.13 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1711858996.A.736.html

64 則留言

AnXD, 1F
我只相信股價

motan, 2F
太可怕了,美國要禁售中國嗎

fedona, 3F
沒空

kissa0924307, 4F
哪為何只禁輝達GPU賣中國?

kyle5241, 5F
那還不趕快禁intel cpu進中國嗎?

zonezone, 6F
土共文章少看點,真那麼行Intel早飛天了

qwe78971, 7F
整篇就是在吹intel cpu 真那麼棒大家早改搶買cpu

qwe78971, 8F
而不是n卡GPU了 騙騙外行人還行 講出來只會被笑

pot1234, 9F
不會變memory bound嗎?

michelin4x4, 10F
問 就是你沒cuda, 而且nv 還不想給你轉譯

OSDim, 11F
嗯嗯很棒==

derekjj, 12F
英特兒都快變成印特兒了 只會出一張嘴 笑死人

xam, 13F
IEEE以前有在考慮供應鏈的供需的問題嗎?

yugi2567, 14F
IEEE被綁架?

lavign, 15F
自己和自己比,新品效能增加不是廢話嗎

holmes006, 16F
支稜嘴替是什麼意思

NTUOnline, 17F
我本來以為作者是在Intel工作,但看起來不是XD

NTUOnline, 18F

NTUOnline, 19F
裡面也有談到Intel的Q8-Chat LLM XDD

lavign, 20F
IEEE Spectrum (IF0.94)

Max112358, 21F
inference用cpu沒問題,training就沒辦法

howzming, 22F
NV不也是理解到這趨勢,不然怎麼會想做CPU.

shooter555, 23F
不衝突啦 Xeon scalable配上fpga 再配nv 的gpu 反

shooter555, 24F
正一張也不夠快

shooter555, 25F
Pcie 多開幾個插好插滿

refusekkk, 26F
理論吹半天 NV出貨有跌嗎?

Homeparty, 27F
max講的是對的

pacino, 28F
快點去跟嘴砲王報到

FlyBird, 29F
看不懂捏,GPU不就是為了矩陣乘法誕生的嗎?現在說C

FlyBird, 30F
PU可以一樣強?

ideal5566, 31F
所以贏GPU了嗎 我就問

johnjohnlin, 32F
本文章由intel贊助播出

btpeter, 33F
GPU本來就不是AI應用或者LLM的唯一選擇 只是chatGPT

btpeter, 34F
橫空出世 微軟用的就是NV的GPU 去training 然後老

btpeter, 35F
黃很會炒話題 供應鏈 跟出貨搭配他的的庫存抬高價

btpeter, 36F
錢 才會造成目前現在的情形 老黃也不是白癡 很會炒

btpeter, 37F
股跟玩供應鏈這種手段 跟前幾年被動元件國巨一樣….

btpeter, 38F
AI 應用的硬體 CSP 一堆都在研究ASIC FPGA 等解決

btpeter, 39F
分案 Nv能紅就這幾年…一堆CSP也不是白癡….

howzming, 51F
推理就不一定要強大的GPU了.

buster520798, 52F
CPU for AI training and inference?

paxetin, 53F
Train到天荒地老

misomochi, 54F
急了

mmonkeyboyy, 55F
transformer 裡面要什麼都還搞不懂 就在這吹XD

jpwd, 56F
這那國翻譯?

jhangyu, 57F
不用訓練?在講甚麼笑話?

brightest, 58F
Cpu也可以做矩陣加速 也不會有gpu cpu溝通的問題

rodion, 59F
一堆詭異用語 牆國專用版翻譯?

riotssky, 60F
中國用語可以翻譯一下嗎

darkangel119, 61F
歐好棒 快歐印

tpegioe, 62F
未轉換為本國用語,難讀

kkk99923, 63F
騙外行人的吧 重點根本不是gpu還cpu

alex780312, 64F
這種用詞真看不懂,需要專業翻譯

jackliao1990 作者的近期文章

[新聞] 台積電熊本廠拉抬當地薪資 中小企業悲鳴
台積電熊本廠拉抬當地薪資 中小企業悲鳴 https://www.cna.com.tw/news/aopl/202405020210.aspx 譯者:楊惟敬/核稿:陳政一 日本共同社報導,台積電進駐日本熊本縣造成當地就業環境出現翻天覆地的變化
[新聞] 台積電1舉動 專家拋警告!死敵恐重回「霸
台積電1舉動專家拋警告!死敵恐重回「霸主地位」 科技中心/柯美儀報導 英特爾採用ASML高數值孔徑極紫外光EUV曝光機技術,而台積電卻不願立即採用,外媒認 為,這將為英特爾重拾光環地位,打開另一個狹窄的窗口。 根據美國科技媒體wccftec
[新聞] 丘成桐:中國科技水準至少倒退20年
清華學者丘成桐:照習路線走 中國科技至少倒退20年 https://www.iask.ca/news/873999 清華大學學者丘成桐表示,如果中國目前的科技發展路線繼續下去,中國的科技水準至少 可能會倒退20年。 (本照資料照) 根據《網
[新聞] Meta裁員22% 半數員工卻可領1235萬台幣
祖克柏員工不好當?Meta裁員22%半數員工卻可領1235萬台幣年薪 https://www.nownews.com/news/6415638 楊智傑 社群平台臉書、Instagram的母公司「Meta」近年來進行人事結構調整,自2022年
[新聞] 日本菁英搶進台積電 東大教授推薦:聯發
日本菁英搶進台積電東大教授推薦:聯發科也是好選擇 https://news.tvbs.com.tw/world/2469449 劉哲琪 「護國神山」台積電於熊本設廠後,在日本掀起半導體熱潮,許多優秀菁英都希望能進入 相關業界工作。日本東京大
[新聞] 35歲就不要了!這家企業爆「逼退員工」手
35歲就不要了!這家企業爆「逼退員工」 手段超難堪 https://tinyurl.com/43nxjy86 柯美儀 全球經濟不景氣,各行各業都受到衝擊,韓國企業為了應對財務壓力,開始削減人力成本 ,就連30多歲的員工也可能丟了飯碗,但公司
[新聞] 輝達來台設全亞洲首座研發中心 經濟部
https://www.chinatimes.com/amp/realtimenews/20240426002476-260410 繼Google昨(25)日正式啟用位在新北市板橋的第二棟全新硬體研發辦公大樓,經濟部產業 技術司長邱求慧今(
更多 jackliao1990 作者的文章...