※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Stock
標題

Re: [請益] NVDA跟AMD怎麼突然崩了

最新2024-03-10 09:47:00
留言169則留言,47人參與討論
推噓43 ( 485116 )
本來中午要去吃飯剛好看到這篇,雖然我說的內容可能大部分人也可能不太理解, 但巷子內的看到應該會覺得還是蠻怪的,當然有更多大神指點是更好的 ※ 引述《LDPC (Channel Coding)》之銘言: : 週末有點時間 之前寫的老黃故事 https://disp.cc/ptt/Stock/1aVG4__D : 這幾年AI模型突飛猛進的一個關鍵點就是 泛化的能力 : 簡言之 2018以前 AI模型 都是透過數據 去學習資料上的標註資料 : 來做人類事先規範好的目的 而機器透過這些標注數據 去達到人類要求的事情 : 當模型遇到一個沒看過的數據 或者場景變得不同 模型就會失效 甚至無法處理 : 但在pre-trained model/foundation model出來後 一切都不同了 Pre-trained model的概念從開山祖師爺Alexnet誕生以來就有了 早期AI的爆發起源於李飛飛辦了一場視覺的辨識比賽,但為此比賽就需要資料庫 因此建立了Imagenet,人類第一個大數據影像庫,有一千種類別 當年應該是第二屆吧,Alexnet的橫山出世,靠著與其他人完全不同的架構 壓倒性的準確率獲得了當年冠軍(比前一年冠軍提高了10%左右) 這個架構就是當年類神經模型的延續,也就是俗稱的深度學習Deep Learning架構 因此後來開源了此架構模型跟參數,也就是俗稱的Pre-train model,因此就開起了大 AI時代的序幕,大家蜂擁而上的發展新架構,Fine-tuning新模型 而當時要訓練十幾萬張的照片光用CPU是跑不動的,因此Alex還有一個很大的貢獻是 他手刻調用兩張GPU顯卡進行運算,也是老黃AI王朝的開始 在此技術突破後帶來的就是各種影像上突破,例如人臉辨識、停車場進出、智駕車等 也讓智駕車從空談變成了可能 : 大體而言就是 模型透過某種學習(self-supervised) 機器能從無註記資料學習一定法則 : 而能做到超出原本數據沒有做過的事情 甚至簡單調整 (zero-shot)再不需要重新訓練 : 或者少量訓練(fine-tuning) 機器就能根據落地場景 能達到最佳化結果 : 甚至因為self-supervised關係 許多網路上的野生數據 也不需要人工標註 : 因為機器會在這些大量野生數據 自我學到法則 從而產生推理的效果 : 而這些最大的意義就是 機器能做到超乎原本數據給的標籤效果 理解數據 創造法則 : 這些意味者AGI的那個聖杯 有機會可以摸到邊了 而OpenAI最大的概念就是 : 大力出奇蹟 也就是堆疊數據多樣性(multi-tasking)及 透過龐大算力跟模型 : 而所達到的模型泛化(zero-shot)以及AGI效果更明顯 其實這邊算是一堆概念混在一起使用了,首先zero-shot在現階段是很難訓練的, 通常必須要有一個大模型,才有辦法使用zero-shot,或是few-shot learning 簡單來說就是你無法從零開始,事到如今一定還是必須要有資料 而且是高品質的標記資料,再加上暴力式硬體進行學習,才有機會變大模型 所以我接續上面的故事繼續說後續好了,這樣可能讓一般人也比較能夠看得懂 在影像上取得突破後,是不是就能套用在全部的影像環境的,答案是否定的 因為在影像環境中有各式各樣的難題,例如你是個分類問題還是物件偵測問題等等等 因此首先突破的是分類問題變得更精準,突破的方式就是將類神經網路建構的更深層 ,就出來了例如resnet、inception等架構 後續就解決了辨識更精準,甚至到後來YOLO架構的出現解決了物件偵測的問題 隨著影像上的突破,大家就漸漸地將這些方式導入到其他的領域中,例如訊號、音訊 、文字、控制等 後來出現了GAN的架構,帶給人們另一種啟發的思想,所謂的GAN也可以當作是生成式架 構的發想開創,讓大家知道原來可以讓AI創作出東西,而不是單純地進行識別而已 後續講快一點,在這段年間AI的論文架構基本上是一週小改一個月大改,過了半年就是落 後技術,但隨著google發表了Attention與Transformer後,開始有了異質性結合的可能,也就是現在gpt 的始祖,可以分解文字,可以將文字輸入變成影像輸出等 也就是從此之後AI漸漸地從開源導向了不開源,而且某些程度上是閉鎖的 上一個這樣的領域應該是強化式學習(Reinforcement learning) 在當年OpenAI發表GPT2的時候,就對他巨量的參數量感到吃驚,因為可想而知是背後 有著巨型不開源的資料庫,所以在後續GPT3的成功,也開啟了LLM的朝代 一個AI成為軍備競爭的朝代,你需要有夠多夠高品質準確的資料,加上巨型的模型跟 龐大的顯卡庫,就能越接近AGI,這也是為啥美國拼命禁中國生產晶片進口顯卡,最主要 的目的除了5G手機以外就是避免他們比美國更快發展出AGI 那關於老黃的起飛呢,一開始靠著個人版或是主機板的顯卡吃片天下,再來是靠著挖虛擬 貨幣吃掉了所有消費型顯卡的量,接下來就是奧特曼發現現在的GPU量是源源不足以誕生 出AGI以及能用於落地,所以就造就了現在NV的盛況,大家可以想像原先的資料中心,原本 Server一半以上都要換成GPU(基本級別),如果要導入生成式架構應用,或是未來的AGI, 那可能是現今十倍甚至更高到百倍的用量 這也是我們一般人難以想像的 最後補充一些我看好的市場吧,因為生成式架構的誕生,讓文字生成,影像生成已經變了 可能,未來就是3D影像領域與控制領域也會變成了可能 例如建立了大量標準動作庫,讓機器人只要看懂一次,就能夠完整的操作此動作, 又或著是在AR/VR領域,現在建立虛擬場景成本很高,之後都靠生成架構,就能降低 很多成本,因此VR MMORPG也會漸漸出現 因此陪伴機器人、家居型機器人會是下一個市場,以及生成式投影機或相關虛擬生成 的產業也會越來越龐大,但我想應該是還要一段時間 題外話,最近OPENAI出了生成式影片的功能,早在一年前我們還在看巨石強生吃石頭,隔 不到一年就有如此大的進步,只能說可能AGI的時代會比我們想像中的還快到達 雖然我是傾向AGI不是已經誕生,就是需要在遙久的以後才會出現吧 -- 那片有座高塔哭著朝北方奔去的天空,是我此刻片尋不著的風景 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.242.104 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1709963522.A.6D1.html

169 則留言

w60904max, 1F
看樣子要因為AI失業 只能在家玩刀劍神域了

roseritter, 2F

LDPC, 3F
clip, wave2vec都不需要label data 而wave2vec是後
clip跟wave2vec都要進行預訓練的,並不是不用 只是你直接拿他們訓練好的參數就能夠直接fine tune或是直接映射

jecint1707, 4F
VR補習 我已經遇見未來了

LDPC, 5F
來audio encoder幾時(e.g. Meta M4T)

fakelie, 6F
我自己覺得照護類機器人應該沒這ㄇ快

ImHoluCan, 7F
台積電工程師準備被取代

ImHoluCan, 8F
變成決測師

fakelie, 9F
現在最新model一樣base attention machanism

dosiris, 10F
最先會被取代的是櫃檯人員和Uber Eat

LDPC, 11F
On the Opportunities and Risks of Foundation Mo

fakelie, 12F
跟人體有關ㄉ不能出錯 容錯率高產業比較有發展空間

LDPC, 13F
odel裡面有時間軸解釋pretrained model歷史緣由

LDPC, 14F
甚至Bert也是透過無需標註的數據來做pretrianing

fakelie, 15F
因為attention導入有weight, softmax,一樣改變不了

fakelie, 16F
NN 本身base on rateㄉ事實

LDPC, 17F
你所謂高品質標籤數據現在的做法用在finetune

roseritter, 18F
未來城市規劃裡面 智慧運輸載具專用道 也許會變重要

fakelie, 19F
bert fine-tune看用途 一樣需要標籤

littlesss, 20F
可以娶兔子老大的女兒了嗎?

ImHoluCan, 21F
HR 可以取代掉不是嗎?

LDPC, 22F
且以現在模型大小來看wave2vec,bert,clip都小於1b

LDPC, 23F
根本不能算作大模型

fakelie, 24F
對ㄟ hr的確能取代掉xd

sawadiga, 25F
克隆打的贏ai不

LDPC, 26F
我摘錄李非非pretrained model 2021那份報告

LDPC, 27F
A foundation model is any model that is trained

LDPC, 28F
on broad data (generally using self-supervision

LDPC, 29F
e.g., fine-tuned) to a wide range of downstream

LDPC, 30F
zero shot在clip來說 一個ccf12資料就可以train出來

LDPC, 31F
我不知道你那些立論是從哪來的....
你沒發現我說的是pre-trained model而不是foundation嗎 其實兩者的概念是有點歷史推移的

inoce, 32F
跟我想得差不多

ae8450, 33F
人類要滅亡了~
※ 編輯: EvilSD (114.137.242.104 臺灣), 03/09/2024 14:19:03

ProTrader, 34F
AI HR 有產品了 但是說取代真人HR還太早

LDPC, 35F
而z-shot clip/bert/wav2vec就是從零開始train啊..

ImHoluCan, 36F
HR 與櫃台 那些都可以砍ㄧ砍,還有什企劃什麼的,

ImHoluCan, 37F
根本肥貓ㄧ群,我是不信這些東西要靠多強大的AI 才

ImHoluCan, 38F
能取代掉

LDPC, 39F
且你理解有錯誤耶 文字輸入變成影像輸入是clip

pocession, 164F
就連在預訓練的前置訓練,像是word2vec這種淺層的

pocession, 165F
神經網路

pocession, 166F
也沒有標記什麼東西。

pocession, 167F
有的,只是輸入和輸出的配對,藉由訓練去找出規律,

pocession, 168F
就是所謂的模型

pocession, 169F
而在後面各式的task中,會對模型進行fine tuning 。

pocession, 170F
而有些task,例如NER或是NEN,就需要高品質的預先

pocession, 171F
標示好的資料。

Alwen, 172F
黃董直接嗆那些替代晶片就算免費 TCO還是比較貴

Alwen, 173F
真的厲害惹 事情沒有媒體講的那麼簡單

Alwen, 174F
CSP不會用TPU這種侷限性很高的東西= =