※ 本文轉寄自 ptt.cc, 文章原始頁面

作者jackliao1990 (j)

標題

[新聞] Sora到底懂不懂物理世界？一場腦力激盪正

時間2024-02-23 14:05:43

最新2024-02-24 20:26:00

留言125則留言，41人參與討論

推噓18 ( 24推6噓95→ )

Sora到底懂不懂物理世界？一場腦力激盪正在AI圈大佬間展開 https://www.linkresearcher.com/information/933841f9-c37c-4e66-91fc-f152567bf3bb 機器之心報道編輯：張倩、杜偉 Sora 到底是不是實體引擎甚至是世界模型？圖靈獎得主Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探討。最近幾天，OpenAI 發布的影片生成模型Sora 成了全世界關注的焦點。和以往只能產生幾秒鐘影片的模型不同，Sora 把生成影片的長度一下子拉長到60 秒。而且，它不僅能了解使用者在Prompt 中提出的要求，還能get 到人、物在物理世界中的存在方式。以經典的「海盜船在咖啡杯中纏鬥」為例。為了讓生成效果看起來逼真，Sora 需要克服以下幾個物理困難：規模和比例的適應：將海盜船縮小到能夠在咖啡杯中纏鬥的尺寸，同時保持它們的細節和結構，是一個挑戰。 AI 需要理解和調整這些物件在現實生活中的相對尺寸，使得場景在視覺上顯得合理；流體動力學：咖啡杯中的液體會對海盜船的移動產生影響。 AI 模型需要模擬液體動力學的效果，包括波浪、濺水和船隻移動時液體的流動，這在計算上是複雜的；光線和陰影的處理：為了讓場景看起來真實，AI 需要精確地模擬光線如何照射在這個小型場景中，包括咖啡的反光、船隻的陰影，以及可能的透光效果；動畫和運動的真實性：海盜船的運動需要符合真實世界的物理規律，即使它們被縮小到咖啡杯中。這意味著AI 需要考慮到重力、浮力、碰撞以及船體結構在動態環境中的行為。雖然生成效果還有些瑕疵，但我們能明顯感覺到，Sora 似乎是懂一些「物理」的。英偉達高級研究科學家Jim Fan 甚至斷言，「Sora 是一個數據驅動的實體引擎」，「是可學習的模擬器，或『世界模型』」。部分研究者同意這樣的觀點，但也有不少人反對。 Yann LeCun：產生影片的過程與基於世界模型的因果預測完全不同圖靈獎得主Yann LeCun 率先亮明觀點。在他看來，僅僅根據prompt 生成逼真影片並不能代表一個模型理解了物理世界，生成影片的過程與基於世界模型的因果預測完全不同。他接著講到，模型生成逼真影片的空間非常大，影片產生系統只需要產生一個合理的範例就算成功。不過對於一個真實影片而言，其合理的後續延續空間卻非常小，產生這些延續的代表性片段，特別是在特定行動條件下，任務難度更大。此外產生影片的後續內容不僅成本高昂，實際上也毫無意義。因此，Yann LeCun 認為，更理想的做法是產生影片後續內容的抽象表達，並消除與我們可能所採取動作無關的場景中的細節。當然，他藉此又PR 了一波JEPA（Joint Embedding Predictive Architecture，聯合嵌入預測架構），認為上述做法正是它的核心思想。 JEPA 不是生成式的，而是在表示空間中進行預測。與重建像素的生成式架構（如變分自編碼器）、掩碼自編碼器、去噪自編碼器相比，聯合嵌入架構（如Meta 前幾天推出的AI 視訊模型V-JEPA）可以產生更優秀的視覺輸入表達。 https://twitter.com/ylecun/status/1758740106955952191 François Chollet：只讓AI 看視頻學不成世界模型 Keras 之父François Chollet 則闡述了更細緻的觀點。他認為，像Sora 這樣的視訊生成模型確實嵌入了「物理模型」，但問題是：這個物理模型是否準確？它能否泛化到新的情況，也就是那些不只是訓練資料插值的情況？ Chollet 強調，這些問題至關重要，因為它們決定了生成影像的應用範圍—— 僅限於媒體生產，還是可以用作現實世界的可靠模擬。 Chollet 透過海盜船在咖啡杯中纏鬥的例子，討論了模型能否準確反映水的行為等物理現象，或者只是創造了一種幻想拼貼。在這裡，他指出模型目前更傾向於後者，即依賴資料插值和潛空間拼貼來產生影像，而不是真實的物理模擬。有人將這種行為類比為人類做夢，認為Sora 其實只是達到了人類做夢的水平，但是邏輯能力依然不行。 Chollet 指出，透過機器學習模型擬合大量資料點後形成的高維曲線（大曲線）在預測物理世界方面是存在局限的。在特定條件下，大數據驅動的模型能夠有效捕捉並模擬現實世界的某些複雜動態，例如預測天氣、模擬風洞實驗等。但這種方法在理解和泛化到新情況時存在局限性。模型的預測能力依賴其訓練資料的範圍和質量，對於那些超出訓練資料分佈的新情況，模型可能無法準確預測。所以，Chollet 認為，不能簡單地透過擬合大量資料（如遊戲引擎渲染的影像或影片）來期望得到一個能夠泛化到現實世界所有可能情況的模型。這是因為現實世界的複雜性和多樣性遠遠超過任何模型能夠透過有限數據學習到的。田淵棟：學習物理需要主動學習或策略強化學習針對Jim Fan 的觀點，一些研究者提出了更激進的反駁，認為Sora 並不是學到了物理，只是看起來像是學到了罷了，就像幾年前的煙霧模擬一樣。也有人覺得，Sora 不過是對 2D 像素的操縱。 https://twitter.com/IntuitMachine/status/1758845715709632873 當然，Jim Fan 對「Sora 沒有在學習物理，而只是操縱2D 像素」這一說法進行了一系列反駁。他認為，這種觀點忽略了模型在處理複雜資料時所展現的深層能力。就像批評 GPT-4 不是學習編碼，只是隨機挑選字串一樣，這種批評沒有認識到Transformer 模型在處理整數序列（代表文本的token ID）時所表現出的複雜理解和生成能力。 https://twitter.com/DrJimFan/status/1758549500585808071 對此，Google研究科學家Kevin P Murphy 表示，他不確定最大化像素的可能性是否足以促使模型可靠地學到精確的物理，而不是看似合理的動態視覺紋理呢？是否需要MDL（ Minimum description length，最小描述長度）呢？ https://twitter.com/sirbayes/status/1759101992516112864 同時，知名AI 學者、Meta AI 研究科學家田淵棟也認為，關於Sora 是否有潛力學到精確的物理學（當然現在還沒有），背後的關鍵問題是：為什麼像「預測下一個token」或“ 重建」這樣簡單的思路會產生如此豐富的表示法？他表示，損失函數如何被激發的並不重要，損失函數的設計動機（無論多麼哲學化或複雜）並不直接決定模型能否學到更好的表示。事實上，複雜的損失函數可能與看起來很簡單的損失函數實際上產生了類似的效果。最後他稱，為了更好地理解事物，我們確實需要揭開Transformers 的黑盒子，檢查給定反向傳播的訓練動態，以及如何學習隱藏的特徵結構，並探索如何進一步改進學習過程。 https://twitter.com/tydsh/status/1759293967420805473 田淵棟也表示，如果想要學習精確的物理，他敢打賭需要主動學習或策略強化學習（無論如何稱呼它）來探索物理的精細結構（例如物體之間的相互作用、硬接觸）。 https://twitter.com/tydsh/status/1759389064648888395 其他觀點：Sora 被認為是「數據驅動的實體引擎」太荒謬除了眾多AI 圈大佬之外，也有一些專業性的觀點開始反駁Sora 懂物理引擎這個說法。例如下面這位推特部落客，他認為OpenAI 是數據驅動的物理引擎這一觀點是荒謬愚蠢的，就好像收集了行星運動的數據並將它們餵給一個預測行星位置的模型，然後就得出此模型內部實現了廣義相對論的結論。 https://twitter.com/ChombaBupe/status/1759226186075390033 他稱，愛因斯坦花了很多年時間才推導出了重力理論的方程式。如果有人認為隨機梯度下降（SGD）+ 反向傳播僅憑輸入輸出對就能理解一切，並在模型訓練中解決問題，那麼這個人對於機器學習的理解是有問題的，對機器學習的工作方式了解也不夠。愛因斯坦在理論推導中對現實做出了許多假設，例如光速恆定、時空是靈活的結構，然後推導出了微分方程，其解揭示了黑洞、重力波等重大發現。可以說，愛因斯坦利用因果推理將不同的概念連結了起來。但是，SGD + 反向傳播並不是這樣，它們只是將資訊壓縮到模型權重中，並不會進行推理，只是更新並轉向實現具有最低誤差的參數配置。他認為，機器學習（ML）中的統計學習過程可能會顯然低誤差“盆地”，即無法探索不同的概念，因為一旦陷入這些低誤差“盆地”或局部最小值就無法重新開始。因此，SGD + 反向傳播發現了看似有效但卻很容易崩潰的、脆弱的解決方案捷徑。這就是為什麼深度學習系統不可靠且實際訓練起來很難，你必須在現實中不斷更新和訓練它們，這就很麻煩。梯度下降的工作原理就像一隻蒼蠅尋找氣味源一樣，即蒼蠅跟隨空氣中的化學濃度向下移動，從而引導它導向氣味源。但如果僅依賴這種方式，就很容易迷路或陷入困境。在機器學習中，模型的可調式參數就像蒼蠅，訓練資料就像氣味源，目標函數測量的誤差就像氣味。而調整模型權重的目的是朝著氣味源（這裡是低誤差，相當於更濃的氣味）移動。最後，他得出結論，如果認為機器學習模型僅僅透過訓練行星運動的影片就能在內部學到廣義相對論，那就更荒謬了。這是對機器學習原理的嚴重誤解。此外，有網友指出Sora 影片範例充滿了物理錯誤，例如一群小狗在雪中玩鬧的場景就很糟糕，大塊雪的運動就完全違反了重力（是否真如此，有待判斷）。 https://twitter.com/MikeRiverso/status/1759271107373219888 Sora 到底懂不懂物理？將來會不會懂？「預測下一個token」是不是通往AGI 的一個方向？我們期待各路研究者進行進一步驗證。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.157.241 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1708668347.A.B3A.html

125 則留言

※ 編輯: jackliao1990 (123.192.157.241 臺灣), 02/23/2024 14:06:07

→

aria052002/23 14:24, 1F

直接講結論當然不懂

→

aria052002/23 14:25, 2F

把lecun的解釋看看就懂了

→

aria052002/23 14:26, 3F

世界模型不可能以這種方式建構

推

ohlong02/23 14:27, 4F

要是哪天真的暴力破解一堆遊戲3d engine的公司就

→

ohlong02/23 14:27, 5F

丸子

→

chunfo02/23 14:31, 6F

蒼井空是世界的

推

j11223344602/23 14:50, 7F

如果真的可以train出一個懂物理模型的model是不是

→

j11223344602/23 14:50, 8F

代表了他的loss function 就隱含了夠正確的物理模

→

j11223344602/23 14:50, 9F

型？

推

havochuman02/23 14:53, 10F

首先你要先定義甚麼是懂物理模型的model

→

havochuman02/23 14:53, 11F

人類對物理世界的了解連1%都不到你要怎麼參照？

推

jupei02/23 14:54, 12F

拿來做動畫不懂也沒差

推

wcre02/23 14:54, 13F

人類都不懂世界了，期待人類訓練的AI懂？

推

Chilloutt02/23 15:23, 14F

人類物理學家終將滅亡

推

min8661502/23 15:36, 15F

原理還是看SIGGRAPH的論文比較有啟發

→

bnn02/23 15:46, 16F

現在一定還不懂但遲早的事

→

bnn02/23 15:47, 17F

應該還是現在的物理引擎產生各種訓練資料(AI輔助)

→

bnn02/23 15:47, 18F

然後再用這些資料拿去訓練

→

final0102/23 16:06, 19F

他都能當你物理老師了還不董物理嗎

→

ciswww02/23 16:23, 20F

沒學過物理的人可以畫出其他人看起來合理的湖水

→

kaltu02/23 16:27, 21F

要先定義什麼是懂，現在的神經網路有人有中文房間問

→

kaltu02/23 16:27, 22F

題，像樓上的LLM給出物理教學，究竟只是這些權重預

→

kaltu02/23 16:27, 23F

測這個prompt和先前的token應該放出下一個token機率

→

kaltu02/23 16:27, 24F

最高的恰巧會讓人類以為他懂物理，還是他真的懂物理

→

kaltu02/23 16:27, 25F

從預測失敗的例子大概就知道他根本什麼都不懂，只是

→

kaltu02/23 16:27, 26F

近期可能的模仿人類而已

→

kaltu02/23 16:27, 27F

其實這類AI本質上跟芙莉蓮的魔族（人形的魔物）一樣

→

kaltu02/23 16:27, 28F

，本身不是人類也不在乎要不要用人類的方式去弄懂世

→

kaltu02/23 16:27, 29F

界，只是像鸚鵡一樣知道講某些話會有讓人類以為他們

→

kaltu02/23 16:27, 30F

懂的效果而已

→

kaltu02/23 16:27, 31F

跟之前對LLM暈船的研究員一樣，模型只是在吐出你想

→

kaltu02/23 16:27, 32F

聽的話而已，如果你覺得他有意識那他就會吐會讓你覺

→

kaltu02/23 16:27, 33F

得他有意識的output

→

kaltu02/23 16:27, 34F

他並不需要真的有意識，只要讓你認為他有意識就能讓

→

kaltu02/23 16:27, 35F

你設定的loss function happy了

→

kaltu02/23 16:34, 36F

這類模型就是盡其所能的唬爛，講錯的時候唬得跟真的

→

kaltu02/23 16:34, 37F

一樣

→

kaltu02/23 16:34, 38F

但其實講對的時候對模型而言它何嘗不也只是在唬爛？

→

kaltu02/23 16:34, 39F

它根本不知道自己講的對不對，只知道生這些token可

→

yunf02/24 09:52, 113F

用ai代替！你們正把世界變成這樣！

推

riotssky02/24 11:49, 114F

讓sora破幾次薩爾達應該就學得會了

推

bitcch02/24 12:49, 115F

如果可行以後科學理論說不定都用巨量資料跟算力來解

推

darkangel11902/24 16:25, 116F

結論歐印AI

噓

pig1233533102/24 20:17, 117F

一堆人在那邊講幾%幾%，看得我好躁

→

yunf02/24 20:26, 118F

很多人還沒有搞清楚狀況！當你失去獨立思考的能力時

→

yunf02/24 20:26, 119F

，你就很容易回到封建時代！你認為很正常合理的事情

→

yunf02/24 20:26, 120F

其實只是你的認知被侷限在缺乏突破性思考的框架裡！

→

yunf02/24 20:26, 121F

講個淺顯易懂的就是什麼公司掛上了科技兩個字不論他

→

yunf02/24 20:26, 122F

技術含量有多少看起來都好像很厲害，什麼科系前面都

→

yunf02/24 20:26, 123F

要掛一個科學看起來好像很厲害，什麼人頭銜掛個工程

→

yunf02/24 20:26, 124F

師看起來好像很厲害！很多事情當你不具備相關領域的

→

yunf02/24 20:26, 125F

專業時是不容易跨出那個框架！

jackliao1990 作者的近期文章

16Tech_Job

[討論] 微軟CEO：Copilot Workspace重新定義IDE

212Tech_Job

[情報] 勞動部公布去年新鮮人薪資情況

24Tech_Job

[新聞] 台積電1舉動專家拋警告！死敵恐重回「霸

台積電1舉動專家拋警告！死敵恐重回「霸主地位」科技中心／柯美儀報導英特爾採用ASML高數值孔徑極紫外光EUV曝光機技術，而台積電卻不願立即採用，外媒認為，這將為英特爾重拾光環地位，打開另一個狹窄的窗口。根據美國科技媒體wccftec

15Tech_Job

[新聞] 丘成桐:中國科技水準至少倒退20年

清華學者丘成桐：照習路線走中國科技至少倒退20年 https://www.iask.ca/news/873999 清華大學學者丘成桐表示，如果中國目前的科技發展路線繼續下去，中國的科技水準至少可能會倒退20年。（本照資料照）根據《網

12Tech_Job

[新聞] Meta裁員22%　半數員工卻可領1235萬台幣

祖克柏員工不好當？Meta裁員22%半數員工卻可領1235萬台幣年薪 https://www.nownews.com/news/6415638 楊智傑社群平台臉書、Instagram的母公司「Meta」近年來進行人事結構調整，自2022年

14Tech_Job

[新聞] 日本菁英搶進台積電東大教授推薦：聯發

日本菁英搶進台積電東大教授推薦：聯發科也是好選擇 https://news.tvbs.com.tw/world/2469449 劉哲琪「護國神山」台積電於熊本設廠後，在日本掀起半導體熱潮，許多優秀菁英都希望能進入相關業界工作。日本東京大

33Tech_Job

[新聞] 35歲就不要了！這家企業爆「逼退員工」手

35歲就不要了！這家企業爆「逼退員工」手段超難堪 https://tinyurl.com/43nxjy86 柯美儀全球經濟不景氣，各行各業都受到衝擊，韓國企業為了應對財務壓力，開始削減人力成本，就連30多歲的員工也可能丟了飯碗，但公司

66Tech_Job

[新聞] 輝達來台設全亞洲首座研發中心經濟部

https://www.chinatimes.com/amp/realtimenews/20240426002476-260410 繼Google昨（25）日正式啟用位在新北市板橋的第二棟全新硬體研發辦公大樓，經濟部產業技術司長邱求慧今（

53Tech_Job

[新聞] 開箱Google台灣新辦公室！美國外最大硬體

21Tech_Job

[新聞] 黃仁勳曝：我掃過的廁所比你們還要多

想成功得先承受苦難！黃仁勳曝：我掃過的廁所比你們還要多 https://tinyurl.com/6t3br7a3 張君堯 AI教父、晶片大廠輝達（Nvidia）執行長黃仁勳（Jensen Huang）在全球的知名度不斷攀升，繼先前表示「

更多 jackliao1990 作者的文章...