※ 本文轉寄自 ptt.cc, 文章原始頁面

作者jackliao1990 (j)

標題

[新聞] Sora到底懂不懂物理世界？一場腦力激盪正

時間2024-02-23 14:05:43

最新2024-02-24 20:26:00

留言125則留言，41人參與討論

推噓18 ( 24推6噓95→ )

Sora到底懂不懂物理世界？一場腦力激盪正在AI圈大佬間展開 https://www.linkresearcher.com/information/933841f9-c37c-4e66-91fc-f152567bf3bb 機器之心報道編輯：張倩、杜偉 Sora 到底是不是實體引擎甚至是世界模型？圖靈獎得主Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探討。最近幾天，OpenAI 發布的影片生成模型Sora 成了全世界關注的焦點。和以往只能產生幾秒鐘影片的模型不同，Sora 把生成影片的長度一下子拉長到60 秒。而且，它不僅能了解使用者在Prompt 中提出的要求，還能get 到人、物在物理世界中的存在方式。以經典的「海盜船在咖啡杯中纏鬥」為例。為了讓生成效果看起來逼真，Sora 需要克服以下幾個物理困難：規模和比例的適應：將海盜船縮小到能夠在咖啡杯中纏鬥的尺寸，同時保持它們的細節和結構，是一個挑戰。 AI 需要理解和調整這些物件在現實生活中的相對尺寸，使得場景在視覺上顯得合理；流體動力學：咖啡杯中的液體會對海盜船的移動產生影響。 AI 模型需要模擬液體動力學的效果，包括波浪、濺水和船隻移動時液體的流動，這在計算上是複雜的；光線和陰影的處理：為了讓場景看起來真實，AI 需要精確地模擬光線如何照射在這個小型場景中，包括咖啡的反光、船隻的陰影，以及可能的透光效果；動畫和運動的真實性：海盜船的運動需要符合真實世界的物理規律，即使它們被縮小到咖啡杯中。這意味著AI 需要考慮到重力、浮力、碰撞以及船體結構在動態環境中的行為。雖然生成效果還有些瑕疵，但我們能明顯感覺到，Sora 似乎是懂一些「物理」的。英偉達高級研究科學家Jim Fan 甚至斷言，「Sora 是一個數據驅動的實體引擎」，「是可學習的模擬器，或『世界模型』」。部分研究者同意這樣的觀點，但也有不少人反對。 Yann LeCun：產生影片的過程與基於世界模型的因果預測完全不同圖靈獎得主Yann LeCun 率先亮明觀點。在他看來，僅僅根據prompt 生成逼真影片並不能代表一個模型理解了物理世界，生成影片的過程與基於世界模型的因果預測完全不同。他接著講到，模型生成逼真影片的空間非常大，影片產生系統只需要產生一個合理的範例就算成功。不過對於一個真實影片而言，其合理的後續延續空間卻非常小，產生這些延續的代表性片段，特別是在特定行動條件下，任務難度更大。此外產生影片的後續內容不僅成本高昂，實際上也毫無意義。因此，Yann LeCun 認為，更理想的做法是產生影片後續內容的抽象表達，並消除與我們可能所採取動作無關的場景中的細節。當然，他藉此又PR 了一波JEPA（Joint Embedding Predictive Architecture，聯合嵌入預測架構），認為上述做法正是它的核心思想。 JEPA 不是生成式的，而是在表示空間中進行預測。與重建像素的生成式架構（如變分自編碼器）、掩碼自編碼器、去噪自編碼器相比，聯合嵌入架構（如Meta 前幾天推出的AI 視訊模型V-JEPA）可以產生更優秀的視覺輸入表達。 https://twitter.com/ylecun/status/1758740106955952191 François Chollet：只讓AI 看視頻學不成世界模型 Keras 之父François Chollet 則闡述了更細緻的觀點。他認為，像Sora 這樣的視訊生成模型確實嵌入了「物理模型」，但問題是：這個物理模型是否準確？它能否泛化到新的情況，也就是那些不只是訓練資料插值的情況？ Chollet 強調，這些問題至關重要，因為它們決定了生成影像的應用範圍—— 僅限於媒體生產，還是可以用作現實世界的可靠模擬。 Chollet 透過海盜船在咖啡杯中纏鬥的例子，討論了模型能否準確反映水的行為等物理現象，或者只是創造了一種幻想拼貼。在這裡，他指出模型目前更傾向於後者，即依賴資料插值和潛空間拼貼來產生影像，而不是真實的物理模擬。有人將這種行為類比為人類做夢，認為Sora 其實只是達到了人類做夢的水平，但是邏輯能力依然不行。 Chollet 指出，透過機器學習模型擬合大量資料點後形成的高維曲線（大曲線）在預測物理世界方面是存在局限的。在特定條件下，大數據驅動的模型能夠有效捕捉並模擬現實世界的某些複雜動態，例如預測天氣、模擬風洞實驗等。但這種方法在理解和泛化到新情況時存在局限性。模型的預測能力依賴其訓練資料的範圍和質量，對於那些超出訓練資料分佈的新情況，模型可能無法準確預測。所以，Chollet 認為，不能簡單地透過擬合大量資料（如遊戲引擎渲染的影像或影片）來期望得到一個能夠泛化到現實世界所有可能情況的模型。這是因為現實世界的複雜性和多樣性遠遠超過任何模型能夠透過有限數據學習到的。田淵棟：學習物理需要主動學習或策略強化學習針對Jim Fan 的觀點，一些研究者提出了更激進的反駁，認為Sora 並不是學到了物理，只是看起來像是學到了罷了，就像幾年前的煙霧模擬一樣。也有人覺得，Sora 不過是對 2D 像素的操縱。 https://twitter.com/IntuitMachine/status/1758845715709632873 當然，Jim Fan 對「Sora 沒有在學習物理，而只是操縱2D 像素」這一說法進行了一系列反駁。他認為，這種觀點忽略了模型在處理複雜資料時所展現的深層能力。就像批評 GPT-4 不是學習編碼，只是隨機挑選字串一樣，這種批評沒有認識到Transformer 模型在處理整數序列（代表文本的token ID）時所表現出的複雜理解和生成能力。 https://twitter.com/DrJimFan/status/1758549500585808071 對此，Google研究科學家Kevin P Murphy 表示，他不確定最大化像素的可能性是否足以促使模型可靠地學到精確的物理，而不是看似合理的動態視覺紋理呢？是否需要MDL（ Minimum description length，最小描述長度）呢？ https://twitter.com/sirbayes/status/1759101992516112864 同時，知名AI 學者、Meta AI 研究科學家田淵棟也認為，關於Sora 是否有潛力學到精確的物理學（當然現在還沒有），背後的關鍵問題是：為什麼像「預測下一個token」或“ 重建」這樣簡單的思路會產生如此豐富的表示法？他表示，損失函數如何被激發的並不重要，損失函數的設計動機（無論多麼哲學化或複雜）並不直接決定模型能否學到更好的表示。事實上，複雜的損失函數可能與看起來很簡單的損失函數實際上產生了類似的效果。最後他稱，為了更好地理解事物，我們確實需要揭開Transformers 的黑盒子，檢查給定反向傳播的訓練動態，以及如何學習隱藏的特徵結構，並探索如何進一步改進學習過程。 https://twitter.com/tydsh/status/1759293967420805473 田淵棟也表示，如果想要學習精確的物理，他敢打賭需要主動學習或策略強化學習（無論如何稱呼它）來探索物理的精細結構（例如物體之間的相互作用、硬接觸）。 https://twitter.com/tydsh/status/1759389064648888395 其他觀點：Sora 被認為是「數據驅動的實體引擎」太荒謬除了眾多AI 圈大佬之外，也有一些專業性的觀點開始反駁Sora 懂物理引擎這個說法。例如下面這位推特部落客，他認為OpenAI 是數據驅動的物理引擎這一觀點是荒謬愚蠢的，就好像收集了行星運動的數據並將它們餵給一個預測行星位置的模型，然後就得出此模型內部實現了廣義相對論的結論。 https://twitter.com/ChombaBupe/status/1759226186075390033 他稱，愛因斯坦花了很多年時間才推導出了重力理論的方程式。如果有人認為隨機梯度下降（SGD）+ 反向傳播僅憑輸入輸出對就能理解一切，並在模型訓練中解決問題，那麼這個人對於機器學習的理解是有問題的，對機器學習的工作方式了解也不夠。愛因斯坦在理論推導中對現實做出了許多假設，例如光速恆定、時空是靈活的結構，然後推導出了微分方程，其解揭示了黑洞、重力波等重大發現。可以說，愛因斯坦利用因果推理將不同的概念連結了起來。但是，SGD + 反向傳播並不是這樣，它們只是將資訊壓縮到模型權重中，並不會進行推理，只是更新並轉向實現具有最低誤差的參數配置。他認為，機器學習（ML）中的統計學習過程可能會顯然低誤差“盆地”，即無法探索不同的概念，因為一旦陷入這些低誤差“盆地”或局部最小值就無法重新開始。因此，SGD + 反向傳播發現了看似有效但卻很容易崩潰的、脆弱的解決方案捷徑。這就是為什麼深度學習系統不可靠且實際訓練起來很難，你必須在現實中不斷更新和訓練它們，這就很麻煩。梯度下降的工作原理就像一隻蒼蠅尋找氣味源一樣，即蒼蠅跟隨空氣中的化學濃度向下移動，從而引導它導向氣味源。但如果僅依賴這種方式，就很容易迷路或陷入困境。在機器學習中，模型的可調式參數就像蒼蠅，訓練資料就像氣味源，目標函數測量的誤差就像氣味。而調整模型權重的目的是朝著氣味源（這裡是低誤差，相當於更濃的氣味）移動。最後，他得出結論，如果認為機器學習模型僅僅透過訓練行星運動的影片就能在內部學到廣義相對論，那就更荒謬了。這是對機器學習原理的嚴重誤解。此外，有網友指出Sora 影片範例充滿了物理錯誤，例如一群小狗在雪中玩鬧的場景就很糟糕，大塊雪的運動就完全違反了重力（是否真如此，有待判斷）。 https://twitter.com/MikeRiverso/status/1759271107373219888 Sora 到底懂不懂物理？將來會不會懂？「預測下一個token」是不是通往AGI 的一個方向？我們期待各路研究者進行進一步驗證。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.157.241 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1708668347.A.B3A.html

125 則留言

※ 編輯: jackliao1990 (123.192.157.241 臺灣), 02/23/2024 14:06:07

→

aria052002/23 14:24, 1F

直接講結論當然不懂

→

aria052002/23 14:25, 2F

把lecun的解釋看看就懂了

→

aria052002/23 14:26, 3F

世界模型不可能以這種方式建構

推

ohlong02/23 14:27, 4F

要是哪天真的暴力破解一堆遊戲3d engine的公司就

→

ohlong02/23 14:27, 5F

丸子

→

chunfo02/23 14:31, 6F

蒼井空是世界的

推

j11223344602/23 14:50, 7F

如果真的可以train出一個懂物理模型的model是不是

→

j11223344602/23 14:50, 8F

代表了他的loss function 就隱含了夠正確的物理模

→

j11223344602/23 14:50, 9F

型？

推

havochuman02/23 14:53, 10F

首先你要先定義甚麼是懂物理模型的model

→

havochuman02/23 14:53, 11F

人類對物理世界的了解連1%都不到你要怎麼參照？

推

jupei02/23 14:54, 12F

拿來做動畫不懂也沒差

推

wcre02/23 14:54, 13F

人類都不懂世界了，期待人類訓練的AI懂？

推

Chilloutt02/23 15:23, 14F

人類物理學家終將滅亡

推

min8661502/23 15:36, 15F

原理還是看SIGGRAPH的論文比較有啟發

→

bnn02/23 15:46, 16F

現在一定還不懂但遲早的事

→

bnn02/23 15:47, 17F

應該還是現在的物理引擎產生各種訓練資料(AI輔助)

→

bnn02/23 15:47, 18F

然後再用這些資料拿去訓練

→

final0102/23 16:06, 19F

他都能當你物理老師了還不董物理嗎

→

ciswww02/23 16:23, 20F

沒學過物理的人可以畫出其他人看起來合理的湖水

→

kaltu02/23 16:27, 21F

要先定義什麼是懂，現在的神經網路有人有中文房間問

→

kaltu02/23 16:27, 22F

題，像樓上的LLM給出物理教學，究竟只是這些權重預

→

kaltu02/23 16:27, 23F

測這個prompt和先前的token應該放出下一個token機率

→

kaltu02/23 16:27, 24F

最高的恰巧會讓人類以為他懂物理，還是他真的懂物理

→

kaltu02/23 16:27, 25F

從預測失敗的例子大概就知道他根本什麼都不懂，只是

→

kaltu02/23 16:27, 26F

近期可能的模仿人類而已

→

kaltu02/23 16:27, 27F

其實這類AI本質上跟芙莉蓮的魔族（人形的魔物）一樣

→

kaltu02/23 16:27, 28F

，本身不是人類也不在乎要不要用人類的方式去弄懂世

→

kaltu02/23 16:27, 29F

界，只是像鸚鵡一樣知道講某些話會有讓人類以為他們

→

kaltu02/23 16:27, 30F

懂的效果而已

→

kaltu02/23 16:27, 31F

跟之前對LLM暈船的研究員一樣，模型只是在吐出你想

→

kaltu02/23 16:27, 32F

聽的話而已，如果你覺得他有意識那他就會吐會讓你覺

→

kaltu02/23 16:27, 33F

得他有意識的output

→

kaltu02/23 16:27, 34F

他並不需要真的有意識，只要讓你認為他有意識就能讓

→

kaltu02/23 16:27, 35F

你設定的loss function happy了

→

kaltu02/23 16:34, 36F

這類模型就是盡其所能的唬爛，講錯的時候唬得跟真的

→

kaltu02/23 16:34, 37F

一樣

→

kaltu02/23 16:34, 38F

但其實講對的時候對模型而言它何嘗不也只是在唬爛？

→

kaltu02/23 16:34, 39F

它根本不知道自己講的對不對，只知道生這些token可

→

yunf02/24 09:52, 113F

用ai代替！你們正把世界變成這樣！

推

riotssky02/24 11:49, 114F

讓sora破幾次薩爾達應該就學得會了

推

bitcch02/24 12:49, 115F

如果可行以後科學理論說不定都用巨量資料跟算力來解

推

darkangel11902/24 16:25, 116F

結論歐印AI

噓

pig1233533102/24 20:17, 117F

一堆人在那邊講幾%幾%，看得我好躁

→

yunf02/24 20:26, 118F

很多人還沒有搞清楚狀況！當你失去獨立思考的能力時

→

yunf02/24 20:26, 119F

，你就很容易回到封建時代！你認為很正常合理的事情

→

yunf02/24 20:26, 120F

其實只是你的認知被侷限在缺乏突破性思考的框架裡！

→

yunf02/24 20:26, 121F

講個淺顯易懂的就是什麼公司掛上了科技兩個字不論他

→

yunf02/24 20:26, 122F

技術含量有多少看起來都好像很厲害，什麼科系前面都

→

yunf02/24 20:26, 123F

要掛一個科學看起來好像很厲害，什麼人頭銜掛個工程

→

yunf02/24 20:26, 124F

師看起來好像很厲害！很多事情當你不具備相關領域的

→

yunf02/24 20:26, 125F

專業時是不容易跨出那個框架！

jackliao1990 作者的近期文章

10Tech_Job

[新聞] 成大歷史系分發人數掛零教授怒批台積電

27Tech_Job

[新聞] 吐槽人型機器人沒用林百里認為缺乏商業

吐槽人型機器人沒用林百里認為缺乏商業價值、點出2個發展困難因素 https://www.wealth.com.tw/articles/6150f2f0-743c-47ec-a5ef-8330eb738fce 財訊輝達GTC大會上秀出人形

20Tech_Job

[分享] 晶片傳奇離世:改變VLSI的她因變性被炒

晶片傳奇離世：因變性蒙冤50年，她改變了超大規模積體電路 https://www.qbitai.com/2024/06/154064.html 明敏她讓大規模積體電路變得更簡單又一位半導體產業先驅與世長辭了。她是林恩·康威（Lynn

8Tech_Job

[新聞] 談薪水傷感情！美國NVIDIA年薪有多高?當

談薪水傷感情！美國NVIDIA年薪有多高？當地工程師透露後主持人驚呆 https://www.msn.com/zh-tw/money/topstories/%E8%AB%87%E8%96%AA%E6%B0%B4%E5%82%B7%E6%84

17Tech_Job

[新聞] 梁見後是「台灣技職體系」栽培的！出身窮

梁見後是「台灣技職體系」栽培的！出身窮鄉從小幫忙種田作家揭成功背後藏3大課題 https://www.storm.mg/lifestyle/5147910 周育信北國際電腦展COMPUTEX昨（4）日盛大展開後，「台灣囡仔」黃仁勳、蘇姿

5Tech_Job

[新聞] 活體腦細胞做成16核晶片，用Python就能編

活體腦細胞做成16核晶片，用Python就能編程，9個機構進行實驗36所大學排隊衡宇 https://www.qbitai.com/2024/06/148772.html 功耗比CPU低100萬倍首個「腦PU」來了！由「16核心」類人腦

4Tech_Job

[新聞] AI教父黃仁勳傳密會總統賴清德輝達有意

AI教父黃仁勳傳密會總統賴清德輝達有意在台設研發中心 https://finance.ettoday.net/news/2747501 INE twitter 複製連結 ETtoday新聞雲手機版新聞雲Apps 搜尋財經雲投資理財財

8Tech_Job

[討論] PRC評論:"中文網路正在加速崩塌"

中共自媒體人何加鹽主要寫作知名企業和企業家的故事，讀者包括中國最頂級企業家和高階主管、投資人群體。前天他發表評論:〈中文互聯網正在加速崩塌〉，觸怒了中共，該文因"違反《互聯網用戶公眾賬號信息服務管理規定》"，接獲&q

27Tech_Job

[情報] 黃仁勳:我很少進行單獨會議也很少解雇人

https://hao.cnyes.com/post/86343?utm_source=cnyes&utm_medium=home&utm_campaign=postid 黃仁勳最新萬字專訪：我直接管理60位高階主管，不建議

15Tech_Job

[討論] OpenAI敢讓菜鳥負責大項目反觀Google

https://x.com/_jasonwei/status/1791192069022810444 從Google Brain跳槽OpenAI的Jason Wei分享了新舊公司的差異: "OpenAI（可能還有其他小公司）的一件

更多 jackliao1990 作者的文章...