※ 本文轉寄自 ptt.cc, 文章原始頁面
看板Tech_Job
標題

[新聞] Sora到底懂不懂物理世界?一場腦力激盪正

最新2024-02-24 20:26:00
留言125則留言,41人參與討論
推噓18 ( 24695 )
Sora到底懂不懂物理世界? 一場腦力激盪正在AI圈大佬間展開 https://www.linkresearcher.com/information/933841f9-c37c-4e66-91fc-f152567bf3bb 機器之心報道 編輯:張倩、杜偉 Sora 到底是不是實體引擎甚至是世界模型? 圖靈獎得主Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探討。 最近幾天,OpenAI 發布的影片生成模型Sora 成了全世界關注的焦點。 和以往只能產生幾秒鐘影片的模型不同,Sora 把生成影片的長度一下子拉長到60 秒。 而且,它不僅能了解使用者在Prompt 中提出的要求,還能get 到人、物在物理世界中的 存在方式。 以經典的「海盜船在咖啡杯中纏鬥」為例。 為了讓生成效果看起來逼真,Sora 需要克服 以下幾個物理困難: 規模和比例的適應:將海盜船縮小到能夠在咖啡杯中纏鬥的尺寸,同時保持它們的細節和 結構,是一個挑戰。 AI 需要理解和調整這些物件在現實生活中的相對尺寸,使得場景在 視覺上顯得合理; 流體動力學:咖啡杯中的液體會對海盜船的移動產生影響。 AI 模型需要模擬液體動力學 的效果,包括波浪、濺水和船隻移動時液體的流動,這在計算上是複雜的; 光線和陰影的處理:為了讓場景看起來真實,AI 需要精確地模擬光線如何照射在這個小型 場景中,包括咖啡的反光、船隻的陰影,以及可能的透光效果; 動畫和運動的真實性:海盜船的運動需要符合真實世界的物理規律,即使它們被縮小到咖啡 杯中。 這意味著AI 需要考慮到重力、浮力、碰撞以及船體結構在動態環境中的行為。 雖然生成效果還有些瑕疵,但我們能明顯感覺到,Sora 似乎是懂一些「物理」的。 英偉 達高級研究科學家Jim Fan 甚至斷言,「Sora 是一個數據驅動的實體引擎」,「是可學 習的模擬器,或『世界模型』」。 部分研究者同意這樣的觀點,但也有不少人反對。 Yann LeCun:產生影片的過程與基於世界模型的因果預測完全不同 圖靈獎得主Yann LeCun 率先亮明觀點。 在他看來,僅僅根據prompt 生成逼真影片並不 能代表一個模型理解了物理世界,生成影片的過程與基於世界模型的因果預測完全不同。 他接著講到,模型生成逼真影片的空間非常大,影片產生系統只需要產生一個合理的範例 就算成功。 不過對於一個真實影片而言,其合理的後續延續空間卻非常小,產生這些延 續的代表性片段,特別是在特定行動條件下,任務難度更大。 此外產生影片的後續內容 不僅成本高昂,實際上也毫無意義。 因此,Yann LeCun 認為,更理想的做法是產生影片後續內容的抽象表達,並消除與我們 可能所採取動作無關的場景中的細節。 當然,他藉此又PR 了一波JEPA(Joint Embedding Predictive Architecture,聯合嵌入 預測架構),認為上述做法正是它的核心思想。 JEPA 不是生成式的,而是在表示空間中 進行預測。 與重建像素的生成式架構(如變分自編碼器)、掩碼自編碼器、去噪自編碼 器相比,聯合嵌入架構(如Meta 前幾天推出的AI 視訊模型V-JEPA)可以產生更優秀的視 覺輸入表達。 https://twitter.com/ylecun/status/1758740106955952191 François Chollet:只讓AI 看視頻學不成世界模型 Keras 之父François Chollet 則闡述了更細緻的觀點。 他認為,像Sora 這樣的視訊生 成模型確實嵌入了「物理模型」,但問題是:這個物理模型是否準確? 它能否泛化到新 的情況,也就是那些不只是訓練資料插值的情況? Chollet 強調,這些問題至關重要,因為它們決定了生成影像的應用範圍—— 僅限於媒 體生產,還是可以用作現實世界的可靠模擬。 Chollet 透過海盜船在咖啡杯中纏鬥的例子,討論了模型能否準確反映水的行為等物理現 象,或者只是創造了一種幻想拼貼。 在這裡,他指出模型目前更傾向於後者,即依賴資 料插值和潛空間拼貼來產生影像,而不是真實的物理模擬。 有人將這種行為類比為人類 做夢,認為Sora 其實只是達到了人類做夢的水平,但是邏輯能力依然不行。 Chollet 指出,透過機器學習模型擬合大量資料點後形成的高維曲線(大曲線)在預測物 理世界方面是存在局限的。 在特定條件下,大數據驅動的模型能夠有效捕捉並模擬現實 世界的某些複雜動態,例如預測天氣、模擬風洞實驗等。 但這種方法在理解和泛化到新 情況時存在局限性。 模型的預測能力依賴其訓練資料的範圍和質量,對於那些超出訓練 資料分佈的新情況,模型可能無法準確預測。 所以,Chollet 認為,不能簡單地透過擬合大量資料(如遊戲引擎渲染的影像或影片)來 期望得到一個能夠泛化到現實世界所有可能情況的模型。 這是因為現實世界的複雜性和 多樣性遠遠超過任何模型能夠透過有限數據學習到的。 田淵棟:學習物理需要主動學習或策略強化學習 針對Jim Fan 的觀點,一些研究者提出了更激進的反駁,認為Sora 並不是學到了物理, 只是看起來像是學到了罷了,就像幾年前的煙霧模擬一樣。 也有人覺得,Sora 不過是對 2D 像素的操縱。 https://twitter.com/IntuitMachine/status/1758845715709632873 當然,Jim Fan 對「Sora 沒有在學習物理,而只是操縱2D 像素」這一說法進行了一系列 反駁。 他認為,這種觀點忽略了模型在處理複雜資料時所展現的深層能力。 就像批評 GPT-4 不是學習編碼,只是隨機挑選字串一樣,這種批評沒有認識到Transformer 模型在 處理整數序列(代表文本的token ID)時所表現出的複雜理解和生成能力。 https://twitter.com/DrJimFan/status/1758549500585808071 對此,Google研究科學家Kevin P Murphy 表示,他不確定最大化像素的可能性是否足以 促使模型可靠地學到精確的物理,而不是看似合理的動態視覺紋理呢? 是否需要MDL( Minimum description length,最小描述長度)呢? https://twitter.com/sirbayes/status/1759101992516112864 同時,知名AI 學者、Meta AI 研究科學家田淵棟也認為,關於Sora 是否有潛力學到精確 的物理學(當然現在還沒有),背後的關鍵問題是:為什麼像「預測下一個token」或“ 重建」這樣簡單的思路會產生如此豐富的表示法? 他表示,損失函數如何被激發的並不重要,損失函數的設計動機(無論多麼哲學化或複雜 )並不直接決定模型能否學到更好的表示。 事實上,複雜的損失函數可能與看起來很簡 單的損失函數實際上產生了類似的效果。 最後他稱,為了更好地理解事物,我們確實需要揭開Transformers 的黑盒子,檢查給定 反向傳播的訓練動態,以及如何學習隱藏的特徵結構,並探索如何進一步改進學習過程 。 https://twitter.com/tydsh/status/1759293967420805473 田淵棟也表示,如果想要學習精確的物理,他敢打賭需要主動學習或策略強化學習(無論 如何稱呼它)來探索物理的精細結構(例如物體之間的相互作用、硬接觸)。 https://twitter.com/tydsh/status/1759389064648888395 其他觀點:Sora 被認為是「數據驅動的實體引擎」太荒謬 除了眾多AI 圈大佬之外,也有一些專業性的觀點開始反駁Sora 懂物理引擎這個說法。 例如下面這位推特部落客,他認為OpenAI 是數據驅動的物理引擎這一觀點是荒謬愚蠢的 , 就好像收集了行星運動的數據並將它們餵給一個預測行星位置的模型,然後就得出此 模型內部實現了廣義相對論的結論。 https://twitter.com/ChombaBupe/status/1759226186075390033 他稱,愛因斯坦花了很多年時間才推導出了重力理論的方程式。 如果有人認為隨機梯度 下降(SGD)+ 反向傳播僅憑輸入輸出對就能理解一切,並在模型訓練中解決問題,那麼 這個人對於機器學習的理解是有問題的,對機器學習的工作方式了解也不夠。 愛因斯坦在理論推導中對現實做出了許多假設,例如光速恆定、時空是靈活的結構,然後 推導出了微分方程,其解揭示了黑洞、重力波等重大發現。 可以說,愛因斯坦利用因果 推理將不同的概念連結了起來。 但是,SGD + 反向傳播並不是這樣,它們只是將資訊壓縮到模型權重中,並不會進行推理 ,只是更新並轉向實現具有最低誤差的參數配置。 他認為,機器學習(ML)中的統計學習過程可能會顯然低誤差“盆地”,即無法探索不同 的概念, 因為一旦陷入這些低誤差“盆地”或局部最小值就無法重新開始。 因此,SGD + 反向傳播發現了看似有效但卻很容易崩潰的、脆弱的解決方案捷徑。 這就 是為什麼深度學習系統不可靠且實際訓練起來很難,你必須在現實中不斷更新和訓練它們 ,這就很麻煩。 梯度下降的工作原理就像一隻蒼蠅尋找氣味源一樣,即蒼蠅跟隨空氣中的化學濃度向下移 動,從而引導它導向氣味源。 但如果僅依賴這種方式,就很容易迷路或陷入困境。 在機器學習中,模型的可調式參數就像蒼蠅,訓練資料就像氣味源,目標函數測量的誤差 就像氣味。 而調整模型權重的目的是朝著氣味源(這裡是低誤差,相當於更濃的氣味) 移動。 最後,他得出結論,如果認為機器學習模型僅僅透過訓練行星運動的影片就能在內部學到 廣義相對論,那就更荒謬了。 這是對機器學習原理的嚴重誤解。 此外,有網友指出Sora 影片範例充滿了物理錯誤,例如一群小狗在雪中玩鬧的場景就很 糟糕,大塊雪的運動就完全違反了重力(是否真如此,有待判斷)。 https://twitter.com/MikeRiverso/status/1759271107373219888 Sora 到底懂不懂物理? 將來會不會懂? 「預測下一個token」是不是通往AGI 的一個方 向? 我們期待各路研究者進行進一步驗證。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.157.241 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1708668347.A.B3A.html

125 則留言

※ 編輯: jackliao1990 (123.192.157.241 臺灣), 02/23/2024 14:06:07

aria0520, 1F
直接講結論 當然不懂

aria0520, 2F
把lecun的解釋看看就懂了

aria0520, 3F
世界模型不可能以這種方式建構

ohlong, 4F
要是哪天真的暴力破解 一堆遊戲3d engine的公司就

ohlong, 5F
丸子

chunfo, 6F
蒼井空是世界的

j112233446, 7F
如果真的可以train出一個懂物理模型的model是不是

j112233446, 8F
代表了他的loss function 就隱含了夠正確的物理模

j112233446, 9F
型?

havochuman, 10F
首先你要先定義甚麼是懂物理模型的model

havochuman, 11F
人類對物理世界的了解連1%都不到 你要怎麼參照?

jupei, 12F
拿來做動畫不懂也沒差

wcre, 13F
人類都不懂世界了,期待人類訓練的AI懂?

Chilloutt, 14F
人類物理學家終將滅亡

min86615, 15F
原理還是看SIGGRAPH的論文比較有啟發

bnn, 16F
現在一定還不懂 但遲早的事

bnn, 17F
應該還是現在的物理引擎產生各種訓練資料(AI輔助)

bnn, 18F
然後再用這些資料拿去訓練

final01, 19F
他都能當你物理老師了還不董物理嗎

ciswww, 20F
沒學過物理的人可以畫出其他人看起來合理的湖水

kaltu, 21F
要先定義什麼是懂,現在的神經網路有人有中文房間問

kaltu, 22F
題,像樓上的LLM給出物理教學,究竟只是這些權重預

kaltu, 23F
測這個prompt和先前的token應該放出下一個token機率

kaltu, 24F
最高的恰巧會讓人類以為他懂物理,還是他真的懂物理

kaltu, 25F
從預測失敗的例子大概就知道他根本什麼都不懂,只是

kaltu, 26F
近期可能的模仿人類而已

kaltu, 27F
其實這類AI本質上跟芙莉蓮的魔族(人形的魔物)一樣

kaltu, 28F
,本身不是人類也不在乎要不要用人類的方式去弄懂世

kaltu, 29F
界,只是像鸚鵡一樣知道講某些話會有讓人類以為他們

kaltu, 30F
懂的效果而已

kaltu, 31F
跟之前對LLM暈船的研究員一樣,模型只是在吐出你想

kaltu, 32F
聽的話而已,如果你覺得他有意識那他就會吐會讓你覺

kaltu, 33F
得他有意識的output

kaltu, 34F
他並不需要真的有意識,只要讓你認為他有意識就能讓

kaltu, 35F
你設定的loss function happy了

kaltu, 36F
這類模型就是盡其所能的唬爛,講錯的時候唬得跟真的

kaltu, 37F
一樣

kaltu, 38F
但其實講對的時候對模型而言它何嘗不也只是在唬爛?

kaltu, 39F
它根本不知道自己講的對不對,只知道生這些token可

yunf, 113F
用ai代替!你們正把世界變成這樣!

riotssky, 114F
讓sora破幾次薩爾達應該就學得會了

bitcch, 115F
如果可行以後科學理論說不定都用巨量資料跟算力來解

darkangel119, 116F
結論 歐印AI

pig12335331, 117F
一堆人在那邊講幾%幾%,看得我好躁

yunf, 118F
很多人還沒有搞清楚狀況!當你失去獨立思考的能力時

yunf, 119F
,你就很容易回到封建時代!你認為很正常合理的事情

yunf, 120F
其實只是你的認知被侷限在缺乏突破性思考的框架裡!

yunf, 121F
講個淺顯易懂的就是什麼公司掛上了科技兩個字不論他

yunf, 122F
技術含量有多少看起來都好像很厲害,什麼科系前面都

yunf, 123F
要掛一個科學看起來好像很厲害,什麼人頭銜掛個工程

yunf, 124F
師看起來好像很厲害!很多事情當你不具備相關領域的

yunf, 125F
專業時是不容易跨出那個框架!

jackliao1990 作者的近期文章

[新聞] 吐槽人型機器人沒用 林百里認為缺乏商業
吐槽人型機器人沒用 林百里認為缺乏商業價值、點出2個發展困難因素 https://www.wealth.com.tw/articles/6150f2f0-743c-47ec-a5ef-8330eb738fce 財訊 輝達GTC大會上秀出人形
[分享] 晶片傳奇離世:改變VLSI的她因變性被炒
晶片傳奇離世:因變性蒙冤50年,她改變了超大規模積體電路 https://www.qbitai.com/2024/06/154064.html 明敏 她讓大規模積體電路變得更簡單 又一位半導體產業先驅與世長辭了。 她是林恩·康威(Lynn
[新聞] 談薪水傷感情!美國NVIDIA年薪有多高?當
談薪水傷感情!美國NVIDIA年薪有多高?當地工程師透露後主持人驚呆 https://www.msn.com/zh-tw/money/topstories/%E8%AB%87%E8%96%AA%E6%B0%B4%E5%82%B7%E6%84
[新聞] 梁見後是「台灣技職體系」栽培的!出身窮
梁見後是「台灣技職體系」栽培的!出身窮鄉從小幫忙種田 作家揭成功背後藏3大課題 https://www.storm.mg/lifestyle/5147910 周育信 北國際電腦展COMPUTEX昨(4)日盛大展開後,「台灣囡仔」黃仁勳、蘇姿
[新聞] 活體腦細胞做成16核晶片,用Python就能編
活體腦細胞做成16核晶片,用Python就能編程,9個機構進行實驗36所大學排隊 衡宇 https://www.qbitai.com/2024/06/148772.html 功耗比CPU低100萬倍 首個「腦PU」來了!由「16核心」類人腦
[新聞] AI教父黃仁勳傳密會總統賴清德 輝達有意
AI教父黃仁勳傳密會總統賴清德輝達有意在台設研發中心 https://finance.ettoday.net/news/2747501 INE twitter 複製連結 ETtoday新聞雲 手機版 新聞雲Apps 搜尋 財經雲 投資理財財
[討論] PRC評論:"中文網路正在加速崩塌"
中共自媒體人何加鹽主要寫作知名企業和企業家的故事,讀者包括中國最頂級企業家和高 階主管、投資人群體。前天他發表評論:〈中文互聯網正在加速崩塌〉,觸怒了中共,該 文因"違反《互聯網用戶公眾賬號信息服務管理規定》",接獲&q
[情報] 黃仁勳:我很少進行單獨會議也很少解雇人
https://hao.cnyes.com/post/86343?utm_source=cnyes&utm_medium=home&utm_campaign=postid 黃仁勳最新萬字專訪:我直接管理60位高階主管,不建議
[討論] OpenAI敢讓菜鳥負責大項目 反觀Google
https://x.com/_jasonwei/status/1791192069022810444 從Google Brain跳槽OpenAI的Jason Wei分享了新舊公司的差異: "OpenAI(可能還有其他小公司)的一件
更多 jackliao1990 作者的文章...