※ 本文轉寄自 ptt.cc, 文章原始頁面
[新聞] LeCun最新專訪:為什麼物理世界終將成
原文標題:
LeCun最新專訪:為什麼物理世界終將成為LLM的「死穴」?
原文連結:
https://www.linkresearcher.com/information/e0fd25ff-9917-4701-9722-ef0a4b160f96
發布時間:
20240314
記者署名:
機器之心
原文內容:
在人工智慧領域,很少有像Yann LeCun 這樣的學者,在65 歲的年齡還能高度活躍於社群媒
體。
一直以來,Yann LeCun 都是以「直言不諱的批評者」形象活躍於人工智慧領域。他始終支
持開源,並帶領Meta 的團隊推出瞭佔據如今開源大模型領域半壁江山的Llama 2;他對許多
人深感恐慌的人工智慧末日論不以為然,堅信AGI 的到來一定是件好事…
近日,LeCun 又一次來到Lex Fridman 的播客,展開了一場接近三個小時的對談,內容涉及
開源的重要性、LLM 的局限性、為什麼人工智能末日論者是錯誤的,以及通往AGI的道路等
話題。
觀看頁面:https://youtu.be/5t1vTLU7s40?feature=shared
我們從這場播客內容中精選了一些有參考價值的觀點,以下是相關內容:
LLM 的局限性
Lex Fridman:你說過,自回歸LLM 並不是我們在超人類智慧方面取得進展的方式。為什麼
它們不能帶我們一路走下去?
Yann LeCun:出於多種原因。首先,智能行為有許多特徵。例如,理解世界的能力、理解物
理世界的能力、記憶和檢索事物的能力、持久性記憶、推理能力和計劃能力。這是智慧系統
或實體、人類、動物的四個基本特徵。LLM 無法做到這些,或者只能以非常原始的方式做到
這些,而且並不真正了解物理世界。LLM 並沒有真正的持久記憶,無法真正推理,當然也無
法計劃。因此,如果你期望系統變得智能,但卻無法做這些事情,那麼你就犯了一個錯誤。
這並不是說自回歸LLM 沒有用。它們當然有用,但它們並不有趣,我們無法圍繞它們建立整
個應用程式生態系統。但作為邁向人類水平智慧的通行證,它們缺少必要的組成部分。
透過感官輸入,我們看到的資訊比透過語言看到的資訊多得多,儘管我們有直覺,但我們學
到的大部分內容和知識都是透過我們的觀察和與現實世界的互動,而不是透過透過語言。我
們在生命最初幾年學到的一切,當然還有動物學到的一切,都與語言無關。
Lex Fridman:也就是你所說的,LLM 缺乏對物理世界的理解?所以,直覺物理學、關於物
理空間、關於物理現實的常識推理對你來說沒有什麼特別之處。這是LLM 無法做到的巨大飛
躍?
Yann LeCun:我們今天使用的LLM 無法做到這一點,原因有很多,但最主要的原因是LLM 的
訓練方式是:你獲取一段文本,刪除文本中的一些單詞,屏蔽它們,用空白token 代替它們
,然後訓練一個遺傳神經網路來預測缺失的單字。如果你以一種特殊的方式建立這個神經網
絡,讓它只能查看左側的單字或它試圖預測的單詞,那麼你所擁有的系統基本上就是試圖預
測文本中的下一個單字。因此,你可以給它輸入一段文字、一個提示,然後讓它預測下一個
單字。它永遠無法準確預測下一個單字。
因此,它要做的就是生成字典中所有可能單字的機率分佈。事實上,它並不預測單字。它預
測的是作為子單字單位的詞塊,因此很容易處理預測中的不確定性,因為字典中可能出現的
單字數量有限,你只需計算它們的分佈。然後,系統就會從該分佈中選出一個字。當然,在
該分佈中,選取機率較高的字的幾率會較高。因此,你從該分佈中採樣,實際產生一個單詞
,然後將該單詞移入輸入中,這樣系統就不會預測第二個單詞了。
這就是所謂的自回歸預測,這也是為什麼這些LLM 應該被稱為「自回歸LLMs」,但我們只是
稱之為LLM。這個過程與在產生一個單字之前的過程是有區別的。
當你我交談時,你我都是雙語者,我們會思考我們要說什麼,而這與我們要說的語言相對獨
立。當我們談論一個數學概念時,我們所做的思考和我們打算給出的答案與我們是用法語、
俄語還是英語來表達無關。
Lex Fridman:喬姆斯基翻了個白眼,但我明白,所以你是說有一個更大的抽象存在於語言
之前並映射到語言?
Yann LeCun:對於我們所做的許多思考來說,是的。
Lex Fridman:你的幽默是抽象的嗎?當你發推文時,你的推文有時有點辛辣,在推文映射
到英語之前,你的大腦中是否有一個抽象的表示?
Yann LeCun:確實有一個抽象的表示法來想像讀者對該文本的反應。但是,想一個數學概念
,或者想像你想用木頭做一個什麼東西,或者諸如此類的東西,這種思考與語言完全無關。
你並不是用某種特定的語言進行內心獨白。你是在想事物的心理模型。我的意思是,如果我
讓你想像一下,如果我把這個水瓶旋轉90 度,它會是什麼樣子,這與語言毫無關係。顯然
,我們的大部分思考都是在更抽象的表徵層面上進行的,如果輸出的是語言,我們會計劃好
要說的話,而不是輸出肌肉動作,我們會在做出答案之前就計劃好答案。
LLM 不會這樣做,只是本能地說出一個又一個單字。這有點像是下意識的動作,有人來問你
一個問題,你就會回答這個問題。沒有時間思考答案,但答案很簡單。所以你不需要注意,
會自動做出反應。這就是LLM 的工作。它真的不會思考答案。因為它已經累積了很多知識,
所以能檢索到一些東西,但也只會吐出一個又一個token,而不會計劃答案。
Lex Fridman:一個token 一個token 地生成必然是簡單化的,但如果世界模型足夠複雜,
它最有可能生成的是一連串的token,這將是一件深奧的事情。
Yann LeCun:但這基於一個假設:這些系統實際上擁有一個永恆的世界模型。
影片預測
Lex Fridman:所以真正的問題是… 能否建立一個對世界有深刻理解的模型?
Yann LeCun:能否透過預測來建構它,答案很可能是肯定的。但能透過預測單字來建構它嗎
?答案很可能是否定的,因為語言在弱頻寬或低頻寬方面非常貧乏,沒有足夠的資訊。因此
,建立世界模型意味著要觀察世界,了解為什麼世界會以這樣的方式演變,然後世界模型的
額外組成部分就是能夠預測你可能採取的行動會導致世界如何演變。
因此,一個真正的模型是:這是我對T 時世界狀態的想法,這是我可能採取的行動。在T+1
時間,預測的世界狀態是什麼?現在,世界的狀態並不需要代表世界的一切,它只需要代表
與這次行動規劃相關的足夠多的信息,但不一定是所有的細節。
現在,問題來了。生成模型無法做到這一點。因此,生成模型需要在視頻上進行訓練,我們
已經嘗試了10 年,你拍攝一段視頻,向系統展示一段視頻,然後要求你預測視頻的提醒,
基本上就是預測將要發生什麼。
如果你願意,可以製作大型視訊模型。這樣做的想法由來已久,在FAIR,我和我們的一些同
事嘗試這樣做已有10 年之久,但你無法真正做到與LLM 相同的技巧,因為LLM,正如我所說
,你無法準確預測哪一個單字會跟隨一連串單字,但你可以預測單字的分佈。現在,如果你
去看視頻,你要做的就是預測視頻中所有可能幀的分佈,而我們並不知道如何正確地做到這
一點。
我們不知道如何以有用的方式來表示高維連續空間上的分佈。這就是主要問題所在,我們之
所以能做到這一點,是因為這個世界比文字複雜得多,資訊豐富得多。文字是離散的,而影
片是高維度的、連續的。這裡面有很多細節。因此,如果我拍攝了這個房間的視頻,視頻中
的攝影機在四處轉動,我根本無法預測在我四處轉動時房間裡會出現的所有東西。系統也無
法預測攝影機轉動時房間裡會出現什麼。也許它能預測這是一個房間,裡面有一盞燈,有一
面牆,諸如此類的東西。它無法預測牆上的畫是什麼樣子,也無法預測沙發的紋理是什麼樣
子。當然也無法預測地毯的質地。所以我無法預測所有這些細節。
因此,一種可能的處理方法,也是我們一直在研究的方法,就是建立一個擁有所謂潛在變數
的模型。潛在變數被輸入到神經網路中,它應該代表所有你還沒有感知到的關於這個世界的
信息,你需要增強系統的預測能力,才能很好地預測像素,包括地毯、沙發和牆上畫作的細
微紋理。
我們試過直接的神經網絡,試過GAN,試過VAE,並試過各種正則化自動編碼器。我們也嘗試
用這些方法來學習影像或影片的良好表徵,然後將其作為影像分類系統等的輸入。基本上都
失敗了。
所有試圖從損壞版本的圖像或視頻中預測缺失部分的系統,基本上都是這樣的:獲取圖像或
視頻,將其損壞或以某種方式進行轉換,然後嘗試從損壞版本中重建完整的視頻或影像,然
後希望系統內部能夠發展出良好的影像表徵,以便用於物件辨識、分割等任何用途。這種方
法基本上是完全失敗的,而它在文字方面卻非常有效。這就是用於LLM 的原理。
Lex Fridman:失敗究竟出在哪裡?是很難很好地呈現圖像,例如將所有重要資訊很好地嵌
入圖像?是影像與影像、影像與影像之間的一致性形成了影片?如果我們把你所有失敗的方
式做成一個集錦,那會是什麼樣子?
Yann LeCun:首先,我必須告訴你什麼是行不通的,因為還有其他東西是行得通的。所以,
行不通的地方就是訓練系統學習影像的表徵,訓練它從損壞的影像中重建出好的影像。
對此,我們有一整套技術,它們都是去噪自編碼器的變體,我在FAIR 的一些同事開發了一
種叫做MAE 的東西,即掩蔽自編碼器。因此,它基本上就像LLM 或類似的東西,你透過破壞
文字來訓練系統,但你破壞圖像,從中刪除補丁,然後訓練一個巨大的神經網路重建。你得
到的特徵並不好,而且你也知道它們不好,因為如果你現在訓練同樣的架構,但你用標籤資
料、圖像的文字描述等對它進行監督訓練,你確實能得到很好的表徵,在辨識任務上的表現
比你做這種自監督的再訓練好得多。
結構是好的,編碼器的結構也是好的,但事實上,你訓練系統重建影像,並不能使它產生長
而良好的影像通用特徵。那還有什麼選擇呢?另一種方法是聯合嵌入。
JEPA(聯合嵌入預測架構)
Lex Fridman::聯合嵌入架構與LLM 之間的根本差異是什麼?JEPA 能帶我們進入AGI 嗎?
Yann LeCun:首先,它與LLM 等生成式架構有什麼不同?LLM 或透過重構訓練的視覺系統會
產生輸入。它們產生的原始輸入是未損壞、未轉換的,因此你必須預測所有像素,而係統需
要花費大量資源來實際預測所有像素和所有細節。而在JEPA 中,你不需要預測所有像素,
你只需要預測輸入的抽象表示。這在很多方面都要容易得多。因此,JEPA 系統在訓練時,
要做的就是從輸入中提取盡可能多的信息,但只提取相對容易預測的信息。因此,世界上有
很多事情是我們無法預測的。例如,如果你有一輛自動駕駛汽車在街上或馬路上行駛,道路
周圍可能有樹,而且今天可能是大風天。因此,樹上的葉子會以一種你無法預測的半混亂、
隨機的方式移動,而你並不關心,也不想預測。因此,你希望編碼器基本上能消除所有這些
細節。它會告訴你樹葉在動,但不會告訴你具體發生了什麼事。因此,當你在表示空間中進
行預測時,你不必預測每片樹葉的每個像素。這不僅簡單得多,而且還能讓系統從本質上學
習到世界的抽象表徵,其中可以建模和預測的內容被保留下來,其餘的則被編碼器視為噪音
並消除掉。
因此,它提升了表徵的抽象程度。仔細想想,這絕對是我們一直在做的事情。每當我們描述
一個現象時,我們都會在特定的抽象層次上進行描述。我們並不總是用量子場論來描述每一
種自然現象。那是不可能的。因此,我們有多個抽象層次來描述世界上發生的事情,從量子
場論到原子理論、分子、化學、材料,一直到現實世界中的具體物體等等。因此,我們不能
只在最底層模擬一切。而這正是JEPA 的理念所在,以自我監督的方式學習抽象表徵,還可
以分層學習。因此,我認為這是智慧系統的重要組成部分。而在語言方面,我們可以不用這
樣做,因為語言在某種程度上已經是抽象的,已經消除了許多不可預測的資訊。因此,我們
可以不做聯合嵌入,不提升抽象程度,直接預測單字。
Lex Fridman:你是說語言,我們懶得用語言,因為我們已經免費得到了抽象的表述,而現
在我們必須放大,真正思考一般的智慧系統。我們必須處理一塌糊塗的物理現實和現實。而
你確實必須這樣做,從完整、豐富、詳盡的現實跳到基於你所能推理的現實的抽象表徵,以
及所有諸如此類的東西。
Yann LeCun:沒錯。那些透過預測來學習的自監督演算法,即使是在表徵空間中,如果輸入
資料的冗餘度越高,它們學習到的概念也就越多。資料的冗餘度越高,它們就越能捕捉資料
的內部結構。因此,在知覺輸入、視覺等感官輸入中,冗餘結構比文字中的冗餘結構多得多
。語言可能真的代表了更多的訊息,因為它已經被壓縮了。你說得沒錯,但這也意味著它的
冗餘度更低,因此自監督的效果就不會那麼好。
Lex Fridman:有沒有可能將視覺資料的自監督訓練與語言資料的自監督訓練結合?儘管你
說的是10 到13 個token,但其中蘊含著大量的知識。這10 到13 個token 代表了我們人類
已經弄清楚的全部內容,包括Reddit 上的廢話、所有書籍和文章的內容以及人類智力創造
的全部內容。
Yann LeCun:嗯,最終是的。但我認為,如果我們太早這樣做,就有可能被誘導作弊。而事
實上,這正是目前人們在視覺語言模式上所做的。我們基本上是在作弊,在用語言作為拐杖
,幫助我們視覺系統的缺陷從影像和影片中學習良好的表徵。
這樣做的問題是,我們可以透過向語言模型提供圖像來改進它們,但我們甚至無法達到貓或
狗的智力水平或對世界的理解水平,因為它們沒有語言。它們沒有語言,但對世界的理解卻
比任何LLM 都要好得多。它們可以規劃非常複雜的行動,並想像一系列行動的結果。在將其
與語言結合之前,我們如何讓機器學會這些?顯然,如果我們將其與語言結合,會取得成果
,但在此之前,我們必須專注於如何讓系統學習世界是如何運作的。
事實上,我們使用的技術是非對比性的。因此,不僅架構是非生成的,我們使用的學習程式
也是非對比的。我們有兩套技術。一套是基於蒸餾法,有很多方法都採用了這個原理,Deep
Mind 有一種叫BYOL,FAIR 有幾種,一種叫vcREG,還有一種叫I-JEPA。應該說,vcREG 並
不是一種蒸餾方法,但I-JEPA 和BYOL 肯定是。還有一種也叫DINO 或DINO,也是從FAIR 生
產出來的。這些方法的原理是,你將完整的輸入,比如說一張圖片,透過編碼器運行,產生
一個表示,然後你對輸入進行破壞或轉換,透過本質上等同於相同的編碼器運行,但有一些
細微差別,然後訓練一個預測器。
有時預測器非常簡單,有時預測器並不存在,但要訓練一個預測器來預測第一個未損壞輸入
與已損壞輸入之間的關係。但你只訓練第二個分支。你只訓練網路中輸入損壞輸入的部分。
另一個網路則不需要訓練。但由於它們共享相同的權重,當你修改第一個網路時,它也會修
改第二個網路。透過各種技巧, 你可以防止系統崩潰,就像我之前解釋的那種崩潰,系統
基本上會忽略輸入。因此,這種方法非常有效。我們在FAIR 開發的兩種技術,DINO 和I-JE
PA 在這方面都非常有效。
我們的最新版本稱為V-JEPA。它與I-JEPA 的理念基本相同,只是將其應用於影片。因此,
你可以獲得整個視頻,然後屏蔽其中的一大塊內容。我們所屏蔽的實際上是一個時間管,所
以是整個影片中每一幀的整個片段。
這是我們所擁有的第一個能學習到良好視訊表徵的系統,因此當你將這些表徵輸入到一個有
監督的分類器頭部時,它能以相當高的準確率告訴你視頻中發生了什麼動作。因此,這是我
們第一次獲得這種品質的東西。
結果似乎表明,我們的系統可以透過表徵來判斷視訊在物理上是可能的,還是完全不可能的
,因為某些物體消失了,或者某個物體突然從一個位置跳到另一個位置,或者改變了形狀什
麼的。
Lex Fridman:這能讓我們建立一個足夠了解世界並能夠駕駛汽車的世界模型嗎?
Yann LeCun:可能還需要一段時間才能達到這個目標。現在已經有一些機器人系統,就是基
於這個想法。你需要的是一個稍加改動的版本,想像你有一段完整的視頻,而你對這段視頻
所做的,就是把它在時間上轉換到未來。因此,你只能看到影片的開頭,而看不到原始影片
中的後半部分,或只屏蔽影片的後半部分。然後你就可以訓練一個JEPA 系統或我描述的那
種系統,來預測被遮蔽影片的完整表現形式。不過,你也要給預測器一個動作。例如,車輪
向右轉動10 度或其他動作,對嗎?
因此,如果這是一個汽車攝像頭,而你又知道方向盤的角度,那麼在某種程度上,你應該能
夠預測你所看到的畫面會發生什麼變化。顯然,你無法預測視圖中出現的物體的所有細節,
但在抽象表示層面,你或許可以預測將要發生的事情。所以,現在你有了一個內部模型,它
說:"這是我對T 時刻世界狀態的想法,這是我正在採取的行動。這裡是對T 加1、T 加delt
a T、T 加2 秒時世界狀態的預測," 不管它是什麼。如果你有這樣一個模型,你就可以用
它來規劃。因此,現在你可以做LMS 做不到的事情,也就是規劃你要做的事情。因此,當你
到達一個特定的結果或滿足一個特定的目標。
因此,你可以有很多目標。我可以預測,如果我有一個這樣的物體,我張開手,它就會掉下
來。如果我用一種特定的力量把它推到桌子上,它就會移動。如果我用同樣的力推桌子,它
可能不會移動。因此,我們腦海中就有了這個世界的內在模型,它能讓我們規劃一系列的行
動,以達到特定的目標。現在,如果你有了這個世界模型,我們就可以想像一連串的動作,
預測這一連串動作的結果,衡量最終狀態在多大程度上滿足了某個特定目標,比如把瓶子移
到桌子左邊,然後在運行時規劃一連串動作,使這個目標最小化。
我們說的不是學習,而是推理時間,所以這就是規劃,真的。在最優控制中,這是一個非常
經典的東西。它被稱為模型預測控制。你有一個想要控制的系統模型,它能預測與一系列指
令相對應的狀態序列。而你正在規劃一連串的指令,以便根據你的角色模型,系統的最終狀
態將滿足你設定的目標。自從有了計算機,也就是60 年代初開始,火箭軌蹟的規劃就一直
採用這種方式。
強化學習
Lex Fridman:建議放棄生成模型而轉而採用聯合嵌入架構?你已經有一段時間是強化學習
的批評者了。這感覺就像法庭證詞,放棄機率模型,轉而支持我們談到的基於能量的模型,
放棄對比方法,轉而支持正則化方法。
Yann LeCun:我認為它不應該被完全放棄,但我認為它的使用應該最小化,因為它在採樣方
面效率非常低。因此,訓練系統的正確方法是首先讓它從主要觀察(也許還有一點互動)中
學習世界和世界模型的良好表示。
Lex Fridman:RLHF 為什麼效果這麼好?
Yann LeCun:具有轉化效果的是人類回饋,有很多方法可以使用它,其中一些只是純粹的監
督,實際上,它並不是真正的強化學習。
開源
Yann LeCun:擁有人工智慧產業、擁有不存在獨特偏見的人工智慧系統的唯一方法就是擁有
開源平台,任何團體都可以在該平台上建立專門的系統。歷史的必然方向就是,絕大多數的
AI 系統都會建立在開源平台之上。
Meta 圍繞的商業模式是,你提供一種服務,而這種服務的資金來源要么是廣告,要么是商
業客戶。
舉例來說,如果你有一個LLM,它可以透過WhatsApp 與顧客對話,幫助一家披薩店,顧客只
需點一份披薩,系統就會問他們:「你想要什麼配料或什麼尺寸,等等」 。商家會為此付
費,這就是一種模式。
否則,如果是比較經典的服務系統,它可以由廣告支持,或者有幾種模式。但問題是,如果
你有足夠大的潛在客戶群,而且無論如何你都需要為他們建立該系統,那麼將其發佈到開放
原始碼中也無傷大雅。
Lex Fridman:Meta 所打的賭是:我們會做得更好嗎?
Yann LeCun:否。賭注更大,我們已經擁有龐大的用戶群和客戶群。
我們提供開源的系統或基本模型、基礎模型,供他人在此基礎上建立應用程序,這也無傷大
雅。如果這些應用程式對我們的客戶有用,我們可以直接向他們購買。他們可能會改進平台
。事實上,我們已經看到了這一點。LLaMA 2 的下載量已達數百萬次,成千上萬的人提出如
何改進平台的想法。因此,這顯然加快了向廣大用戶提供該系統的進程,而且數以千計的企
業正在使用該系統建立應用程式。因此,Meta 從這項技術中獲取收入的能力並沒有因為基
礎模型的開源分佈而受到影響。
撥打3
Lex Fridman:關於LLaMA 3 ,你最興奮的是什麼?
Yann LeCun:會有各種版本的LLaMA,它們是對先前的LLaMA 的改進,更大、更好、多模態
,諸如此類。然後,在未來的幾代人中,有能夠真正了解世界如何運作的規劃系統,可能是
透過影片進行訓練的,因此它們會有一些世界模型,可能能夠進行我之前談到的推理和規劃
類型。
這需要多長時間?朝這個方向進行的研究什麼時候會進入產品線?我不知道,也不能告訴你
。在我們實現這一目標之前,我們基本上必須經歷一些突破,但大家能夠監控我們的進展,
因為我們公開發布了自己的研究。因此,上週我們發布了V-JEPA 工作,這是邁向視訊訓練
系統的第一步。
下一步將是基於這種視訊創意訓練的世界模型。DeepMind 也有類似的工作,加州大學柏克
萊分校也有關於世界模型和影片的工作。很多人都在做這方面的工作。我認為很多好的想法
正在出現。我敢打賭,這些系統將是JEPA 輕型系統,它們不會是生成模型,我們將看看未
來會發生什麼。
30 多年前,我們正在研究組合網絡和早期的神經網絡,我看到了一條通往人類水平智能的
道路,系統可以理解世界、記憶、計劃、推理。有一些想法可以取得進展,可能有機會發揮
作用,我對此感到非常興奮。
我喜歡的是,我們在某種程度上朝著一個好的方向前進,也許在我的大腦變成白沙司或在需
要退休之前取得成功。
Lex Fridman:你的大部分興奮點還是在理論方面,也就是軟體方面?
Yann LeCun:很多年前我曾經是一名硬體人員。規模是必要的,但還不夠。有可能我未來還
能活十年,但我還是要跑一小段路。當然,對於能源的效率,我們取得的進步越遠,我們在
努力工作方面取得的進步就越多。我們必須降低功耗。如今,一個GPU 的功耗在半千瓦到一
千瓦之間。人腦的功率約為25 瓦,而GPU 的功率遠低於人腦。你需要10 萬或100 萬的功率
才能與之媲美,所以我們的差距非常大。
通用人工智慧
Lex Fridman:你常說GI 不會很快到來,背後的基本直覺是什麼?
Yann LeCun:那種被科幻小說和好萊塢廣為流傳的想法,即某個人會發現AGI 或人類級AI
或AMI(不管你怎麼稱呼它)的秘密,然後打開機器,我們就擁有了AGI,是不可能發生的。
這將是一個循序漸進的過程。我們是否會有系統能從影片中了解世界是如何運作的,並學習
良好的表徵?在達到我們在人類身上觀察到的規模和性能之前,還需要相當長的一段時間,
不是一天兩天的事。
我們會讓系統擁有大量關聯記憶,從而記住東西嗎?是的,但這也不是明天就能實現的。我
們需要開發一些基本技術。我們有很多這樣的技術,但要讓它們與完整的系統協同工作,那
就是另一回事了。
我們是否將擁有能夠推理和規劃的系統,或許就像我之前描述的目標驅動型人工智慧架構?
是的,但要讓它正常工作,還需要一段時間。在我們讓所有這些東西協同工作之前,在讓系
統基於此實現學習分層規劃、分層表示,能夠像人腦那樣針對手頭的各種不同情況進行配置
之前,至少需要十年時間甚至更長,因為有很多問題我們現在還沒有看到,我們還沒有遇到
,所以我們不知道在這個框架內是否有簡單的解決方案。
在過去的十幾年,我一直聽到有人聲稱AGI 指日可待,但他們都錯了。
智商可以衡量人類的某些東西,但因為人類的形式相對統一。但是,它只能衡量一種能力,
而這種能力可能與某些任務有關,但與其他任務無關。但如果你說的是其他智慧實體,對它
們來說很容易做到的基本事情卻截然不同,那麼它就沒有任何意義了。因此,智能是一種技
能的集合,也是一種高效率獲取新技能的能力。一個特定的智慧實體所擁有或能夠快速學習
的技能集合與另一個智慧實體的技能集合是不同的。因為這是一個多維度的東西,技能集合
是一個高維度空間,你無法測量,也無法比較兩個東西是否一個比另一個更聰明。它是多維
的。
Lex Fridman:你經常反對所謂的人工智慧末日論者,解釋他們的觀點以及你認為他們錯誤
的原因。
Yann LeCun:人工智慧末日論者想像了各種災難場景,人工智慧如何逃脫或控制並基本上殺
死我們所有人,這依賴於一大堆假設,而這些假設大多是錯誤的。
第一個假設是,超級智慧的出現將是一個事件,在某個時刻,我們會發現其中的秘密,我們
會打開一台超級智慧的機器,因為我們以前從未這樣做過,所以它會佔領世界,殺死我們所
有人。這是錯誤的。這不會是一個事件。
我們將擁有像貓一樣聰明的系統,它們具有人類智慧的所有特徵,但它們的智慧水平可能像
貓或鸚鵡之類。然後,我們再逐步提高它們的智慧水準。在讓它們變得更聰明的同時,我們
也要在它們身上設置一些防護欄,並學習如何設定防護欄,讓它們表現得更正常。
在自然界中,似乎更聰明的物種最終會統治另一個物種,甚至有時是有意為之,有時只是因
為錯誤而區分其他物種。
所以你會想:「好吧,如果人工智慧系統比我們更聰明,肯定會消滅我們,如果不是故意的
,只是因為他們不關心我們,」這是荒謬的—— 第一個原因是它們不會成為與我們競爭的
物種,不會有主宰的慾望,因為主宰的慾望必須是智慧系統中固有的東西。它在人類身上是
根深蒂固的,狒狒、黑猩猩、狼都有這種慾望,但在猩猩身上卻沒有。這種支配、服從或以
其他方式獲得地位的慾望是社會性物種所特有的。像猩猩這樣的非社會性物種就沒有這種慾
望,而且它們和我們一樣聰明。
人形機器人
Lex Fridman:你認為很快就會有數以百萬計的人形機器人四處走動嗎?
Yann LeCun:不會很快,但一定會發生。
未來十年,我認為機器人產業將非常有趣,機器人產業的興起已經等待了10 年、20 年,除
了預先設定行為和諸如此類的東西外,並沒有真正出現。主要問題還是莫拉維克悖論,我們
如何讓這些系統理解世界是如何運作的,並規劃行動?這樣,我們才能完成真正專業的任務
。波士頓動力的做法基本上是透過大量手工製作的動態模型和事先的精心策劃,這是非常經
典的機器人技術,其中包含大量創新和一點點感知,但這仍然不夠,他們無法製造家用機器
人。
此外,我們離完全自主的L5 駕駛還有一段距離,例如一個可以像17 歲孩子一樣透過20 小
時的駕駛來訓練自己的系統。
因此,在擁有世界模型、能夠自我訓練以了解世界如何運作的系統之前,我們不會在機器人
技術方面取得重大進展。
心得/評論:
人工智慧並不是真的懂自己在算什麼
演算法跟人腦理解物理世界規則的邏輯體系完全不同
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.82.84.19 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1710395515.A.8EB.html
→
→
→
推
推
噓
→
噓
推
推
→
→
→
→
→
→
→
推
噓
→
推
→
→