LeCun最新訪談對DeepSeek一頓猛夸,還談了AI發展需理解物理世界
LeCun最新訪談,對DeepSeek一頓猛夸。
他表示,DeepSeek是一項很出色的成果,它的開源不只是成果創造者受益,全世界都能從中受益。
不過LeCun也指出,金融市場對DeepSeek出現的反應,說什么“哦,現在我們可以更便宜地訓練系統了,所以我們不再需要那么多計算機”,這種說法是錯誤的。
最終大部分的基礎設施建設和大部分的投資實際上都用在運行模型上,而不是訓練模型。
順帶他還提到了對OpenAI“星際之門”項目的看法,OpenAI之前官宣將與軟銀甲骨文組建合資公司,未來4年內總投資5000億美元在這個項目上,LeCun卻表示不認為它會改變一切。
他認為這個項目的投資與微軟、Meta的投資規模實際上處于同一數量級,并沒有太大的不同。
另外,LeCun著重講了現在的AI系統在很多方面都還非常“愚蠢”,光靠大語言模型不行,AI發展需要理解復雜物理世界。
LeCun的一些大膽言論讓網友聽得一愣一愣的:
說當前AI愚蠢沒有智能,又將自己的“情感”概念強加到他正在構建的東西上,這有點瘋狂。
當然,也有研究人員贊同LeCun的說法。
量子位在不改變原意的基礎上,對部分問題進行了翻譯整理。
最新訪談問題整理
談AI是否會有類似人的情緒
Q:我們努力推動AI達到與人類能力相匹配的水平。現在我們是否會讓AI展現出類似人類憤怒這類的情緒呢?你覺得這有可能實現嗎?
LeCun:不,我不這么認為。
目前AI系統在很多方面都還非常“愚蠢”,我們之所以會覺得它們很聰明,是因為它們能夠很好地處理語言,但實際上它們并不具備真正的智慧。
它們不理解物理世界,也沒有像我們人類所擁有的那種持久記憶,無法真正地進行推理,也不能制定計劃。而這些都是智能行為的基本特征。
所以,我和我在FAIR以及紐約大學的同事們一直在努力做的一件事,就是設計一種新型的AI系統,而且它仍然是基于深度學習的。
這種系統將能夠理解物理世界,擁有實體記憶,并且能夠進行推理和規劃。在我看來,一旦我們成功地按照這個藍圖構建出這樣的系統,它們就會擁有情感,可能會恐懼、興奮或者失落,因為這些都是對結果的預期。
這些系統會按照我們設定的目標來運行,然后會嘗試弄清楚自己可以采取怎樣的行動來實現這個目標。如果它們能夠提前預測到目標將會實現,在某種程度上會“感到高興”;如果它們預測到無法實現目標,它們就會“不開心”。
所以在一定程度上它們會擁有情感,因為它們將能夠預測自己可能采取的一系列行動的結果。
但是我們不會在它們的程序中人為設定類似憤怒、嫉妒之類的情感。
但意識是另外一回事,我們實際上并不清楚它究竟是什么,目前并沒有一個真正意義上的定義,也沒有任何一種真正可衡量的東西能讓我們判斷某樣事物到底有沒有意識。
就好比我們觀察動物,大概我們都會認同猿是有意識的,也許大象以及諸如此類的動物也是有意識的,但狗有意識嗎?老鼠有意識嗎?界限在哪里?
因為我們沒有一個關于意識的恰當定義,所以我們確實無法判斷。
談機器學習三種模式
Q:當年你說機器學習很爛,現在情況有什么變化嗎?
LeCun:這就是我們正在努力的,我們正在尋找構建機器學習系統的新方法,讓它們能夠像人類和動物那樣高效地學習,因為目前的情況并非如此。
我可以給你講講過去幾十年里機器學習是如何發展的。實際上機器學習主要有三種早期模式。
一種叫監督學習,這是最經典的一種。
訓練一個監督學習系統的方式是這樣的,例如對于一個用于識別圖像的系統,你給它展示一張圖片,比方說一張桌子的圖片,然后告訴它“這是一張桌子”,這就是監督學習,你告訴了它正確答案是什么,也就是系統計算機的輸出應該是什么。
如果它給出的不是“桌子”,那么它就會調整自身的參數,也就是它的內部結構,使得產生的輸出更接近你想要的結果。
如果你不斷地用大量桌子、椅子、汽車、貓、狗等例子來進行訓練,最終這個系統將會找到一種方法,能夠識別出你用來訓練它的每一張圖像,而且對于那些它從未見過但與訓練圖像相似的圖像,它也能識別,這就叫做泛化能力。
還有另一種模式,人們認為這種模式更接近動物和人類的學習方式,叫做強化學習。
在強化學習中,你不會告訴系統正確答案是什么,你只告訴它所產生的答案是好還是壞。在某種程度上,這可以解釋人類和動物的一些學習類型。比如,你嘗試騎自行車,一開始不知道怎么騎,過了一會兒你摔倒了,所以你知道自己做得不好,于是你稍微改變一下策略,最終你就學會了騎自行車。
但事實證明,強化學習效率極其低下。
如果你想訓練一個系統來下國際象棋、圍棋或者玩撲克之類的,它確實效果很好。因為你可以讓系統自己和自己玩數百萬局游戲,然后基本上就能對自身進行微調。
但在現實世界中,它并不太適用。如果你想訓練一輛汽車自動駕駛,你可不能用強化學習的方法,不然它會撞車成千上萬次。如果你訓練一個機器人學習如何抓取東西,強化學習可以是解決方案的一部分,但它不是全部,僅靠強化學習是不夠的。
所以還有第三種學習形式,叫做自監督學習。
正是自監督學習推動了近期自然語言理解和聊天機器人領域的進展。在自監督學習中,你不是訓練系統去完成特定的任務,而是訓練它去捕捉輸入的結構。
比如說,在處理文本和語言方面的應用方式是,你取一段文本,以某種方式對它進行破壞,比如刪除一些單詞,然后訓練系統去預測缺失的單詞。
這種方式的一個特殊情況是,你取一段文本,這段文本的最后一個單詞是不可見的。所以你訓練系統去預測這段文本的最后一個單詞。這就是訓練大語言模型以及所有聊天機器人所采用的方式。
從技術層面來說會有所不同,但基本原理就是這樣。這就叫做自監督學習。你不是為了某個任務去訓練系統,只是訓練它去學習輸入內容的內部依賴關系。
自監督學習的成功令人驚嘆,它的效果出奇地好,最終你得到的系統似乎真的理解了語言,并且如果你通過監督學習或強化學習對它們進行微調,使它們能夠正確回答問題,那么這些系統就能理解問題。
這就是目前行業內大家都在努力研究的方向,但如果你想要一個系統去理解物理世界,這種模型就不管用了。
談AI系統所缺的關鍵要素
LeCun:物理世界比語言要難理解得多,我們往往認為語言是展現智能的重要方面,因為只有人類能夠運用語言。但事實證明,語言其實是相對簡單的。
它之所以簡單,是因為它是離散的,是由一系列離散的符號組成的序列。
字典里可能出現的單詞數量是有限的,所以,雖然你永遠無法訓練一個系統精確地預測下一個出現的單詞是什么,但你可以訓練它為字典里的每個單詞在那個位置出現的概率進行估算。這樣,你就可以通過這種方式來處理預測中的不確定性。
然而,你卻無法訓練一個系統去預測視頻中將會發生什么。
人們嘗試過這么做,我自己也為此努力了20年,如果你能夠訓練一個系統去預測視頻中將會發生的事情,那么這個系統就會潛移默化地理解這個世界的底層結構,比如直觀的物理學知識,以及任何動物和人類在嬰兒時期所學到的關于物理方面的一切知識。
你知道的,如果我拿起一個物體然后松開手,它就會掉落,重力會把物體拉向地面,人類嬰兒大概9個月大的時候就學會了這一點。
這是個棘手的問題,貓或者狗幾個月的時間就能了解重力,而且貓在這方面真的很厲害,它能夠規劃復雜的動作,爬上爬下還能跳躍,它對我們所說的直觀物理學有著非常好的理解。而我們還不知道如何用計算機來重現這一點。
原因就在于,這又是AI研究人員所說的“莫拉維克悖論”。
漢斯?莫拉維克是一位機器人專家。他指出,為什么我們能讓計算機下棋、解決數學難題,但卻無法讓它們做一些像動物能做的操控物體、跳躍之類的物理動作?
所以這就是這個悖論的又一個例子,即離散物體和符號的空間很容易被計算機處理,但現實世界實在是太復雜了,在一種情況下有效的技術在另一種情況下卻行不通。
如果你想直觀地理解這一點,有個不錯的方法:通過我們的感官比如視覺或觸覺,傳遞給我們的信息量,與我們通過語言獲取的信息量相比,絕對是極其龐大的。
這也許就能解釋為什么我們有大語言模型、聊天機器人,它們能通過律師資格考試,能解決數學問題,或者寫出聽起來不錯的文章。但我們仍然沒有家用機器人。我們仍然沒有能完成貓或狗能完成的任務的機器人。我們仍然沒有達到L5完全自動駕駛的汽車,而且我們肯定也沒有能像17歲的孩子那樣,通過大約20個小時的練習就能學會駕駛的自動駕駛汽車。
所以很明顯,我們還缺少一些關鍵的東西,而我們所缺少的,就是如何訓練一個系統去理解像視覺這樣復雜的感官輸入。
如果你想要擁有與動物和人類智力相仿的機器,它們具備常識,或許在某個階段還擁有意識以及其它能力,并且能夠真正應對復雜世界中錯綜復雜的情況,那我們就需要攻克這個難題。
一個典型的大語言模型的信息量大約是10的14次方字節,也就是1后面跟著14個零,這是互聯網上所有公開可用文本的總量,我們任何人要讀完這些材料都得花幾十萬年的時間,這是極其龐大的信息量。
當你把大語言模型的信息量與在生命的頭四年里通過視覺系統進入我們大腦的信息量作比較。在頭四年里,一個幼兒醒著的總時長大約是16000個小時。進入大腦到達視神經的信息量大約是2MB/s。計算一下,那大約也是10的14次方字節。
也就是說,一個幼兒在頭四年里所接觸到的信息或數據量,和最大的大語言模型所處理的信息量大致相當。
這就告訴我們,僅僅通過對文本進行訓練,我們永遠無法實現達到人類水平的人工智能,必須讓系統去理解真實世界。而要做到這一點,在現實世界中確實非常困難。
Q:你在你的LinkedIn和Facebook主頁上把AI和熵聯系起來了,它們之間有什么關聯?你寫的內容很難讓人理解,能否給我們簡單解釋一下。
LeCun:這一直是我著迷的一個問題,它是計算機科學、物理學、信息論以及許多不同領域中諸多問題的根源,那就是如何對信息進行量化的問題,也就是一條消息中包含了多少信息。
我已經多次提出的觀點是,一條消息中的信息量并非是一個絕對的量,因為它取決于解讀這條消息的人。你能從傳感器中、從別人告訴你的語言信息或其它任何信息中提取出的信息量,取決于你如何去解讀它,這就是關鍵所在。
認為可以用絕對的方式來衡量信息,這種想法可能是錯誤的。每一種對信息的度量都是相對于解讀該信息的特定方式而言的。所以這就是我一直想表達的觀點。
而這會產生非常廣泛的影響。因為如果沒有一種絕對的方法來衡量信息,那就意味著物理學中有很多概念實際上并沒有那種像熵這樣客觀的定義,所以熵是對我們對一個物理系統狀態的未知程度的一種度量。當然,這取決于你對這個系統了解多少。
所以我一直執著于試圖找到一些好的方法來定義熵、復雜性或者信息內容。
Q:你難道不認為我們用于訓練AI模型的全球數據庫已經達到極限了嗎?我們在2000年時將數據的25%進行了數字化,而如今我們已經把所有數據的100%都數字化了。
LeCun:不,仍然有大量的文本知識尚未被數字化。而且,也許在很多發達地區很多數據已經被數字化了,但其中大部分都不是公開的。
比如說,有大量的醫療數據就是不公開的,還有很多文化數據、世界上很多地區的歷史數據都無法以數字形式獲取,或者即便有數字形式也是以掃描文檔的形式存在。所以它并不是可利用的文本之類的東西。
所以我認為那種說法不對,我覺得仍然還有大量的數據未被合理利用。
談o1式推理模型
Q:那關于像o1這樣的自由推理、抽象思維模型呢?我們能期待從您的實驗室中看到類似這樣的成果嗎?
LeCun:從觀察中精心構建抽象表征的問題是深度學習的關鍵所在。深度學習的核心就在于學習表征。
實際上,深度學習領域的一個主要會議叫做國際學習表征會議(ICLR),我是這個會議的共同創始人之一。這就表明了學習抽象表征這個問題對于AI整體尤其是對于深度學習來說是多么的核心。
如今,如果你希望一個系統能夠進行推理,你就需要它具備另一套特性。在AI領域,推理或規劃行為由來已久,自 20世紀50年代起便有相關研究,其經典模式是要找到一種搜索問題解決方案的方法。
比如說,如果我給你一份城市列表,然后讓你找出經過所有這些城市的最短路線。那么,你就會思考,我應該從相鄰的城市開始走,這樣我的總行程才會盡可能短。
現在,存在一個由所有可能路線構成的空間,也就是所有城市排列順序的集合。這是一個非常龐大的空間,像在GPS之類的算法中,它們搜索路徑的方式就是在所有可能的路徑中尋找最短的那一條。所有的推理系統都是基于這種搜索的理念。
也就是說,在一個由可能的解決方案構成的空間里,你去搜索那個符合你所期望目標的方案。
目前的系統,比如現有的大語言模型,它們進行這種搜索的方式還非常原始,它們是在所謂的token空間中進行搜索,也就是輸出空間。所以基本上,它們讓系統或多或少隨機地生成大量不同的token序列,然后再用另一個神經元去查看所有這些假設的序列,從中找出看起來最好的那個,然后輸出它。
這是極其耗費資源的,因為這需要生成大量的輸出結果,然后再從中挑選出好的。而且這也不是我們人類思考的方式。我們不是通過生成大量的行為,然后觀察結果,再判斷哪個是最好的來進行思考的。
比如說,如果我讓你想象在你正前方的空中漂浮著一個立方體,現在拿起那個立方體,繞著垂直軸旋轉90 度,這樣你就有了一個旋轉了90度的立方體。現在想象這個立方體,然后告訴我它看起來是否和你旋轉之前的原始立方體一樣。答案是肯定的。
因為你知道,對于一個立方體來說,如果你將它旋轉90度,并且你仍然是從相同的視角去看它的話,它看起來就是一樣的。
Q:那是自由推理的錯覺嗎?
LeCun:你所做的是在你的思維狀態中進行推理,而不是在你的輸出行為狀態或行為空間中進行推理。
或者說,無論你的輸出狀態是什么,你是在一個抽象空間中進行推理。
所以我們擁有這些關于世界的心理模型,這些模型使我們能夠預測世界上將會發生什么,操控現實,提前預知我們行為的后果。如果我們能夠預測自己行為的后果,比如將一個立方體旋轉90度之類的事情,那么我們就可以規劃一系列的行動,從而達成一個特定的目標。
所以,每當我們有意識地去完成一項任務時,我們的全部心思都會集中在上面,然后思考我需要采取怎樣的一系列行動,才能做好任何事情。
基本上,我們每天用心去做的每一項這類任務,都需要進行規劃。而且大多數時候,我們是分層級地進行規劃。
比如說,我們不會一下子就跳到某個最終步驟,如果你現在決定從紐約回到華沙,你知道你得先去機場然后搭乘飛機。現在你有了一個子目標,那就是去機場。這就是分層級規劃的意義所在。
在某個時候,你會確定一個足夠具體且無需再進一步規劃的目標,比如從椅子上站起來,你不需要再去規劃這個動作,因為你已經非常習慣這么做了,你可以直接就做到,而且你擁有完成這個動作所需的所有信息。
所以,我們需要進行分層級規劃,智能系統也需要進行分層級規劃,這個理念至關重要。如今,我們還不知道如何讓機器做到這一點。這是未來幾年里的一個巨大挑戰。
談DeepSeek和OpenAI星際之門
Q:現在全世界都在談論新模型DeepSeek,它比OpenAI一些模型便宜得多,你難道不覺得木已成舟、大局已定了嗎?你對此有何看法?
LeCun:有件事必須解釋得非常清楚。如果一項研發成果被發表出來,用于產生這項成果的技術或者相關的論文、白皮書、報告之類的也被發布了出來,并且如果代碼是開源的,全世界都能從中受益。
明白嗎,不只是成果的創造者受益,成果的創造者或創造團隊會獲得聲譽以及認可,但全世界都能從中受益,這就是開放開源的魅力所在。
就我個人以及Meta公司整體而言,一直都是開放研究和開源理念的堅定支持者。每當有一個踐行開放開源研究的機構產出了成果,整個開源社區也會從中受益。
有人把這描述成了一種競爭的態勢,但其實并非如此,這更像是一種合作。
問題在于,我們是否希望這種合作是全球性的,我的答案是肯定的,因為全世界各個地方都能涌現出好的創意。沒有哪個機構能壟斷好的創意,這就是為什么開放協作能讓這個領域發展得更快。
現在行業里有些人過去也曾踐行開放研究然后取得了成功,OpenAI就是這樣的情況。
而Anthropic從來都不是開放的,他們把所有東西都保密。
谷歌則從部分開放逐漸走向基本不開放,比如說他們不會公開關于PaLM背后的所有技術,他們仍然在做很多開放研究,但更多的是那種基礎性、長期性的研究。
我覺得挺遺憾的,因為很多人基本上把自己排除在了世界研究社區之外,他們沒有參與進來沒有為行業的進步做出貢獻。
過去十年AI領域發展如此迅速的原因就在于開放研究。不只是我這么認為,這不是一種觀點,而是事實。
讓我舉個例子。幾乎可以說,整個AI行業,至少在研發階段構建系統時都會使用一款名為PyTorch的開源軟件。它最初是由我在Meta FAIR實驗室的同事開發的,后來有更多人參與進來。
幾年前,PyTorch的所有權轉移到了Linux 基金會,Meta是主要的貢獻者,但不再控制它了。它實際上是由一個開發者社區來管理的,基本上整個行業都在使用它,這其中包括OpenAI,也包括很多其他公司。
谷歌有他們自己的軟件,但微軟、英偉達等公司也都在使用PyTorch,整個學術界和世界范圍內的研究也都在使用 PyTorch。
我認為在科學文獻中發表的所有論文里,大概有70%都提到了PyTorch。所以這說明,AI領域的進步是建立在彼此的研究成果之上的。而且,這就是科技進步的合理方式。
Q:如果不是DeepSeek的話,那么也許OpenAI的“星際之門”項目(The Stargate Project)會改變一切嗎?
LeCun:不,不
那我再說說關于DeepSeek的一點看法,這是很出色的成果,參與其中的團隊有著卓越的想法,他們確實做出了很棒的工作。
這可不是中國第一次產出非常優秀的創新性成果了。我們早就知道這一點,尤其是在計算機視覺取得進展的領域。
中國在大語言模型方面的貢獻是比較近期才凸顯的,但在計算機視覺領域,你看計算機視覺頂會上,很多參會者都是中國人,他們都是非常優秀的科學家,都是很聰明的人。所以,世界上的任何地區都無法壟斷好的創意。
DeepSeek的創意也許很快就會被復現,但它現在已經是世界知識的一部分了,這就是開源和開放研究的美妙之處。這在產品層面上或許是一種競爭,但在基本方法層面上,是一種合作。
現在我們來談談“星際之門”項目。如今,所有涉足AI領域的公司都預見到了一個不遠的未來,在那個未來里,數十億人每天都會想要使用AI助手。
我現在戴著一副眼鏡,我不知道你能不能看到這副眼鏡上有攝像頭,這是Meta的一款產品你可以和它對話,它連接著一個AI助手,你可以向它問任何問題,你甚至可以讓它通過攝像頭識別植物物種之類的東西。
所以我們預見到的未來是,人們會戴著智能眼鏡、智能手機或其它智能設備,在日常生活中會一直使用AI助手。
這就意味著,將會有數十億的AI助手用戶,而且他們每天會多次使用這些助手。為此,你需要非常龐大的計算基礎設施,因為運行一個大語言模型或任何AI系統,成本都不低,你需要強大的計算能力。
所以你知道的,Meta今年在基礎設施方面的投資大約為600-650億美元,主要用于AI領域;微軟已經宣布將投資800億美元。
“星際之門”項目計劃投資5000億美元,但這是在五年或十年內的投資,而且我們也不知道這些資金將從何而來,所以這和微軟以及Meta的投資規模處于同一數量級,實際上并沒有太大的不同。
這不是用于訓練大型模型的,實際上訓練大型模型的成本相對較低,大部分投資是用于推理方面,也就是說,是為了運行AI助手來服務數十億人。
所以我認為,金融市場對DeepSeek出現的反應,說什么“哦,現在我們可以更便宜地訓練系統了,所以我們不再需要那么多計算機”,這種說法是錯誤的。
我的意思是,訓練只是會變得更高效一些,但結果是我們只會去訓練更大規模的模型。而且最終大部分的基礎設施建設和大部分的投資實際上都用在運行模型上,而不是訓練模型。這才是投資的方向所在。
原視頻鏈接:https://www.youtube.com/watch?v=RUnFgu8kH-4