Hinton萬字訪談:用更大模型「預測下一個詞」值得全力以赴 精華
「這份訪談的每一秒都是精華。」最近,圖靈獎得主 Geoffrey Hinton 的一個訪談視頻得到了網友的高度評價。
視頻鏈接:https://www.youtube.com/watch?v=tP-4njhyGvo&t=660s
在訪談中,Hinton 談到了很多話題,包括當前大模型的技術路線、多模態學習的重要性、 數字計算與共享知識、智能系統的意識與情感以及他的合作者和優秀學生……
Hinton 認為,大型語言模型通過尋找不同領域的共同結構來進行編碼,這種能力使它們能夠壓縮信息并形成深層次的理解,發現現實世界中人類尚未發現的萬事萬物的聯系,這是創造力的來源。他還提到,通過預測下一個符號,模型實際上必須執行一定程度的推理,而不是像很多人所說的大模型并不具備推理能力。隨著模型規模的增加,這種推理能力也將變得越來越強。這是一個值得全力以赴的方向。
在回憶和 Ilya 的師生合作時,Hinton 提到,Ilya 擁有很好的直覺。他很早就預見到,增大模型的規模是有用的,盡管當時 Hinton 并不看好這個想法。事實證明,Ilya 的直覺是很準的。
整個訪談時間跨度比較大,為了方便梳理故事背景,我們可以先回顧一下 Hinton 的職業生涯:
- 1947 年 12 月 6 日,Hinton 出生于英國溫布爾登。
- 1970 年,獲得劍橋大學實驗心理學學士學位。
- 1976 年 —1978 年,擔任蘇塞克斯大學認知科學研究項目研究員。
- 1978 年,獲得愛丁堡大學人工智能學博士學位。
- 1978 年 —1980 年,擔任加州大學圣地亞哥分校認知科學系訪問學者。
- 1980 年 —1982 年,擔任英國劍橋 MRC 應用心理學部科學管理人員。
- 1982 年 —1987 年,歷任卡內基梅隆大學計算機科學系助理教授、副教授。
- 1987 年 —1998 年,擔任多倫多大學計算機科學系教授。
- 1996 年,當選為加拿大皇家學會院士。
- 1998 年,當選為英國皇家學會院士。
- 1998 年 —2001 年,擔任倫敦大學學院蓋茨比計算神經科學部創始主任。
- 2001 年 —2014 年,擔任多倫多大學計算機科學系教授。
- 2003 年,當選為認知科學學會會士。
- 2013 年 —2016 年,擔任谷歌杰出研究員。
- 2016 年 —2023 年,擔任谷歌副總裁兼工程研究員。
- 2023 年,從谷歌辭職。
以下是訪談內容:
起點:理解大腦的工作方式
Hinton:我還記得我第一次從英國到卡內基梅隆大學的時候。在英國的研究機構,大家到了 6 點都會去酒吧喝一杯。但到了卡內基梅隆,幾周后的一個周六晚上,那時我還沒有任何朋友,也不知道該做什么,所以我決定去實驗室編程。因為我有一臺列表機(list machine),這個東西不能在家編程。所以我在周六晚上大約 9 點鐘去了實驗室,結果里面擠滿了人,所有的學生都在那兒。他們之所以這樣,是因為他們所做的事情代表未來。他們都相信,他們接下來做的事情將改變計算機科學的進程。這與英國的情況非常不同,非常令人耳目一新。
Hellermark:我們回到起點 —— 劍橋時期的你。當時,你試圖理解大腦的工作方式,那時是什么情況?
Hinton:那是段非常令人失望的時光。我當時主要研究生理學。在夏季學期,他們要教我們大腦是如何工作的。他們教的只是神經元如何傳導動作電位,這非常有趣,但它并沒有告訴你大腦是如何工作的。所以那非常令人失望。隨后,我轉向了哲學。那時的想法是,也許哲學會告訴我們思維是如何工作的。結果同樣令人失望。我最終去了愛丁堡大學學習人工智能,那更有趣。至少你可以模擬東西,這樣你就可以測試理論了。
Hellermark:你還記得是什么讓你對 AI 產生了興趣嗎?是讀了某篇論文嗎?還是某個特定的人向你介紹了這些想法?
Hinton:我想是 Donald Hebb(加拿大心理學家,認知心理生理學的開創者)寫的一本書對我產生了很大影響。他對如何在神經網絡中學習連接強度非常感興趣。我還讀了馮?諾依曼(計算機之父)的書,他對大腦如何計算以及它與普通計算機有何不同非常感興趣。
Hellermark:在愛丁堡的那些日子里,你有沒有一種信念,認為這些想法會成功?或者你當時的直覺是什么?
Hinton:在我看來,大腦肯定有一種學習的方式。大腦的學習并非依靠將各種事物預設編程,然后運用邏輯推理規則 —— 這種做法從一開始就顯得過于瘋狂。因此,我們必須解開大腦是如何學會調整神經網絡中的連接,使其能夠處理復雜事物的謎團。對于馮?諾依曼和圖靈來說也是如此。馮?諾依曼和圖靈都非常擅長邏輯,但他們不相信這種邏輯方法。
Hellermark:你是如何將研究神經科學的想法與只是做那些看起來不錯的人工智能算法區分開來的?你在早期獲得了多少靈感?
Hinton:我并沒有在神經科學上做太多研究。我總是受到我對大腦工作原理的啟發,那里有一堆神經元,它們執行相對簡單的操作。它們是非線性的,但它們收集輸入,加權這些輸入,然后輸出取決于那些加權輸入。問題是,你如何改變這些權重,讓整個系統做出一些好的事情。這看起來像是一個相當簡單的問題。
Hellermark:你還記得那時的合作者嗎?
Hinton:我在卡內基梅隆的主要合作對象并不是卡內基梅隆的人。我與在巴爾的摩約翰?霍普金斯大學的 Terrence Sejnowski 有很多互動。大約每月一次,要么他開車去匹茲堡,要么我開車去巴爾的摩。兩地距離 250 英里(約 402 公里)。我們會一起度過一個周末,一起在巴爾的摩的機器上工作。那是一次很棒的合作。我們都相信那就是大腦的工作方式。那是我所做過的最令人興奮的研究,產出了很多技術上非常有趣的結果,但我認為那不是大腦的工作方式。
我還與 Peter Brown 有很好的合作,他是一位非常優秀的統計學家,在 IBM 工作,研究語音識別。他是作為一名成熟的學生來到卡內基梅隆的,為了拿到博士學位。其實他已經懂得很多了。他教了我很多關于語音的知識,教了我隱馬爾可夫模型。我覺得我從他那里學到的比他從我這里學到的要多。這就是大家都想要的那種學生。當他教我隱馬爾可夫模型時,我正在用隱藏層做反向傳播。那時它還不叫隱藏層。我認為馬爾可夫模型中使用的這個名字對于那些你不知道它們在干什么的變量來說是一個很好的名字。所以這就是神經網絡中「隱藏層」名字的由來。
談 Ilya:他有很好的直覺
Hellermark:帶我們回憶一下 Ilya 出現在你辦公室的時候。
Hinton:那可能是一個周日,我在編程,然后有人敲門。不是隨便的敲,而是有點急切的那種。然后我去開門,門口站著一個年輕的學生。他說他整個夏天都在炸薯條,但他更愿意在我的實驗室工作。我說,你為什么不預約一下,我們再談談?然后 Ilya 說,「現在談怎么樣?」這就是 Ilya 的性格。
我們聊了一會兒,我給了他一篇論文,那是發表在 Nature 上的反向傳播的論文。我們又安排了一周后的另一次會議。他回來說他沒理解,我非常失望。我以為他看起來是個聰明人。我給他的論文只涉及鏈式法則,不難理解。結果他說,「不,我理解了那部分。我只是不明白你為什么不把梯度給一個合理的函數優化器」。這個問題讓我們思考了好幾年。Ilya 就是這樣,他有很好的直覺,他的想法總是很好。
Hellermark:你認為是什么讓 Ilya 有了那些直覺?
Hinton:我不知道。他總是自己思考。他從小就對 AI 感興趣,還擅長數學。
Hellermark:你們兩個之間是怎么合作的?你扮演了什么角色,Ilya 扮演了什么角色?
Hinton:跟他合作非常有趣。我記得有一次我們試圖用一種復雜的方法制作數據圖,我有一種混合模型,你可以用同樣的一組相似性制作兩張圖。這樣在一張圖上,銀行可能離綠地很近,在另一張圖上,銀行可能離河流很近。因為在一張圖上,你不能讓它同時離兩者都很近,對吧?因為河流和綠地距離很遠。
我們用 MATLAB 做這件事,這涉及到大量的代碼重組,以進行正確的矩陣乘法。然后他厭煩了。所以有一天,他說,「我要去為 MATLAB 寫一個接口。我要用這種不同的語言編程,我有一些東西可以將其轉換為 MATLAB。」我說,「不,Ilya,那將花費你一個月的時間。我們必須繼續這個項目。不要被那個事情分散注意力。」Ilya 說,「沒關系,我今天早上就做好了。」
Hellermark:太不可思議了。在那些年里,最大的轉變不僅僅是算法,還有規模(scale)。這些年來你是如何看待 scale 的?
Hinton:Ilya 很早就有了那種直覺。所以 Ilya 總是說,你只要把它做得更大,效果就會更好。我總覺得這有點逃避現實,你也得有新想法。結果,他的直覺基本上是正確的。新的想法有幫助。Transformer 之類的東西幫了大忙,但真正的問題在于數據的規模和計算的規模。那時,我們根本不知道計算機會快上 10 億倍。我們以為也許會快上 100 倍。我們試圖通過提出一些聰明的想法來解決問題,但如果我們有更大的數據和計算規模,這些問題就會迎刃而解。
大約 2011 年,Ilya、我和另一個名叫 James Martins 的研究生,發表了一篇使用字符級預測的論文。我們利用維基百科,嘗試預測下一個 HTML 字符。結果效果非常好。我們一直對它的效果感到驚訝。那是在 GPU 上使用了一個花哨的優化器,我們永遠無法相信它能理解任何東西,但它看起來好像能理解,這看起來簡直不可思議。
「預測下一個詞」也需要推理
Hellermark:這些模型是如何預測下一個詞的?為什么這是一種錯誤的思考它們的方式?
Hinton:我并不認為這是錯誤的方式。事實上,我認為我制作了第一個使用嵌入和反向傳播的神經網絡語言模型。數據非常簡單,只是三元組,它將每個符號轉換為嵌入,然后讓嵌入相互作用以預測下一個符號的嵌入,然后從那預測下一個符號,然后它通過整個過程進行反向傳播來學習這些三元組。我展示了它可以泛化.
大約 10 年后,Yoshua Bengio 使用了一個非常類似的網絡,并證明它可以處理真實文本。此后大約 10 年,語言學家們開始相信嵌入。這是一個緩慢的過程。
我之所以認為它不僅僅是預測下一個符號,是因為如果你問,預測下一個符號需要什么?具體來說,如果你問我一個問題,然后答案的第一個詞就是下一個符號,你就必須理解這個問題。因此,我認為預測下一個符號與老式的自動補全功能很不一樣。在老式的自動補全功能中,你需要存儲三元組單詞。然后,如果你看到一對單詞,你會看到不同單詞出現在第三位的頻率,這樣你就能預測下一個符號。這就是大多數人認為的自動補全功能。現在已經完全不是這樣了。
為了預測下一個符號,你必須理解所說的話。所以我認為,通過讓它預測下一個符號,你正在迫使它去理解。我認為這和我們的理解方式是一樣的。很多人會告訴你這些東西不像我們,它們只是預測下一個符號,不像我們那樣進行推理。但實際上,為了預測下一個符號,它必須進行一些推理。我們現在已經看到了,即使你不加入任何特殊的推理元素,僅僅是制造出大的模型,它們也已經可以進行一些推理了。我想,當你把它們做得更大時,它們就能進行更多的推理。
Hellermark:在你看來,我現在除了預測下一個符號之外還在做什么?
Hinton:我認為那就是你的學習方式。你在預測下一個視頻幀,你在預測下一個聲音。但我認為這是一個相當合理的大腦學習理論。
Hellermark:是什么讓這些模型可以學到如此廣闊的領域?
Hinton:這些大型語言模型所做的是尋找共同的結構。它們可以使用共同的結構來編碼事物,這樣更有效率。
舉個例子,如果你問 GPT-4,為什么堆肥堆像原子彈?大多數人回答不出來。大多數人沒有想過,他們會認為原子彈和堆肥堆是非常不同的東西。但 GPT-4 會告訴你,它們的能量規模非常不同,時間規模非常不同。但它們的共同點是,當堆肥堆變得更熱時,它產生熱量的速度更快;當原子彈產生更多的中子時,它產生中子的速度也更快。所以這就得到了連鎖反應的概念。我相信它理解這兩種連鎖反應,它使用這種理解將所有這些信息壓縮到它的權重中。如果它確實在這樣做,那么它將會對我們還沒有看到的所有事物進行同樣的操作。這就是創造力的來源 —— 看到這些表面上截然不同的事物之間的類比關系。
所以我認為,當 GPT-4 變得更大時,它最終會變得非常有創造力。那種認為它只是在重復學習過的東西,只是把已經學過的內容粘貼在一起的想法,是完全錯誤的。它會比人類更有創造力。
Hellermark:你說它不僅僅會重復我們迄今為止所開發的人類知識,還可能取得更大的進步。我認為我們目前還沒有充分看到這一點。我們已經開始看到一些例子,但在更大范圍內,它還停留在當前的科學水平。你認為怎樣才能讓它超越這個水平?
Hinton:我們在更有限的情況下看到過這種情況。比如在 AlphaGo 和李世石的那場著名比賽中,在第 37 步,AlphaGo 下了一步所有專家都認為肯定是錯誤的棋,但后來他們意識到這是一步絕妙的棋。這就是在有限領域內的創造性。我認為隨著模型規模的擴大,我們會看到更多這樣的情況。
Hellermark:AlphaGo 的不同之處在于它使用了強化學習,這使它能夠超越當前狀態。它從模仿學習開始,觀察人類如何下棋,然后通過自我對弈,發展得遠遠超出了那個水平。你認為這是標準組件缺失的部分嗎?
Hinton:我認為這可能是缺失的部分。AlphaGo 和 AlphaZero 中的自我對弈是它們能夠做出這些創造性舉動的很大一部分原因。但我不認為這是完全必要的。
有一個很久以前的實驗,你訓練一個神經網絡來識別手寫數字。我非常喜歡這個例子。你給它的訓練數據中有一半的標簽是錯誤的。問題是它能學得多好?而且這些錯誤標簽是固定的,每次看到特定樣本時它都與相同的錯誤標簽配對,所以它不能通過多次看到相同樣本但標簽有時正確有時錯誤來平均化這些錯誤。訓練數據中有 50% 的錯誤標簽,但如果你用反向傳播訓練神經網絡,它的錯誤率可以降到 5% 以下。換句話說,即使從標注錯誤的數據中,它也能得到更好的結果。它能夠識別出訓練數據中的錯誤。這就像聰明的學生比他們的導師更聰明。導師告訴他們很多東西,但有一半的信息是錯誤的,學生能分辨出哪些是錯的,只聽正確的那一半,最后比導師更聰明。所以這些大規模神經網絡實際上能夠做到的比它們的訓練數據更好,大多數人并沒有意識到這一點。
Hellermark:那么你認為這些模型將如何將推理融入其中呢?我的意思是,一種方法是在模型之上添加啟發式方法,現在很多研究都在這樣做,你可以在模型中加入一些思考,將推理反饋給模型本身。另一種方式是擴大模型規模。你的直覺是怎么做?
Hinton:我的直覺是,隨著我們擴大這些模型的規模,它們會變得更擅長推理。如果你問人們是如何工作的,大致說來,我們有這些直覺,我們可以使用推理,我們使用推理來糾正我們的直覺。當然,在推理過程中我們也會用到直覺。但如果推理的結論與我們的直覺沖突,我們會意識到需要改變直覺。這很像在 AlphaGo 或 AlphaZero 中,你有一個評估函數,它只是看著棋盤說,這對我有多好?但當你進行蒙特卡洛模擬時,你就會得到一個更準確的想法,從而修正你的評估函數。所以你可以訓練它,讓它同意推理的結果。
我認為這些大型語言模型必須開始這樣做。它們必須開始訓練自己的原始直覺,通過推理來判斷下一步應該做什么,并意識到這是不對的。這樣,它們就能獲得更多的訓練數據,而不僅僅是模仿人們的行為。這正是 AlphaGo 能夠構想出這個創造性的第 37 步的原因。它有更多的訓練數據,因為它是通過推理來確定下一步應該怎么走的。
模型能從語言中學到很多,但從多模態中學習會更容易
Hellermark:你如何看待多模態?當我們引入圖像、視頻和聲音時,你認為這將如何改變模型?
Hinton:我認為這會有很大的改變。我認為這會讓模型在理解空間事物方面做得更好。例如,僅從語言來理解一些空間事物相當困難,盡管令人驚訝的是,即使在成為多模態模型之前,GPT-4 也能做到這一點。但是當 GPT-4 成為多模態模型時,如果你同時讓它做視覺和觸覺,伸手去抓取東西,它會更了解物體。
所以盡管你可以從語言中學到很多東西,但如果是多模態,學習會更容易。實際上,你需要的語言就更少了。例如,有很多 YouTube 視頻可以預測下一個畫面。所以我認為多模態模型顯然會占據主導地位。這可以獲得更多數據,需要的語言會更少。所以這是一個哲學觀點,你可以僅從語言中學到一個很好的模型,但從多模態系統中學到它要容易得多。
Hellermark:你認為這將如何影響模型的推理?
Hinton:我認為這會讓模型在空間推理方面做得更好。例如,關于如果拿起物體會發生什么的推理。如果真的嘗試拿起物體,你會得到各種各樣的訓練數據。
關于「認知」的三種觀點
Hellermark:你認為人類大腦進化到能夠很好地使用語言,還是語言進化到能夠很好地與人類大腦配合?
Hinton:關于語言是否進化到與大腦配合,或者大腦是否進化到與語言配合的問題,我認為這是一個非常好的問題。我認為兩者都發生了。
我曾經認為我們會在根本不需要語言的情況下進行很多認知活動,但現在我改變主意了。我舉三種關于語言以及它與認知的關系的觀點。
第一種,老式象征性觀點,即認知由一些清理過的邏輯語言中的符號字符串組成,沒有歧義,且應用推理規則。因此認知只是對像語言符號字符串這樣的東西進行符號操作。這是一種極端觀點。
另一種極端觀點是:一旦進入大腦內部,一切都是向量。符號進來,你將這些符號轉換為大型向量,所有的洞察都是用大型向量完成的。如果你想產生輸出,你將再次產生符號。所以在 2014 年的機器翻譯中有一個時刻,人們使用循環神經網絡,單詞會不斷進來,它們會有一個隱藏狀態,并在這個隱藏狀態中不斷累積信息。所以當到達句子的結尾時,就有一個大的隱藏向量,捕捉了句子的含義。然后它可以用來產生另一種語言中的單詞,這被稱為思維向量。這是關于語言的第二種觀點。
還有第三種觀點,也是我現在相信的,即大腦將這些符號轉換為嵌入,并使用多層嵌入。所以你將得到非常豐富的嵌入。但嵌入仍然與符號相關聯,從這個意義上講,符號有其對應的大向量。這些向量相互作用產生下一個詞的符號的向量。因此理解是指知道如何將符號轉換為向量,以及向量的元素如何相互作用以預測下一個符號的向量。這就是大型語言模型以及我們的大腦中的理解方式。你保留符號,但將其解釋為大向量。所有的工作以及所有的知識都在于使用哪些向量以及這些向量的元素如何相互作用,而不是在符號規則中。但這并不是說你完全擺脫了符號,而是說將符號轉換為大向量,但保留符號的表面結構。這就是大型語言模型的運作方式。現在我認為這似乎也是人類思維一個更合理的模型。
「黃仁勛送了我一塊 GPU」
Hellermark:您是最早想到使用 GPU 的人之一。我知道 Jensen(黃仁勛)因此而愛您。早在 2009 年,您就提到您告訴 Jensen,使用 GPU 對于訓練神經網絡來說可能是一個非常好的主意。
Hinton:實際上,2006 年左右,我有一個名叫 Richard Szeliski 的研究生。他是一個非常優秀的計算機視覺專家。我在一次會議上和他討論,他說應該考慮使用圖形處理單元,因為它們非常擅長矩陣乘法,而您所做的事情基本上就是矩陣乘法。
所以我思考了一段時間。然后我們了解到 Tesla 系統配有四個 GPU。最初我們嘗試使用游戲 GPU,發現它們使運行速度快了 30 倍。然后我們買了一個帶有四個 GPU 的 Tesla 系統,我們在它上面做了語音處理,效果非常好。
然后在 2009 年,我在 NIPS 上做了一個演講,我告訴 1000 名機器學習研究人員,你們都應該去買英偉達的 GPU。GPU 是未來。你們需要 GPU 來進行機器學習。然后我實際上給英偉達發了郵件,說我告訴了 1000 名機器學習研究人員去買你們的產品,你們能免費送我一個嗎?他們沒有說不。實際上,他們沒有回復。但后來當我告訴 Jensen 這個故事時,他免費送給我一個。
數字系統有人類無法比擬的優勢
Hellermark:那太好了。我認為有趣的是 GPU 的演變與這個領域的發展是同步的。你認為我們接下來在計算方面應該走向何方?
Hinton:我在谷歌的最后幾年,我一直在思考如何嘗試進行模擬計算。即不是使用像一兆瓦這樣龐大的電力,而是使用像大腦一樣的 30 瓦電力,就可以在模擬硬件中運行大型語言模型。
這一點我從未實現過。但我開始真正欣賞數字計算。如果你要使用低功耗模擬計算,每個硬件都會有所不同,要利用硬件的特定屬性。這就是發生在人類身上的事情。我們所有人的大腦都不同,所以我們不能把你大腦中的權重拿出來放進我的大腦。硬件是不同的。單個神經元的確切屬性是不同的。
當我們去世后,我們的知識和經驗大部分會隨之消失,因為人類傳遞知識的方式通常涉及語言交流,這種方式相對效率較低。然而,數字系統則不同,它們可以通過共享權重(即學習過的數據和參數)來傳遞知識。一旦一個數字系統學習了某些知識,這些權重就可以被保存并在其他任何相同配置的系統中重用。這種方式不僅保證了知識的精確復制,還極大提高了學習和知識共享的效率。因此,數字系統在共享和擴散知識方面,具有遠超人類的能力。
需要得到重視的快速權重
Hellermark:很多已經在實際應用中部署的人工智能系統的理念源于早期的神經科學理論,這些理念已經存在了很長時間。現在的問題是,還有哪些未被充分利用的神經科學理論可以應用到我們開發的系統中?這需要我們探索神經科學中的未被充分挖掘的理論,將它們轉化為技術,以推動人工智能技術的進一步發展。
Hinton:在人工智能與神經科學的對比中,一個我們仍需追趕的重要方面是變化的時間尺度。在幾乎所有的神經網絡中,都存在快速時間尺度的活動變化 —— 輸入數據后,嵌入向量會發生變化。而另一種是慢速時間尺度,即權重的變化,這關系到長期學習。在大腦中也有這兩個時間尺度。
例如,如果我突然說出一個意外的詞,比如黃瓜,五分鐘后你戴上耳機,在嘈雜的環境中,如果有很輕微的話語聲,你會更容易識別出黃瓜這個詞,因為我五分鐘前說過它了。那么這個知識存儲在哪里呢?在大腦中。這種認知顯然是暫時性的突觸改變所保存的,而不是特定的神經元來保存 —— 我們的大腦中并沒有足夠多的神經元來做這種事。這種暫時性的權重改變,我稱之為快速權重,在我們目前的神經模型中并沒有應用。
我們之所以沒有在模型中使用快速權重,是因為如果權重的暫時性變化依賴于輸入數據,那么我們就無法同時處理多種不同的情況。目前,我們通常會將多種不同的數據批量堆疊在一起,并行處理,因為這樣可以進行矩陣乘法,效率更高。正是這種效率的需求阻礙了我們使用快速權重。然而,大腦明顯利用快速權重來進行臨時記憶存儲,并且可以通過這種方式實現許多我們目前未能做到的功能。
我曾對像 GraphCore(一家英國半導體公司,開發人工智能和機器學習加速器,它引入了大規模并行智能處理單元,在處理器內保存完整的機器學習模型)這樣的技術抱有很大希望,如果它們采取序列方式并只進行在線學習,那么它們就能使用快速權重。但這種方法尚未取得成功。我認為,當人們開始使用導電性(conductances)作為權重時,這種方法最終會取得成功。
喬姆斯基的部分理論是無稽之談
Hellermark:了解這些模型的工作原理以及大腦的工作原理對你的思考方式有何影響?
Hinton:我認為有很大的影響,這是一個相當抽象的水平。一直以來,在 AI 領域,曾經有一個廣泛的觀點認為,僅僅依賴大量訓練數據讓一個龐大的隨機神經網絡去學習復雜事物是不可能的。如果你和統計學家、語言學家或大多數人工智能領域的人交流,他們會說這只是一個白日夢,認為沒有大規模的架構,就無法學習到真正復雜的知識。
但實際情況完全顛覆了這種觀點。事實證明,你可以通過大量數據訓練一個龐大的隨機神經網絡,利用隨機梯度下降方法不斷調整權重,從而學習到復雜的事物。這一發現對我們理解大腦的結構具有重要意義,表明大腦并不需要天生就具有所有的結構性知識。當然,大腦確實具有許多先天結構,但它顯然不需要依賴這些結構來學習那些容易獲得的知識。
這種觀點也挑戰了喬姆斯基的語言學理論,即復雜的語言學習必須依賴于先天就編織在大腦中的結構,并且要等待這種結構成熟。這種想法現在顯然是無稽之談。
Hellermark:我相信喬姆斯基會感謝你稱他的觀點為無稽之談。
智能系統也能擁有情感
Hellermark:你認為要使這些模型更有效地模擬人類的意識,需要做些什么?
Hinton:我認為它們也可以出現情感(feeling)。我們常常傾向于使用「內部劇場模型」來解釋感知(perception)和情感。比如我說我想打 Gary 的鼻子,讓我們試著把它從內部劇場模型的概念中抽象出來。這通常被解釋為一種內部情感體驗。然而,這種模型可能并不準確。實際上,當我表達這種情感時,我的真實意圖是,如果不是因為我的前額葉的抑制作用,我可能真的會采取這樣的行動。因此,所謂的情感,實際上是我們在沒有限制的情況下可能會采取的行動。
事實上,這些感覺并非人類獨有,機器人或其他智能系統也有可能體驗情感。例如,1973 年在愛丁堡,我見過一個機器人表現出情感。這個機器人有兩個抓手,可以在綠色毛氈上組裝玩具汽車,只要將零件分開放置。但如果你把零件堆在一起,由于它的視覺系統不夠好,無法分辨情況,它會顯得困惑并將零件擊散,然后再進行組裝。如果這種行為發生在人類身上,我們可能會認為他因為不理解情況而感到惱怒,并因此摧毀了它。
Hellermark:這讓人印象深刻。你之前說過,你將人類和大型語言模型描述為類比機器(analogy machines)。你認為你一生中發現的最有力的類比是什么?
Hinton:在我的一生中,一個對我影響很大的、雖然有些牽強的類比是宗教信仰與符號處理之間的相似性。我出生在一個無神論家庭,當我還很小的時候,上學時首次接觸到宗教信仰,對我來說那完全是無稽之談,直到現在我仍然這么認為。當我了解到符號處理被用來解釋人們的行為時,我覺得這和宗教信仰一樣荒謬。但現在我不再認為它完全是無稽之談,因為我確實認為我們進行了符號處理,只不過我們是通過為這些符號賦予嵌入向量來處理的。但我們實際上是在進行符號處理,只是方式與人們原本想象的完全不同。人們曾認為符號處理只是簡單地匹配符號,一個符號只有一個屬性:要么與另一個符號相同,要么不相同。我們根本不是這樣做的。我們利用上下文為符號提供嵌入向量,然后利用這些嵌入向量的組件之間的相互作用來進行思考。
但谷歌有一位非常優秀的研究人員,名叫 Fernando Pereira,他曾表示我們確實有符號推理。我們擁有的唯一符號是自然語言。自然語言是一種符號語言,我們用它進行推理。我現在相信了。
對于問題保持懷疑,然后證明它
Hellermark:你已經完成了計算機科學史上一些最有意義的研究。能否向我們介紹一下,例如,如何挑選正確的問題進行研究?
Hinton:我和我的學生做了很多最有意義的事情。這主要歸功于與學生的良好合作以及我挑選優秀學生的能力。這是因為在上世紀 70 年代、80 年代、90 年代以及進入 21 世紀,很少有人研究神經網絡。所以從事神經網絡研究的少數人能夠挑選到最優秀的學生,還需要依靠一點運氣。
但我挑選研究問題的方式基本上是這樣的:你知道,當科學家談論他們的工作方式時,他們會有一些關于工作方式的理論,這些理論可能與事實并無太大關聯。但我的理論是,我會尋找一個大家都認同的觀點,但感覺上似乎有些不對勁的地方。通常是有一種微妙的直覺,覺得某處有問題,只是有一點點感覺不對勁。然后我就會研究這個問題,試圖詳細解釋為什么它是錯誤的。也許我能用一個小型計算機程序做一個小演示,顯示它的工作方式并不像你可能預期的那樣。
讓我舉一個例子。大多數人認為,如果你給神經網絡添加噪聲,它的效果會變差。實際上,我們知道如果這樣做,它的泛化能力會更好。這可以通過一個簡單的例子來證明,這就是計算機模擬的好處。你可以展示你原先的想法 —— 添加噪聲會使效果變差,讓一半的神經元停止工作會使其效果變差 —— 在短期內確實如此。但如果你像這樣訓練它,最終它的效果會更好。你可以通過一個小型計算機程序來演示這一點,然后你可以仔細思考為什么會這樣。這就是我的工作方法:找到一個聽起來可疑的東西,然后研究它,看看你是否能用一個簡單的演示來說明它為什么是錯誤的。
Hinton 想繼續研究的未解之謎:大腦運作方式
Hellermark:最近,什么東西引起了你的懷疑?
Hinton:我們不使用快速權重,這看起來有些問題。我們只有這兩種時間尺度,這顯然是錯誤的。這與大腦的運作方式完全不同。從長遠來看,我認為我們將需要更多的時間尺度。
Hellermark:如果你現在帶領一組學生,他們來找你,說到我們之前討論過的問題,你所在的領域中最重要的問題是什么?你會建議他們接下來研究并工作什么?我們談到了推理的時間尺度。你建議的最優先的問題是什么?
Hinton:對我來說,現在的問題和我過去大約 30 年一直關注的問題相同,那就是大腦是否進行反向傳播?我相信大腦在獲取梯度。如果你沒有獲取到梯度,你的學習效果會比獲取到梯度時差很多。但大腦是如何獲取梯度的?它是否在實現某種近似版本的反向傳播,或者是采用了一種完全不同的技術?這是一個很大的未解之謎。如果我繼續從事研究,這就是我將要研究的內容。
Hellermark:當你現在回顧你的職業生涯時,你在很多事情上都是正確的。但假如當時用很少的時間來決定的方向后來被證明是錯誤的?
Hinton:這里有兩個單獨的問題。1、你做錯了什么?2、你希望自己少花點時間嗎?我認為我對玻爾茲曼機的看法是錯誤的,我很高興我在它上面花了很長時間。關于如何獲得梯度,有比反向傳播更美麗的理論,它只是普通且合理的,它只是一個章節。這兩個機制都很聰明,這是一種非常有趣的獲取梯度的方法。我希望大腦是這樣運作的,但我認為事實并非如此。
Hellermark:您是否花了很多時間想象系統開發后會發生什么?如果我們能讓這些系統運行得很好,我們就可以實現教育的民主化,我們可以讓知識更容易獲得,我們可以解決醫學上的一些棘手問題。或者對你來說更重要的是了解大腦運行的機制?
Hinton:是的,我確實覺得科學家應該做那些能幫助社會的事情。但實際上,當你的研究被好奇心驅動時,你做不到最好的研究。你只需要理解一些事情。更近地,我意識到這些東西可能會造成很多傷害,也會帶來很多好處。我變得更加關注它們對社會的影響。但這不是動機。我只想知道大腦是如何學會做事的?那就是我想知道的。而我在試錯的過程中,我們得到了一些不錯的工程結果。
Hellermark:是的,這對世界來說是一個有益的失敗。如果從可能帶來巨大正面影響的角度來看,你認為最有前景的應用是什么?
Hinton:我認為醫療保健顯然是一個大領域。在醫療方面,社會可以吸收的數量幾乎沒有限制。對一個老人來說,他們可能需要全職的五位醫生。所以當 AI 在做事上比人類更好時,你會希望你在這些領域出現更多的資源 —— 如果每個人都有三位醫生,那就太好了。我們將達到那個地步。
還有新的工程,開發新材料,例如更好的太陽能電池板、室溫超導或僅僅是理解身體的工作原理。這些都會有很大的影響力。我擔心的是壞人利用它們做壞事。
Hellermark:你有沒有擔心過,放慢這個領域的發展速度也可能會放慢積極的一面?
Hinton:當然。我認為這個領域不太可能放慢速度,部分原因是它是國際性的。如果一個國家放慢速度,其他國家不會放慢速度。之前有一個提議說我們應該暫停大模型研究六個月。我沒有簽名,因為我認為這永遠不會發生。我可能應該簽字,因為即使它永遠不會發生,它也表明了一個觀點。有時為了表明立場而使用它也是好事。但我不認為我們會放慢速度。
Hellermark:你認為擁有(ChatGPT)這樣的助手將如何影響 AI 研究過程?
Hinton:我認為它將使 AI 研究變得更加高效。當你有這些助手來幫助你編程,也幫助你思考問題,可能會在方程式上幫助你很多。
挑選學生,更看重直覺
Hellermark:你有沒有深思熟慮過選擇人才的過程?這對你來說大多是憑直覺的嗎?就像當 Ilya Sutskever 出現在門口時,你會覺得「這是一個聰明人,讓我們一起工作吧」。
Hinton:對于選擇人才,有時候是很明顯的。在交談后不久,你就能看出他非常聰明。進一步交談你會發現,他顯然非常聰明,并且在數學上有很好的直覺。所以這是輕而易舉的。
還有一次我在 NIPS 會議上,我們有一個 Poster,有人走過來問我們關于 Poster 的問題。他問的每個問題都是對我們做錯了什么的深刻洞察。五分鐘后,我給了他一個博士后職位。那個人是 David McKay,他非常聰明。他去世了,這非常令人難過,但他顯然是你想要的那種人。
其他時候就不那么明顯了。我學到的一件事是,人是不同的。不僅僅有一種類型的好學生。有些學生可能不那么有創造力,但從技術角度來看非常強大,可以讓任何事情都運轉起來。還有一些學生技術上不那么強,但非常有創造力。當然,你想要的是兩者兼備的人,但你并不總是能得到。但我認為實際上在實驗室里,你需要各種不同類型的研究生。但我還是跟著我的直覺走,有時你和某人交談,他們真的非常聰明,他們就是能跟得上思路,那就是你想要的人。
Hellermark:你認為你對有些人有更好的直覺的原因是什么?或者說你如何培養你的直覺?
Hinton:我認為部分原因是,他們不會接受無意義的東西。有個獲得糟糕直覺的方法,那就是相信你被告知的一切,那太致命了。你必須能夠... 我認為有些人是這樣做的,他們對理解現實有一個完整的框架。當有人告訴他們某些事情時,他們會試圖弄清楚這如何適應他們的框架。如果不適合,他們就拒絕它。這是一個非常好的策略。
試圖吸收他們被告知的一切的人最終會得到一個非常模糊的框架。他們可以相信一切,那是沒有用的。所以我認為實際上擁有一個對世界的堅定觀點,并試圖整合輸入的事實以適應你的觀點,這可能會導致深刻的宗教信仰和致命的缺陷等等,像我對玻爾茲曼機的信念,但我認為這是正確的。
如果你有可靠的好直覺,你應該信任它們。如果你的直覺不好,怎么做都沒用了。所以你不妨信任它們。
全力以赴,用多模態數據訓練更大的模型
Hellermark:這是一個非常好的觀點。當你看正在進行的研究類型時,你認為我們是不是在把所有的雞蛋放在一個籃子里。我們是否應該在領域內更多樣化我們的想法?還是說你認為這是最有希望的方向,所以我們應該全力以赴?
Hinton:我認為擁有大型模型并在多模態數據上訓練它們,即使只是為了預測下一個詞,這是一個非常有希望的方法,我們應該全力以赴。顯然,現在有很多人在做這件事,還有很多人在做一些看似瘋狂的事情,這是好事。但我認為讓大多數人走這條路是沒問題的,因為它運作得非常好。
Hellermark:你認為學習算法真的那么重要嗎,還是說規模更重要?是否有數百萬種方法可以讓我們達到人類級別的智能,還是有一些我們需要發現的特定方法?
Hinton:是的,關于特定的學習算法是否非常重要,是否有很多學習算法可以完成這項工作,我不知道答案。但在我看來,反向傳播在某種意義上是正確的事情。獲得梯度,這樣你就可以改變參數讓它工作得更好,這似乎是正確的事情,而且它取得了驚人的成功。可能還有其他的學習算法,它們以不同的方式獲得相同的梯度,并且也能工作。我認為這都是開放的,并且是一個非常有趣的問題,即是否有其他你可以試圖最大化的東西,會給你好的系統。也許大腦正在這樣做,因為它很容易。反向傳播在某種意義上是正確的事情,我們知道這樣做非常有效。
一生最自豪的成就:玻爾茲曼機的學習算法
Hellermark:最后一個問題。回顧你幾十年的研究,你最自豪的是什么?是學生?還是研究?
Hinton:玻爾茲曼機的學習算法。它非常優雅,可能在實踐中沒有希望,但這是我最享受的事情,我與 Terry 一起開發了它,這是我最自豪的,即使它是錯誤的。
論文鏈接:https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf
Hellermark:你現在花最多時間思考的問題是什么?
Hinton:在 Netflix 上下個劇該看什么。
本文轉自 機器之心 ,作者:機器之心
原文鏈接:??https://mp.weixin.qq.com/s/OydltjpVwsQ7hNBH6hq_Og??
