ChatGPT們的幕后先驅,斯坦福教授Manning的四十年NLP生涯
今年 1 月份,2024 年度 IEEE 馮諾伊曼獎項結果正式公布,斯坦福大學語言學和計算機科學教授、AI 學者克里斯托弗?曼寧(Christopher Manning)獲獎。
曼寧教授是將深度學習應用于 NLP 領域的早期領軍人物,在詞向量 GloVe 模型、注意力、機器翻譯、問題解答、自監(jiān)督模型預訓練、樹遞歸神經(jīng)網(wǎng)絡、機器推理、依存解析、情感分析和總結等方面都有著名的研究。他還專注于解析、自然語言推理和多語言語言處理的計算語言學方法,目標是讓計算機能夠智能地處理、理解和生成人類語言。
可以說,在過去的四十多年里,他憑借對語言的終身熱愛,一直在探索如何彌合人類和計算機的語言鴻溝。
此外,他還是斯坦福大學 Human-Centered 人工智能研究所(HAI)的共同創(chuàng)始人、以及 2024 年 IEEE John von Neumann 獎章獲得者。
2024 年,曼寧教授獲得由 IBM 贊助的 IEEE John von Neumann 獎章
最近,他所在的斯坦福大學發(fā)布了一篇專題文章,介紹了他的學術探索之路。
NLP 領域的先驅
多年之后,曼寧教授仍記得自己想要研究語言的那一刻,并自述了當時對語言學的啟蒙過程:
「有一天,在高中英語課上,我偶然發(fā)現(xiàn)了我老師的一本書,這本書涉及人類語言結構和語言學,」他說。「我開始閱讀它,了解到了國際音標,它提供了一套用于表示任何語言發(fā)音的通用符號。當時,我已經(jīng)花了很多個小時學習英語單詞的拼寫,為了拼寫考試,其中的許多單詞在學習時都是很隨意且奇怪的。此外,我還學習了一些法語和拉丁語。這是我當時看到的第一件能夠捕捉到語言學指導思想的事物,通過研究人類語言的共性并嘗試在所有人類語言中產(chǎn)生一種共同的科學,是可以實現(xiàn)有用成果的。這也是我第一次開始作為本科生學習語言學的原因。」
四十年后,曼寧教授憑借對人類語言的持續(xù)熱愛,以及先驅式地致力于幫助計算機學習、理解和生成語言,他成為自然語言處理(NLP)和機器學習領域的著名開創(chuàng)性人物。
斯坦福大學語言學和計算機科學教授 Dan Jurafsky 對曼寧教授的先驅生涯評價道:
「我會稱 Chris 為一個極其有影響力的人物,在自然語言處理領域可能是最有影響力的人物。他絕對是該領域獲得引用最多的人,幾十年的研究影響了包括我們最近的模型在內的一切。每個自然語言處理的學者都知道他的作品。」
斯坦福大學語言學和計算機科學教授 Dan Jurafsky 與曼寧教授同時授業(yè)自然語言處理課程的合影。
曼寧教授在自然語言處理學術領域中的論文引用和 H-index
預見機器學習的轉變
曼寧出生在澳大利亞昆士蘭州的班達伯格市,他的父親在 Fairymead 糖廠工作,負責維護、設計和建造機械。到了上高中時,全家已經(jīng)搬到了澳大利亞首都堪培拉,他在那里得到了他的第一臺計算機:先是借用了一臺 TRS-80,最終得到了一臺 Commodore Amiga。
在 80 年代中期,作為一名在澳大利亞國立大學(ANU)學習語言學、計算機科學和數(shù)學的本科生,曼寧已經(jīng)對這些領域的交叉點感到興奮,并逐漸確信:早期的 NLP 時代,即手寫詞匯表和語法規(guī)則的時代,即將結束。
當曼寧教授回憶起當時場景時,他說:「我開始相信,正如我一直以來所相信的,我們需要做的是找到一種方法讓計算機學習東西,而不是為它們手寫出語法、規(guī)則和詞匯表,我們應該讓它們從語言數(shù)據(jù)中學習。最終,在我看來,我應該嘗試了解更多關于計算語言學 / 自然語言處理的知識,而在那時,美國正是去學習這些知識的地方。」
通過實踐學習
在日本短暫教授英語后,曼寧教授接受了澳大利亞國立大學(ANU)語言學導師 Avery Andrews 的建議,申請了斯坦福大學。
他為了應對當時該校并未提供自然語言處理(NLP)的課程這一情況,選擇作為語言學博士生入學,研究人類語言的句法,同時開始在附近的 Xerox PARC 工作,在那里他學習了計算語言學,并與一群開始使用數(shù)字文本進行統(tǒng)計 NLP 研究的人一起工作。
值得注意的是:這種數(shù)字文本當時才剛剛開始出現(xiàn)。
遠在萬維網(wǎng)出現(xiàn)之前,關于如何利用文本數(shù)據(jù)進行語言學研究,曼寧教授提供了當時他的視角:
「雖然這是在萬維網(wǎng)之前的事情,但你開始能夠獲得像報紙文章、議會記錄和法律材料這樣的文本,所以你可以找到幾百萬字的文本,計算機中心會將這些數(shù)據(jù)寫入 10.5 英寸的磁帶,然后將這些磁帶物理運送給他們的客戶。像施樂(Xerox、IBM 和 AT&T 這樣從事計算語言學的公司可以從新聞機構購買這些磁帶,或者從允許他們使用數(shù)據(jù)的商業(yè)客戶那里獲得這些磁帶的訪問權。這真的很令人興奮,因為這意味著我們第一次可以通過實際擁有大量文本數(shù)據(jù)來進行語言學研究,我們可以搜索這些數(shù)據(jù)中的模式,嘗試自動學習人類語言的結構。」
在這段時間里,他對 1980 年代末開始的關于概率機器學習模型的新工作也感到著迷,并洞察到了其潛力。這些統(tǒng)計模型是當今機器學習的基本組成部分,它們考慮了現(xiàn)實世界數(shù)據(jù)固有的不確定性,并將之納入預測中,從而允許對復雜系統(tǒng)有更準確的理解。
曼寧教授認為他成功的關鍵是愿意迅速投入到他認為將成功的重要新方法中。雖然他不是第一個看到從大量文本數(shù)據(jù)中學習并構建這些語言的概率模型的潛力的人,但由于在職業(yè)生涯的早期就參與了這項工作,他才得以達成今天的成就。
關鍵的早期工作
完成博士學位后,他成為卡內基梅隆大學(Carnegie Mellon University)第一位教授統(tǒng)計 NLP 的教員,在兩年后選擇與妻子 Jane 一起返回澳大利亞,在悉尼大學教授語言學。
然而,到了 1999 年,他作為助理教授回到了斯坦福大學,同時在語言學和計算機科學系任職。1980 年代中期就已經(jīng)被積極探索的人工神經(jīng)網(wǎng)絡到了 2010 年,再次變得重要,曼寧教授再次擁抱了新技術的前景。
他強烈主張可以在自然語言處理中使用這些神經(jīng)網(wǎng)絡來理解句子,包括它們的結構和含義,最終曼寧教授和他的學生真的推動了這個想法,并成為這些神經(jīng)網(wǎng)絡在自然語言理解發(fā)展和使用中的關鍵。
在當時,他開始認真地使用這些網(wǎng)絡來建模語言,著手構建能夠解決語言理解問題的系統(tǒng),比如判斷某人所說的是積極的還是消極的,并最終做了很多關于使用神經(jīng)網(wǎng)絡方法學習人類語言的早期工作,這涉及到讓這些模型理解、生成和翻譯語言。
曼寧教授在 2010 年代關于將單詞表示為實數(shù)向量,以及使用簡單的注意力函數(shù)對單詞之間的關系進行建模的工作,成為了今天使用的像 ChatGPT 這樣的大型語言模型的前置基礎。
關于他對計算機科學的巨大貢獻,斯坦福大學計算機科學教授 Percy Liang 表示:「今天,我們顯然應該在 NLP 中使用深度學習,但在 2010 年代初,這個想法遭到了激烈的抵制。但他仍做了重要的早期工作,展示了深度學習如何比之前需要大量特征工程的機器學習模型工作得更好。這最終促使了我們今天認為理所當然的現(xiàn)代 NLP 系統(tǒng)的發(fā)展。Chris 有遠見,思考了它最終將如何具有變革性。」
創(chuàng)建可訪問的 NLP 軟件
曼寧教授至今的其他重要貢獻包括:一系列幫助定義計算語言學領域的教科書、在 YouTube 上的在線 CS224N 視頻課程、一個提供跨不同語言的一致性語法注釋的框架 ---Universal Dependencies、為理解語言結構在語言處理中的作用的持續(xù)且必要的研究、以及致力于使 NLP 軟件對所有人可訪問的早期承諾。
圖注;斯坦福 Online CS224N NLP 視頻課程
視頻課程鏈接:https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
斯坦福大學語言學和計算機科學教授 Jurafsky 對在曼寧教授在神經(jīng)網(wǎng)絡方面的研究表示:「現(xiàn)在人們可以簡單地去網(wǎng)上,下載一個軟件,然后構建一個神經(jīng)網(wǎng)絡。但是 20 或 30 年前,這并不是常態(tài)。Chris 和他的實驗室在幾十年前就建立了公開可訪問的 NLP 軟件庫,并將其在線發(fā)布,并且一直推動這種方式成為世界的標準。今天,開源 NLP 軟件的概念已經(jīng)成為常態(tài)。」
目前曼寧教授也表示自己將繼續(xù)努力創(chuàng)建具有對世界及其多種語言更深入理解的深度學習模型。
因為對他來說,人類語言是一件大眾仍然不真正理解的驚人事物。但令人驚訝的是,嬰兒不知怎么就弄明白了,小孩子最終能夠從大約 5000 萬個人類語言詞匯中學會成為優(yōu)秀的語言使用者。
而他們給最好的大語言模型展示了數(shù)萬億個詞匯。從結果上來看,人類仍然更聰明。這是一個迷人的問題,構建計算機模型似乎是開始思考這個問題的一個富有成效的窗口。