10年前,word2vec經典論文就預定了今天的NeurIPS時間檢驗獎
NeurIPS 是當前全球最負盛名的 AI 學術會議之一,全稱是 Neural Information Processing Systems,神經信息處理系統大會,通常在每年 12 月由 NeurIPS 基金會主辦。大會討論的內容包含深度學習、計算機視覺、大規模機器學習、學習理論、優化、稀疏理論等眾多細分領域。
12 月 10 日,NeurIPS 2023 在美國路易斯安那州新奧爾良市拉開帷幕。根據官網博客公布的數據,今年大會收到的論文投稿數量創造了新紀錄,達到 13321 篇,由 1100 名領域主席、100 名高級領域主席和 396 名倫理審稿人審查,其中 3584 篇論文被接收。
剛剛,NeurIPS 官方公布了 2023 年度的獲獎論文,包括時間檢驗獎、兩篇杰出論文、兩篇杰出論文 runner-up、一個杰出數據集和一個杰出基準,其中大部分論文都是圍繞大型語言模型(LLM)展開的工作。值得注意的是,十年前發布的 word2vec 相關論文摘得了時間檢驗獎,可謂實至名歸。
以下是獲獎論文的具體信息。
時間檢驗獎
今年的時間檢驗獎頒給了十年前的 NeurIPS 論文「Distributed Representations of Words and Phrases and their Compositionality」。
這篇論文由當時都還在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 等人撰寫,被引量超過 4 萬次。
論文地址:https://arxiv.org/pdf/1310.4546.pdf
NeurIPS 官方給出的頒獎理由是:這項工作引入了開創性的詞嵌入技術 word2vec,展示了從大量非結構化文本中學習的能力,推動了自然語言處理新時代的到來。
在機器之心原創技術分析文章《從 word2vec 開始,說下 GPT 龐大的家族系譜》中,我們曾介紹過 word2vec 的重要性。Word2Vec 和 Glove 等詞嵌入方法可以說是當前最為熱門的 GPT 家族老祖級別的研究,引領了后續龐大的 NLP「家族集團」,也為整個 NLP 技術的蓬勃發展奠定了堅實的基礎。
從 Word2Vec 等詞嵌入技術開始到后續的重要模型
機器之心整理的重要 NLP 模型發展脈絡
所以說,在大模型備受關注的 2023 年,Word2vec 獲得 NeurIPS 的時間檢驗獎也實至名歸了。
這里補充一句,其實提到 Word2vec,首篇論文應該是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。而投稿到當年 NeurIPS 這篇「Distributed Representations of Words and Phrases and their Compositionality」算是真正讓 Word2vec 被廣泛應用的改進論文。
如果有讀者想要詳細了解、學習 Word2vec,也可以查閱機器之心原創技術分析文章《詞嵌入的經典方法,六篇論文遍歷 Word2vec 的另類應用》。
Main Track 杰出論文獎
獲獎論文 1:Privacy Auditing with One (1) Training Run
- 論文地址:https://arxiv.org/abs/2305.08846
- 機構:Google
摘要:本文提出了一種通過單次訓練來檢查差分隱私機器學習系統的方案。該方案利用了差分隱私機器學習系統能夠獨立添加或刪除多個訓練示例的并行性。研究者們從這一點入手,分析了差分隱私和統計泛化的聯系,從而避免了群體隱私的成本。這種方案對算法的假設要求極低,可應用于黑盒或白盒環境。研究者們在 DP-SGD 中運用了這項方案,以檢驗其有效性。在 DP-SGD 中,本文中提出的框架只需要訓練一個模型,就能實現有意義的經驗隱私下界。相比之下,標準方法需要訓練數百個模型。
獲獎論文 2:Are Emergent Abilities of Large Language Models a Mirage?
- 論文地址:https://arxiv.org/abs/2304.15004
- 機構:斯坦福大學
摘要:最近有研究稱,大語言模型「涌現」出了在小規模模型中不存在的能力。大模型「涌現」能力之所以吸引人,有兩個原因:一是其突現性,這些能力幾乎是一瞬間出現的;二是涌現的能力具體將在哪種規模的模型中出現,不可預測。因此,研究者們對涌現能力提出了一種新解釋:對于特定的任務和模型家族,在分析固定的模型輸出時,「涌現」能力的出現是由于研究者選擇了特定的度量標準,而不是模型的表現隨規模發生了根本性的變化。
具體來說,非線性或者不連續度量會產生明顯的「涌現」能力,而線性或連續度量則會產生平滑、連續、可預測的模型性能變化。研究者們在一個簡單的數學模型中提出了這項新解釋,并通過三種互補的方式對其進行了檢驗。首先,他們在 InstructGPT/GPT-3 系列中對聲稱具有「涌現」能力的任務檢驗了這項新假設的三項內容;其次,在 BIG-Bench 的涌現能力元分析中制定、測試并證實了兩個關于度量標準選擇的預測;最后,論文中展示了如何選擇度量標準,以在不同深度網絡的多個視覺任務中「創造出」前所未有的「涌現」能力。
通過以上的分析,論文證明了所謂的「涌現」能力會隨著不同的度量或統計方式消失,而并非人工智能的基本屬性得到了擴展。
Main Track 杰出論文 Runner-up 獎
獲獎論文 1:Scaling Data-Constrained Language Models
- 論文鏈接:https://arxiv.org/abs/2305.16264
- 項目鏈接:https://github.com/huggingface/datablations
- 機構:Hugging Face、哈佛大學、圖爾庫大學
摘要:增加參數數量、擴大訓練數據集的規模是當今語言模型的發展趨勢。根據這一趨勢推斷,訓練數據集的規模可能很快就會受互聯網上可用文本數據量的限制。受到這一可見趨勢的啟發,有研究者對數據受限情況下語言模型的拓展進行了探索。
具體來說,他們通過改變數據的重復程度和計算預算,進行了大量的實驗。實驗中的數據量最高可達 9000 億個訓練 token,模型規模可達 90 億個參數。研究者發現,在計算預算固定、數據受限的情況下,使用重復數據進行 4 個周期(epoch)的訓練,與使用不重復的數據相比,損失的變化可以忽略不計。然而,隨著重復次數的增加,增加計算量的價值最終會降至零。研究者們進而提出并實證驗證了一個計算最優化的擴展定律(scaling law),該定律考慮了重復 token 和多余參數價值遞減的問題。最后,他們嘗試了多種緩解數據稀缺性的方法,包括使用代碼數據擴充訓練數據集或刪除常用的過濾器。本研究的模型和數據集可在以下鏈接中免費獲取:https://github.com/huggingface/datablations
獲獎論文 2:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
- 論文鏈接:https://arxiv.org/abs/2305.18290
- 機構:斯坦福大學、 CZ Biohub
摘要:雖然大規模無監督語言模型(LMs)可以廣泛地學習世界中的知識,獲得一些推理技能,但由于其訓練完全不受監督,因此很難實現對其行為的精確控制。目前獲得這種可控性通常依靠人類反饋強化學習(RLHF)這種方法實現,收集人類對各種模型生成質量打出的標簽,并根據這些偏好對無監督語言模型進行微調。然而,RLHF 是一個復雜并且經常不穩定的過程。它首先需要擬合一個反映人類偏好的獎勵模型,然后利用強化學習對大型無監督語言模型進行微調,以最大限度地提高預計中的獎勵,同時又不會偏離原始模型太遠。
在這項研究中,研究者們通過獎勵函數和最優策略之間的映射關系證明了只需進行一個階段的策略訓練,就能精確優化受限獎勵的最大化問題。從根本上解決了人類偏好數據的分類問題。研究者們稱這種新方法為:直接偏好優化(DPO),它穩定、高效、計算量小,無需擬合獎勵模型、在微調過程中從語言模型中采樣,或執行重要的超參數調整。實驗表明,DPO 能夠微調 LM 以符合人類偏好,其效果與現有方法相當或更好。值得注意的是,與 RLHF 相比,使用 DPO 進行微調在控制生成內容的情感、提高摘要和單輪對話的響應質量方面表現更好,同時實現和訓練過程大大簡化。
杰出數據集和基準論文
數據集
獲獎論文:ClimSim: A large Multi-scale Dataset for Hybrid Physics-ML Climate Emulation
- 論文地址:https://arxiv.org/pdf/2306.08754.pdf
- 機構:UCI、 LLNL、Columbia、UCB、MIT、DLR、Princeton 等
論文摘要:由于計算限制,現代氣候預測缺乏足夠的空間和時間分辨率,導致對風暴等極端氣候預測不準確、不精確。這時融合物理與機器學習的混合方法引入了新一代保真度更高的氣候模擬器,它們可以通過將計算需求巨大、短時、高分辨率的模擬任務「外包」給機器學習模擬器以繞過摩爾定律桎梏。不過,這種混合的機器學習 - 物理模擬方法需要針對特定領域具體處理,并且由于缺乏訓練數據以及相關易用的工作流程,機器學習專家們也無法使用。
本文中,研究者推出了 ClimSim,一個專為混合機器學習 - 物理研究設計的迄今為止最大的數據集,包含了氣候科學家和機器學習研究人員聯合開發的多尺度氣候模擬。具體來講,ClimSim 由 57 億個多元輸入和輸出向量對組成,它們隔絕了局部嵌套、高分辨率、高保真度物理對主機氣候模擬器宏觀物理狀態的影響。該數據集覆蓋全球,以高采樣頻率持續多年,設計生成的模擬器能夠與下游的操作氣候模擬器相兼容。
ClimSlim 的局部空間版本。
研究者實現了一系列確定性和隨機回歸基線,以突出機器學習挑戰和基線得分。他們公開了相關數據和代碼,用以支持混合機器學習 - 物理和高保真氣候模擬的開發,造福科學和社會。
項目地址:https://leap-stc.github.io/ClimSim/README.html
基準
獲獎論文:DECODINGTRUST: A Comprehensive Assessment of Trustworthiness in GPT Models
- 論文地址:https://arxiv.org/pdf/2306.11698.pdf
- 機構:伊利諾伊大學厄巴納 - 香檳分校、斯坦福大學、UC 伯克利、AI 安全中心、微軟
論文摘要:GPT 模型在能力層面已經展現出了無與倫比的進展,但有關 GPT 模型可信度的文獻仍然不多。從業者提議將強大的 GPT 模型用于醫療和金融領域的敏感性應用,可能面臨高昂的代價。
為此,本文研究者對大型語言模型進行了全面可信度評估,并以 GPT-4 和 GPT-3.5 為重點模型,充分考慮了不同的視角,包括毒性(toxicity)、刻板印象偏差、對抗穩健性、分布外穩健性、對抗演示穩健性、隱私、機器倫理道德和公平性等。評估結果發現了以往未曾披露的可信度威脅漏洞,例如 GPT 模型很容易被誤導,從而輸出有毒和有偏見的內容,并泄露訓練數據和對話記錄中的個人信息。
大模型可信度評估指標。
研究者還發現,雖然在標準基準上 GPT-4 比 GPT-3.5 更值得信賴,但由于 GPT-4 更精確地遵循誤導性指令,因而它也更容易受到攻擊。
基準測試:https://decodingtrust.github.io/