ICML 2023杰出論文獎放榜!北大校友一作斬獲大獎,華人作者參與三篇,DeepMind蘋果紛紛獲選
ICML 2023開獎了!
今年一共有6篇文章摘得杰出論文獎的桂冠,從32篇候選論文中脫穎而出。
官方表示,評選過程包括平均分數篩選,以及程序委員會成員推薦。
然后,選出16個主題的論文,再遞交給杰出論文獎的評委會。
最終,評委會成員根據論文的清晰度、洞察力、創造力,以及未來可能的影響力,選擇出最后6篇。
下面,就讓我們一起來看看這6篇論文吧!
Learning-Rate-Free Learning by D-Adaptation
機構:FAIR,三星AI中心
作者:Aaron Defazio, Konstantin Mishchenko
論文地址:https://openreview.net/forum?id=GXZ6cT5cvY
D-Adaptation是一種自動設置學習率的方法,它可以漸近地達到最小化凸Lipschitz函數的最佳收斂率,無需回溯或直線搜索,每一步也無需額外的函數值或梯度評估。
該方法克服了傳統學習率選擇在優化此類問題時施加的限制。
研究人員的方法是該類別中第一種超參數自由方法,收斂速度中沒有額外的乘法對數因子。
團隊還介紹了SGD和Adam變體的大量實驗,在這些實驗中,研究人員表示的方法自動匹配了十幾種不同機器學習問題的人工調整學習率,包括大規模視覺和語言問題。
該項目已開源。
ICML官方認為,作者提出了一種新方法,克服了傳統學習率選擇在優化此類問題時施加的限制。
這項研究為優化領域做出了寶貴而實用的貢獻,因此拿下杰出論文獎。
A Watermark for Large Language Models
機構:馬里蘭大學
作者:John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein
論文地址:https://openreview.net/forum?id=aX8ig9X2a7
水印的事兒這兩天已經聊過很多次了。
從美國7大科技巨頭聯名加水印,再到有論文證明加了水印也檢測不出來,水印到底能不能解決訓練數據污染的問題依舊懸而未決。
這篇論文給出了一種給LLM生成的內容加水印的可行方法。
論文摘要:LLM的潛在危害可以通過對模型輸出的內容進行水印處理來減輕,即在生成的文本中嵌入信號,這些信號對人類來說不可見,但通過算法可以從短跨度的標記中檢測出來。
研究人員為專有的語言模型創建了一個水印框架。嵌入水印對文本質量的影響可以忽略不計,而且可以使用高效的開源算法進行檢測,無需訪問語言模型的應用程序接口或參數。
工作原理是,在單詞生成前隨機選擇一組綠色標記,然后在采樣過程中柔和地促進綠色標記的使用。
研究團隊提出了一種可解釋p值的水印檢測統計測試方法,并推導出一種信息論框架來分析水印的靈敏度。
使用了開放式預訓練變換器 (OPT) 系列的參數模型對水印進行了測試,同時還討論了魯棒性和安全性問題。
鑒于檢測和審核由 LLM 生成的合成文本所面臨的嚴峻挑戰,本文有可能對業界產生重大影響,因此獲獎。
華人作者Yuxin Wen
他本科畢業于馬里蘭大學帕克分校,現為馬里蘭大學帕克分校計算機系博士在讀。
Generalization on the Unseen, Logic Reasoning and Degree Curriculum
機構:EPFL,蘋果
作者:Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Kevin Rizk
論文地址:https://openreview.net/forum?id=3dqwXb1te4
這篇論文探討了邏輯函數的學習,重點聚焦GOTU設置,這是分布外泛化的一種強有力的實例。
這是因為在某些推理任務(如算術/邏輯)中,數據豐富組合的性質使得代表性數據采樣更具挑戰性,而在GOTU條件下的成功學習則為「外推」或「推理」學習者提供了第一手資料。
隨后,團隊研究了由(S)GD訓練的不同網絡架構在GOTU下的表現,并提供了理論和實驗證據,證明對于一類網絡模型,包括transformer實例、隨機特征模型和對角線性網絡,可以在未見數據上學習到最小度插值器(min-degree-interpolator)。
同時,研究人員還證明了其他學習率更高的實例或均值場網絡也能達到泄漏的最小度解決方案。
這些發現有兩個意義:
(1)為長度泛化問題提供了解釋;
(2)引入一種名為Degree-Curriculum的課程學習算法,它能通過遞增支持更有效地學習單項式。
ICML官方認為,這篇文章勾勒出深度神經網絡領域的一個關鍵研究方向,從而脫穎而出。
Adapting to game trees in zero-sum imperfect information games
機構: 巴黎理工學院,里昂大學,Omron Sinic X,Deepmind,法國國家經濟研究中心,CRITEO AI實驗室
作者:C?me Fiegel, Pierre MENARD, Tadashi Kozuno, Remi Munos, Vianney Perchet, Michal Valko
論文地址:https://openreview.net/forum?id=O1j4uFuSVW
ICML官方認為,這個研究嚴格地建立了一個新穎的下界,并提出了兩種算法,Balanced FTRL和Adaptive FTRL。
這些研究成果在不完全信息博弈的優化領域中有著顯著的推進作用。
實驗充分地證實了這些研究人員所提出的論斷。
不完全信息博弈(IIG)是指每個參與者只能觀察到部分當前的博弈狀態。
研究人員研究如何通過自我對弈和軌跡反饋(Trajectory Feedback)學習零和不完全信息博弈中的最優策略。
他們對于學習這些高概率策略所需的實現次數提出了問題不相關(problem-independent)的下界 。
此外,研究人員提出了兩種用于這種情境的Follow the Regularized Leader(FTRL)算法:
1.Balance FTRL與該下界相匹配,但需要預先了解信息集結構以定義正則化;
2.Adaptive FTRL則無需這種要求。
Self-Repellent Random Walks on General Graphs - Achieving Minimal Sampling Variance via Nonlinear Markov Chains
機構:艾昆緯,北卡羅來納州立大學
作者:Vishwaraj Doshi, Jie Hu, Do Young Eun
論文地址:https://openreview.net/forum?id=450iImFM4U
ICML官方評論認為,這篇論文探討了一個具有挑戰性的開放性問題,即使用自我排斥隨機游走的MCMC(馬爾可夫鏈蒙特卡洛)方法。
論文超越了傳統的非回溯(non-backtracking)方法,并為MCMC抽樣研究開辟了新的方向。
作者在馬爾可夫鏈蒙特卡洛文獻中做出了原創而且非凡的貢獻,而且能把這一過程進行嚴格的分析和證明是一項令人矚目的成就。
論文寫作流暢,對主要概念給出了清晰而直觀的解釋,結果令人信服而且全面。
具體來說,團隊研究了在離散狀態空間上的隨機游走問題,例如一般的無向圖(general undirect graphs),其中隨機游走者通過采樣和鄰域探索來逼近網絡拓撲上的目標量,這種方法采用了馬爾可夫鏈蒙特卡洛(MCMC)過程。
給定任何對應于目標概率分布的馬爾可夫鏈,研究人員設計了一種自我排斥隨機游走(SRRW),它在轉移時不太可能轉向過去高訪問的節點,并且更有可能轉向很少訪問的節點。
對于一類由正實數參數化的SRRW,研究人員證明了過程的經驗分布幾乎必定收斂于潛在馬爾可夫鏈核的目標(平穩)分布。
然后,他們提供了中心極限定理,并推導了產生的漸近協方差矩陣的精確形式,這使得他們可以證明具有更強斥力(更大參數)的SRRW總是實現更小的漸近協方差,按照協方差矩陣的Loewner排序意義。
特別是對于SRRW驅動的MCMC算法,研究人員證明了漸近抽樣方差的減小是按照的階數,最終趨近于零。
最后,研究人員提供了與理論結果相補充的數值模擬,還經驗證明一種隨時間增加的版本的SRRW結合了由較大參數引起的較小漸近方差的優勢,同時具有觀察到的較小參數下SRRW的更快混合性質。
其中的華人作者Jie Hu:
他本科畢業于武漢理工大學,碩士畢業于美國西北大學,博士畢業于北卡羅來納州立大學,現為北卡羅來納州立大學計算機工程系助理研究員。
Bayesian Design Principles for Frequentist Sequential Learning
機構:哥倫比亞大學
作者:Yunbei Xu, Assaf Zeevi
論文地址:https://openreview.net/forum?id=tRhQsHnoFw
ICML官方認為,該論文解決了設計老虎機和其他順序決策策略非常普遍的問題。
提出了一種利用新穎的算法信息比率(algorithmic information ratio)來界定任何策略遺憾(regret)的方法,并推導出優化此界限的方法。
與早期類似的信息論量相比,這個界限更緊,而且這些方法在隨機和對抗性賭臂環境中表現良好,實現了最佳所有世界。
特別有趣的是,該論文可能為探索與眾不同的賭博探索-開發策略打開了一扇新的大門,超越了眾所周知的老虎機Thompson Sampling和UCB算法。
而且這個原理擴展到強化學習領域也會非常有前景。
因此,該論文在專家評審中得到了一致的大力支持。
具體來說,研究團隊開發了一種通用理論,以優化順序學習問題中的頻率后悔(frequentist regret),從而可以從統一的貝葉斯原理中導出高效的老虎機(bandit)算法和強化學習算法。
他們還提出了一種新穎的優化方法,在每一輪創建"算法信念"(algorithmic beliefs),并利用貝葉斯后驗來做決策。
這是首個使貝葉斯類型算法在先驗無關(prior-free)的情況下,以一種通用且最優的方式適用于對抗性環境的方法,而且算法簡單且易于實現。
作為一個重要應用,研究人員還提出了一種新型多臂老虎機算法,能在隨機、對抗性和非平穩環境中實現"最佳的全局表現"。
研究人員還展示了這些原理在線性老虎機、凸老虎機(Convex Bandits)和強化學習中的應用。
論文中的華人一作,Yunbei Xu
他本科畢業于北京大學,博士畢業于哥倫畢業大學,現在在哥倫畢業大學進行博士后研究。