孟瑜獲杰出博士論文獎,中科大獲最佳學生論文,KDD 2024全部獎項放出
ACM SIGKDD(國際數據挖掘與知識發現大會,KDD) 會議始于 1989 年,是數據挖掘領域歷史最悠久、規模最大的國際頂級學術會議,也是首個引入大數據、數據科學、預測分析、眾包等概念的會議。
今年的 KDD 大會是第 30 屆,8 月 25 日 - 29 日在西班牙巴塞羅那召開,最佳論文獎、時間檢驗獎、杰出博士論文獎等獎項也逐一揭曉。
其中有多位華人研究者獲獎,孟瑜的《Efficient and Effective Learning of Text Representations》獲得了 KDD 2024 杰出博士論文獎,最佳論文獎(研究方向)頒給了六位華人學者參與的《CAT: Interpretable Concept-based Taylor Additive Models》,最佳學生論文(研究方向)頒給了中國科學技術大學、華為合作的《Dataset Regeneration for Sequential Recommendation》。KDD 2024 最佳論文獎(應用數據科學方向)由領英獲得,此外,大會還頒發了兩項時間檢驗獎。
杰出博士論文獎
KDD 2024 杰出博士論文獎頒發給了《Efficient and Effective Learning of Text Representations》,作者是弗吉尼亞大學助理教授孟瑜(Yu Meng )。
孟瑜于 2024 年加入弗吉尼亞大學 (UVA) 計算機科學 (CS) 系,擔任助理教授(tenure-track)。此前,他獲得了伊利諾伊大學厄巴納 - 香檳分校 (UIUC) 的博士學位,與韓家煒教授一起工作。他還曾在普林斯頓 NLP 小組擔任訪問研究員,與陳丹琦一起工作。
論文摘要:文本表示學習在廣泛的自然語言處理 (NLP) 任務中發揮了關鍵作用。這些表示通常是通過深度神經網絡將原始文本轉換為向量獲得的。LLM 的最新進展已經證明了學習通用文本表示的巨大潛力,可適用于廣泛的應用。這一成功由兩個關鍵因素支撐:
- 在預訓練和微調中使用廣泛的文本數據來訓練 LLM;
- LLM 的規模可擴展到包含數百億甚至數千億個參數。
因此,訓練 LLM 需要大量成本,包括獲取大量帶標簽的數據以及支持這些大型模型所需的基礎設施。在這些挑戰的基礎上,本文旨在開發高效且有效的文本表示學習方法,涉及以下關鍵內容:
利用球面空間進行文本表示學習。表示空間的傳統選擇是歐幾里得空間,但非歐幾里得球面空間在通過方向相似性捕捉語義相關性的研究方面表現出卓越的能力。本文的工作重點是利用球面表示空間進行文本表示學習的自監督技術。
使用球面文本表示法發現主題結構。基于在球面空間中學習到的文本表示法,本文開發了通過聯合建模主題和文本語義自動從給定語料庫中發現主題結構的方法。
使用 LLM 生成訓練數據以實現自然語言理解 (NLU)。要在 NLU 任務上實現穩健的性能,通常需要大量人工標注的訓練樣本來微調預訓練的文本表示。為了減輕人工標注的需求,本文開發了一種新范式,使用 LLM 作為訓練數據生成器來取代人工標注過程。
這些努力共同促進了文本表征更高效、更有效的學習,解決了訓練和使用 LLM 面臨的挑戰。
論文詳細內容請參閱:
https://scholar.google.com/citations?view_op=view_citation&hl=en&user=S2-yZKcAAAAJ&cstart=20&pagesize=80&citation_for_view=S2-yZKcAAAAJ:_Qo2XoVZTnwC
杰出博士論文獎(亞軍)
此次還有兩項研究獲得了本屆 KDD 的杰出博士論文獎(亞軍)。
- 論文標題:Make Knowledge Computable: Towards Differentiable Neural-Symbolic AI
- 機構:加利福尼亞大學
- 作者:Ziniu Hu
- 論文地址:https://escholarship.org/uc/item/3ft4t0nj
論文摘要:本論文探討了神經人工智能系統與符號人工智能系統的交叉點。近年來的深度學習方法能夠記憶大量的世界知識,但在此基礎上進行符號推理仍存在局限性;而符號 AI 擅長解決推理任務,但在適應新知識方面效率較低。此前將兩者結合的研究主要集中在構建基于解析的系統,這類系統需要大量的中間標簽標注,且難以擴展。
作者的研究目標是使神經模型能夠以可微分的方式與符號推理模塊進行交互,并實現無需中間標簽的端到端訓練的這種神經 - 符號模型。為實現這一愿景,作者開展了以下研究工作:
- 設計新型推理模塊:設計可微分的神經模塊,能夠進行符號推理,包括知識圖譜推理和復雜的邏輯推理。
- 通過自監督學習:從結構化和符號知識庫中獲取自監督信號來訓練神經模型,無需額外的標注。
- 跨領域泛化:神經 - 符號系統的模塊化設計天然有助于更好地進行分布外、詞匯外、跨語言和跨類型的泛化。
- 論文標題:Artificial Intelligence for Data-centric Surveillance and Forecasting of Epidemics
- 機構:佐治亞理工學院
- 作者:Alexander Rodriguez
- 論文地址:https://repository.gatech.edu/entities/publication/aa292b79-26bb-4aec-a3f3-0fd87911ff74/full
論文摘要:對流行病的監控和預測是政府官員、企業和公眾進行決策和規劃的重要工具。盡管人們在理解疾病如何在人群中傳播方面取得了多項進展,但從許多方面來看,人們對流行病傳播的理解仍處于初期階段。許多主要的挑戰源于復雜的動態因素,如人員流動模式、政策遵守情況,甚至數據收集程序的變化。隨著收集和處理新來源數據的努力,擁有許多變量的細粒度數據逐漸變得可用。然而,這些數據集很難通過傳統的數學流行病學和基于智能體的建模方法來利用。相反,流行病學中的 AI 方法面臨數據稀疏、分布變化和數據質量差異的挑戰。
AI 技術在流行病學動態方面也缺乏理解,可能會導致不切實際的預測。為了解決這些挑戰并向數據中心方法邁進,本論文提出了幾個框架。具體來說,作者通過多個實例展示了將 AI 的數據驅動表達能力引入流行病學,可以實現對流行病更為敏感和精準的監控與預測。
研究方向論文獎
最佳論文
KDD 2024 最佳論文獎(研究方向)頒給了《CAT: Interpretable Concept-based Taylor Additive Models》。
- 作者:Viet Duong, Qiong Wu, Zhengyi Zhou, Hongjue Zhao, Chenxiang Luo, Eric Zavesky, Huaxiu Yao, Huajie Shao
- 論文地址:https://arxiv.org/pdf/2406.17931
- 項目地址:https://github.com/vduong143/CAT-KDD-2024
論文摘要:作為一種新興的可解釋技術,廣義相加模型(Generalized Additive Models,GAMs)讓神經網絡單獨學習每個特征的非線性函數,然后通過線性模型組合以進行最終預測。盡管 GAM 可以在特征級別解釋深度神經網絡 (DNN),但它們需要大量模型參數,并且容易過度擬合,從而難以訓練和擴展。
此外,對人類來說,在具有許多特征的現實數據集中,基于特征的解釋的可解釋性會降低。為了解決這些問題,最近的研究已轉向基于概念的可解釋方法。這些方法試圖將概念學習作為做出預測之前的中間步驟,并用人類可理解的概念來解釋預測。然而,這些方法需要領域專家用相關名稱及其真實值廣泛地標記概念。
基于此,該研究提出了一種可解釋的、基于概念的新型泰勒相加模型 ——CAT,以簡化這個過程。CAT 不需要領域專家來注釋概念及其真實值。相反,它只需要用戶簡單地將輸入特征分類為廣泛的組,這可以通過快速元數據審查輕松完成。
具體來說,CAT 首先將每組輸入特征嵌入到一維高級概念表征中,然后將概念表征輸入到新的白盒泰勒神經網絡(TaylorNet)中。 TaylorNet 旨在使用多項式學習輸入和輸出之間的非線性關系。多個基準的評估結果表明,CAT 可以優于基準或與基準競爭,同時減少對大量模型參數的需求。重要的是,它可以通過高級概念有效地解釋模型預測。
最佳學生論文
KDD 2024 最佳學生論文(研究方向)頒給了《Dataset Regeneration for Sequential Recommendation》。
- 機構:中國科學技術大學、華為
- 作者:Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Suojuan Zhang, Sirui Zhao, Defu Lian, Enhong Chen
- 論文地址:https://arxiv.org/pdf/2405.17795
- 項目鏈接:https://anonymous.4open.science/r/KDD2024-86EA
論文摘要:序列推薦系統(SR)是現代推薦系統中的關鍵組件,其目標是捕捉用戶不斷變化的偏好。為了增強 SR 系統的能力,已經進行了大量研究。這些方法通常遵循以模型為中心的范式,即基于固定數據集開發有效模型。然而,這種方法往往忽略了數據中潛在的質量問題和缺陷。基于數據中心化 AI 的潛力,研究團隊提出了一種新穎的數據中心化范式,利用名為 DR4SR 的模型無關數據集再生框架來開發理想的訓練數據集。該框架能夠生成具有出色跨架構泛化能力的數據集。此外,他們還引入了 DR4SR + 框架,它結合了模型感知的數據集定制功能,能夠為目標模型專門定制再生的數據集。
為了驗證數據中心化范式的有效性,研究團隊將該框架與各種以模型為中心的方法結合,觀察到在四個廣泛使用的數據集上性能顯著提升。我們還進行了深入分析,探索數據中心化范式的潛力,并提供了寶貴的見解。
應用數據科學方向
最佳論文
KDD 2024 最佳論文(應用數據科學方向)頒給了《LiGNN: Graph Neural Networks at LinkedIn》。
- 機構:領英
- 作者:Fedor Borisyuk, Shihai He, Yunbo Ouyang, Morteza Ramezani, Peng Du, Xiaochen Hou, Chengming Jiang, Nitin Pasumarthy, Priya Bannur, Birjodh Tiwana, Ping Liu, Siddharth Dangi, Daqi Sun, Zhoutao Pei, Xiao Shi, Sirou Zhu, Kay Shen, Kuang-Hsuan Lee, David Stein, Baolei Li, Haichao Wei, Amol Ghoting, Souvik Ghosh
- 論文地址:https://arxiv.org/pdf/2402.11139
論文摘要:這篇論文介紹了已部署的大規模圖神經網絡(GNNs)框架 LiGNN,并分享了領英開發和部署大規模 GNN 的經驗。論文提出了一系列算法改進來提升 GNN 表示學習的質量,包括具有長期損失的時間圖架構,通過圖密集化、ID 嵌入和 multi-hop 相鄰采樣實現的有效冷啟動解決方案。
具體來說,論文介紹了如何通過自適應相鄰采樣、訓練數據 batch 的分組和切片、專用共享內存隊列和局部梯度優化,在 LinkedIn 圖上構建大規模訓練,并將訓練速度提高 7 倍。研究者總結了從 A/B 測試實驗中收集到的部署經驗和教訓。這項工作中介紹的技術幫助提高了約 1% 的工作應用回聽率、2% 的廣告點擊率提升、0.5% 的日活用戶提升、0.2% 的會話提升和 0.1% 的每周活躍用戶數提升。這項工作有望為大規模應用圖神經網絡的工程師提供實用的解決方案和見解。
最佳論文亞軍
KDD 2024 最佳論文亞軍(應用數據科學方向)頒給了《Nested Fusion: A Method for Learning High Resolution Latent Structure of Multi-Scale Measurement Data on Mars》。
- 機構:佐治亞理工學院、加州理工學院
- 作者:Austin Wright, Duen Chau, Scott Davidoff
- 論文地址:https://dl.acm.org/doi/pdf/10.1145/3637528.3671596
- 項目鏈接:https://github.com/pixlise/NestedFusion.
論文摘要:火星探測車「毅力號」代表了火星測量精度的代際變化,然而這種精度的提高也為探索性數據分析技術帶來了新的挑戰。探測車上的多個儀器分別測量科學家感興趣的特定屬性,因此分析底層現象如何共同影響多個不同的儀器,對于全面了解數據至關重要。然而,每個儀器的分辨率各不相同,使得不同數據層的映射變得復雜。
這項研究提出了 Nested Fusion 方法,該方法能夠結合不同分辨率的任意分層數據集,并在可能的最高分辨率下生成潛在分布,編碼不同測量和尺度之間的復雜相互關系。
該方法能夠對大型數據集高效處理,甚至可以對未見過的數據進行推理,并在真實的火星探測車數據上,超越了現有的降維和潛在分析方法。他們已在 NASA 噴氣推進實驗室(JPL)內的火星科學團隊中部署了 Nested Fusion 方法,并且通過多輪參與式設計,大大提升了科學家的探索性分析工作流程。
時間檢驗獎
大會還評出了兩項時間檢驗獎。
KDD 2024 時間檢驗獎(研究方向)頒給了《DeepWalk: online learning of social representations》。
- 機構:紐約州立大學石溪分校
- 作者:Brian Perozzi, Rami Al-Rfou, Steven Skiena
- 論文鏈接:https://arxiv.org/pdf/1403.6652
- 項目鏈接:https://github.com/phanein/deepwalk
論文摘要:這篇論文介紹了研究團隊所提出的一種用于學習網絡中頂點隱層表示的新方法 ——「DeepWalk」。這些隱層表示將社會關系編碼在連續的向量空間中,統計模型則可以輕松利用這些表示。
DeepWalk 將語言建模和無監督特征學習(或深度學習)從詞序列推廣到了圖結構。DeepWalk 通過截斷隨機游走獲取局部信息,并將游走等同視為句子,從而學習隱層表示。他們在多個社交網絡的多標簽網絡分類任務中展示了 DeepWalk 的隱層表示,例如 BlogCatalog、Flickr 和 YouTube。
結果表明,DeepWalk 在有缺失信息的情況下,表現優于能夠看到全局網絡視圖的其他強大基線方法。特別是在標注數據稀缺的情況下,DeepWalk 的表示可以將分數提高最多 10%。在某些實驗中,DeepWalk 使用少于 60% 的訓練數據時,仍能超越所有基線方法。DeepWalk 具有可擴展性,它是一種在線學習算法,能夠構建有用的增量結果,且易于并行化。這些特性使其適用于廣泛的實際應用場景,如網絡分類和異常檢測。
KDD 2024 時間檢驗獎(應用數據科學方向)頒給了《U-Air: when urban air quality inference meets big data》。
- 機構:微軟亞洲研究院
- 作者:Yu Zheng, Furui Liu, Hsun-Ping Hsieh
- 論文鏈接:http://chbrown.github.io/kdd-2013-usb/kdd/p1436.pdf
論文摘要:這篇論文介紹了研究團隊所提出的一種基于協同訓練框架的半監督學習方法。關于城市空氣質量的信息(例如 PM2.5 的濃度),對于保護人類健康和控制空氣污染至關重要。然而,城市中空氣質量監測站的數量有限,并且空氣質量在城市空間中又呈現非線性變化,并受多種因素的影響,例如氣象、交通流量和土地利用等。在本文中,研究團隊基于現有監測站報告的(歷史和實時)空氣質量數據,以及在城市中觀察到的各種數據來源(如氣象、交通流量、人員流動、道路網絡結構和興趣點 POIs),推斷整個城市的實時、細粒度的空氣質量信息。
他們提出了一種基于協同訓練框架的半監督學習方法,該框架包含兩個獨立的分類器。一個是基于人工神經網絡(ANN)的空間分類器,它將空間相關特征(如 POI 的密度和高速公路的長度)作為輸入,以建模不同地點之間空氣質量的空間相關性。另一個則是基于線性鏈條件隨機場(CRF)的時間分類器,使用時間相關特征(如交通和氣象)來建模一個地點空氣質量的時間依賴性。
研究團隊在北京和上海所獲取的五個真實數據源的基礎上進行了廣泛的實驗評估。結果表明,與四類基線方法(包括線性 / 高斯插值、經典擴散模型、決策樹和 CRF 等著名分類模型,以及 ANN)相比,他們所提出的基于協同訓練框架的半監督學習方法具有顯著優勢。
更多信息,可參考大會官網:
https://kdd2024.kdd.org/awards/