KDD 2023獎項出爐:港中文、港科大等獲最佳論文獎,GNN大牛Leskovec獲創新獎
ACM SIGKDD(國際數據挖掘與知識發現大會,KDD) 會議始于 1989 年,是數據挖掘領域歷史最悠久、規模最大的國際頂級學術會議,也是首個引入大數據、數據科學、預測分析、眾包等概念的會議。
今年的 KDD 大會是第 29 屆,于 8 月 6 日 - 10 日在美國加州長灘舉辦。大會包含研究方向(Research )和應用數據科學方向 (Applied Data Science,ADS)兩個 track。
隨著會議的進行,各大獎項也開始逐一揭曉。其中來自香港中文大學、香港科技大學(廣州)、東南大學、同濟大學的研究者獲得了研究方向最佳論文獎;來自谷歌的研究者獲得了應用數據科學方向最佳論文獎;斯坦福大學(于今年 1 月獲得學位)博士 Weihua Hu 獲得杰出博士論文獎;創新獎頒給了斯坦福大學計算機科學學院教授 Jure Leskovec;不列顛哥倫比亞大學的四位研究者獲得了本次大會的時間檢驗獎。
KDD 最佳論文獎 — 研究方向
來自香港中文大學的孫相國、程鴻教授、香港科技大學(廣州)的李佳教授、東南大學的劉波教授以及同濟大學的關佶紅教授獲得了最佳論文獎。獲獎論文為《All in One: Multi-task Prompting for Graph Neural Networks》。
李佳教授獲得最佳論文獎(研究方向)。
論文地址:https://arxiv.org/pdf/2307.01504.pdf
論文介紹:最近,預訓練和微調范式已成為許多圖任務的標準工作流程,因為這些方法可以利用通用的圖知識來緩解每個應用中圖注釋的缺乏。然而,具有節點級、邊緣級和圖級的圖任務千差萬別,使得預訓練的前提往往與多個任務不兼容。這種差距甚至可能導致對特定應用程序的「負遷移」,從而使得效果不佳。
受到自然語言處理(NLP)中 prompt 學習的啟發,因而,本文研究了在圖領域中關于 prompting 的主題,旨在彌合預訓練模型與各種圖任務之間的差距。本文提出了一種新穎的用于圖模型的多任務 prompting 方法。
具體來說,該研究首先通過 prompt token、token 結構和嵌入模式統一了圖 prompt 和語言 prompt 的格式。通過這種方式,可以將 NLP 中的 prompting 思想無縫地引入到圖領域。然后,為了進一步縮小各種圖任務與最先進的預訓練策略之間的差距,該研究進一步研究了各種圖應用的任務空間,并將下游問題重新表述為圖級任務。隨后,他們引入元學習,以有效地學習更好的圖多任務 prompt 初始化,從而使 prompting 框架在不同任務之間更可靠且更通用。本文還進行了大量實驗來證明所提方法的優越性。
圖 1 為微調、預訓練以及 prompting 流程;圖 2 為受 NLP 領域中 prompt 啟發,得到的圖 prompt:
KDD 最佳論文獎 — 應用數據科學方向
SIGKDD 2023 應用數據科學方向最佳論文獎頒給了谷歌的研究者。其中華人學者包括高級軟件工程師 Jiaxi Tang 、軟件工程師 Li Wei 、高級軟件工程師 Xinyang Yi、 軟件工程高級總監 Lichan Hong 以及杰出科學家 Ed H. Chi 。
圖源:https://twitter.com/madiator/status/1688716588491608064
論文地址:https://arxiv.org/pdf/2302.09178.pdf
論文介紹:推薦系統在許多內容平臺中扮演著重要的角色。雖然大多數關于推薦系統的研究都致力于設計更好的模型來改善用戶體驗,但研究發現讓這些模型訓練更加穩定的研究嚴重不足。
隨著推薦模型變得越來越龐大和復雜,因而更容易受到訓練不穩定性問題的影響,例如損失發散,這可能使模型無法使用,浪費大量資源,并阻礙模型的發展。
在本文中,研究者指出了導致模型訓練不穩定的一些特性,并對其原因進行了推測。更進一步的,基于對訓練不穩定點附近訓練動態的觀察,研究者假設了現有解決方案失敗的原因,并提出了一種新的算法來減輕現有解決方案的局限性。
研究者在數據集上進行的實驗表明,與幾種常用的基準方法相比,本文所提出的算法可以顯著提高模型的訓練穩定性,同時不損害收斂性。
KDD 最佳學生論文獎 — 研究方向
本次獲得最佳學生論文獎的是來自蒙納士大學、澳大利亞國立大學等機構的研究者。
論文地址:https://arxiv.org/pdf/2209.13446.pdf
論文介紹:本文提出了一個基于特征的學習框架,可有效處理反事實約束,并為有限的私有解釋模型做出了貢獻。本文在生成行動可行性和合理性的多樣性反事實方面,展示了所提方法的靈活性和有效性。
KDD 杰出博士論文獎
KDD 2023 杰出博士論文獎授予了斯坦福大學(于今年 1 月獲得學位)博士 Weihua Hu 的論文《On the Predictive Power of Graph Neural Networks》。
推特 @weihua916
我們先簡單介紹一下 Weihua Hu。他先后于 2016 年和 2018 年獲得了東京大學的數學工程學士學位和計算機科學碩士學位。之后進入斯坦福大學攻讀計算機科學博士學位,其導師為 Jure Leskovec(也是 KDD 2023 創新獎獲得者)。
博士期間,Weihua Hu 創建了圖結構數據的機器學習理論、方法和基準,旨在改進現實世界的多樣化應用,比如推薦系統、藥物或材料發現、天氣預測。他還樂于應用(圖)機器學習來解決現實世界有趣和重要的問題。
目前,Weihua Hu 在初創公司 Kumo.ai 工作,致力于將 GNN 投入生產,尤其重視使用 GNN 來回答現代關系數據庫上各種各樣的未來預測查詢。
個人主頁:https://weihua916.github.io/
Weihua Hu 的博士論文旨在通過理解、改進 GNN 的預測能力并進行基準測試,來構建強大的預測性 GNN。這里的預測能力是 GNN 對圖做出準確預測的能力。論文分以下三個部分展開。
第一部分開發了一個用于理解 GNN 預測能力的理論框架,尤其關注表達能力,觀察 GNN 是否可以在圖上表達所需的函數。第二部分是在有了用于設計表達性 GNN 模型的框架之后, 進一步提升模型在未見過或未標注數據上的預測能力,也即是提升 GNN 的泛化性能。第三部分創建一個新的圖基準數據集來解決現有基準的問題,并讓社區參與進來共同提升 GNN 的預測能力。
論文詳細內容請參閱:https://searchworks.stanford.edu/view/14423818
KDD 杰出博士論文獎(亞軍)
今年還評選出了兩篇杰出博士論文獎(亞軍),第一篇是《Characterization and detection of disinformation spreading in online social networks》,作者為 Francesco Pierri,他現在是米蘭理工大學的一名助理教授。
推特 @frapi9
論文地址:https://www.politesi.polimi.it/handle/10589/188756
另一篇獲此獎項的論文題目是《Efficient and Secure Message Passing forMachine Learning》,作者是北卡羅來納州立大學助理教授 Xiaorui Liu。
推特 @liu_xiaorui
論文地址:https://www.proquest.com/openview/38629046ef91d5deea1a63265175abc0/1?pq-origsite=gscholar&cbl=18750&diss=y
KDD 創新獎
KDD 創新獎旨在表彰對數據發現與數據挖掘領域做出杰出貢獻,并促進理論和商業系統發展的研究者。
KDD 2023 創新獎頒給了圖網絡領域的大牛、斯坦福大學計算機科學學院教授 Jure Leskovec。他也是圖表示學習方法 node2vec 和 GraphSAGE 作者之一。此次獲獎是為表彰他對圖挖掘、網絡和應用機器學習的根本性和里程碑式貢獻。
推特 @fredayala
Jure Leskovec 的研究領域為大規模互連系統的應用機器學習,并專注于為所有尺度的系統建模復雜、標簽豐富的關系結構、圖和網絡,涉及領域可以從細胞中的蛋白質相互作用到社會中的人類交互。研究應用則包括了常識推理、推薦系統、計算社會科學以及以藥物發現為重點的計算生物學。
迄今為止,Jure Leskovec 參與的論文在谷歌學術上的引用次數將近 10 萬。
谷歌學術主頁:https://cs.stanford.edu/people/jure/
KDD 時間檢驗獎—研究方向
來自不列顛哥倫比亞大學的四位研究者獲得了本次大會的時間檢驗獎。這篇論文發表于 2012 年,在 Google Scholar 上的引用量是 1792。
推特 @Frank Hutter
論文地址:https://arxiv.org/pdf/1208.3719.pdf
論文介紹:目前,研究者已經開發出了許多不同的機器學習算法,考慮到每個算法的超參數非常多,因而會出現很多可替代方案。本文的做法是選擇學習算法的同時并設置其超參數,從而超越了先前只解決單個問題的研究。
本文考慮了一系列廣泛的特征選擇技術,以及 WEKA 中實現的所有分類方法,涵蓋 2 種集成方法、10 種元方法、27 種基準分類器,以及每個分類器的超參數設置。在 UCI 中的 21 個常用數據集、KDD Cup 09、MNIST 數據集變體和 CIFAR-10 數據集的每個數據集上,該研究展示了本文方法比使用標準的選擇 / 超參數優化方法要好得多。該研究希望他們所提出的方法能夠幫助非專業用戶更有效地識別適用于其應用的機器學習算法和超參數設置,從而實現性能改進。
KDD 時間檢驗獎—應用數據科學方向
另一篇時間檢驗獎頒給了論文《Ad Click Prediction: a View from the Trenches》,來自谷歌,被引用次數為 1030。
論文地址:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41159.pdf
論文介紹:預測廣告點擊率(CTR)是一個與數十億美元規模的在線廣告行業密切相關的大規模學習問題。本文在一個部署的CTR預測系統環境中,展示了一些選定的案例研究和主題,這些案例研究和主題源自最近的實驗。
最后,KDD 還頒布了杰出服務獎,旨在表彰在知識發現和數據挖掘領域做出杰出專業服務貢獻的個人或團體。本屆大會頒給了熊輝(Hui Xiong)教授。