持續投入基礎研究 騰訊云數據庫三篇論文入選行業頂會SIGMOD
6月13日,記者獲悉,騰訊云數據庫三篇論文再次入選數據庫行業頂會SIGMOD,被SIGMOD 2022 Research Full Paper(研究類長文)收錄。
本次被收錄的研究成果中,新型數據結構設計、AI智能調參優化等均屬于業界首次提出。騰訊云數據庫多次入選SIGMOD,表明騰訊云數據庫在存儲、智能管控等方面的積累與前沿創新獲得了國際權威認可。
SIGMOD,全稱數據管理國際會議(Special Interest Group on Management Of Data),是由美國計算機協會(ACM)數據管理專業委員會(SIGMOD)發起、在數據庫領域具有最高學術地位的國際性學術會議。
第一篇入選論文題目為HUNTER: An Online Cloud Database Hybrid Tuning System for Personalized Requirements,由騰訊云數據庫團隊和華中科技大學合作完成,在AI智能調參優化上取得進一步突破。
通俗理解,數據庫的參數設置多達幾百個,這些參數控制著數據庫的性能表現。專業運維人員會花大量時間,根據經驗來調優數據庫的參數,以匹配不同硬件、需求和業務場景。如何利用 AI 技術解決數據庫系統性能問題變得越來越重要和緊迫。
在此篇論文中,騰訊云數據庫TDSQL-C團隊提出了混合調優系統Hunter,主要解決了如何在保證調優效果的前提下顯著減少調優時間的問題。實驗表明:隨著并發度提升實現調優時間準線性降低,在單并發度場景下調優時間只需17小時,在20并發度場景下調優時間縮短至2小時。
第二篇入選論文由中國人民大學和騰訊云數據庫團隊合作完成,題為CompressDB: Enabling Efficient Compressed Data Direct Processing for Various Databases,論文針對壓縮數據的直接操作與處理,提出一項新型數據庫處理技術——CompressDB。
面對當下指數級增長的數據量,行業普遍使用數據壓縮來減少存儲空間。在大數據管理系統中,直接在壓縮數據上進行操作,可以獲得存儲空間的節約和處理性能的提升。但是,當前的此類系統只關注數據查詢,而一個完整的大數據管理系統必須支持數據查詢和數據操作。
本研究提出并實現了新型數據庫技術,利用上下文無關文法來壓縮數據,通過新的數據結構和算法設計實現對語法規則進行解析,CompressDB支持直接對壓縮后的數據進行數據查詢和操作,并且支持各種數據庫系統。實驗表明,CompressDB 平均達到40%的吞吐量提升和44%的延遲縮短,并實現1.81倍的壓縮率。
第三篇入選論文由騰訊和北京大學合作完成,題為 BlindFL: Vertical Federated Machine Learning without Peeking into Your Data。針對數據隱私安全問題,該論文提出了一個新的縱向聯邦學習范式BlindFL,可支持多種特征數據類型,且可以在半誠實安全假設下證明其安全性。實驗結果表明,BlindFL可有效保護參與方的隱私數據,并具有更高的運行效率。
騰訊歷來重視數據庫領域的研發,通過校企聯合實驗室共建,面向青年學者的CCF-騰訊犀牛鳥基金,騰訊犀牛鳥科研專項等與高校、科研機構構建“產學研”一體的長期合作,將技術研究成果轉換為應用落地,校企聯合持續輸出前沿技術創新與示范性應用。
此前,騰訊云數據庫TDSQL曾多次亮相數據庫三大頂會SIGMOD、ICDE、VLDB,以及數據科學領域的頂級期刊IEEE TKDE等。騰訊云數據庫TDSQL將繼續加大對數據庫基礎研究創新、數據庫產學研合作生態的建設投入,充分釋放領先技術的紅利,助力國產數據庫學術人才培養和技術創新生態建設發展。