Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍

大語言模型論文跟蹤

發布于 2025-6-3 06:35

瀏覽

0收藏

1. 強化學習在Text2SQL領域的現狀

Text2SQL技術是將自然語言轉換為結構化數據庫查詢，通過賦能非技術人員高效操作關系數據庫。

當前研究聚焦于基礎模型微調，其中強化學習（RL）被證實能顯著提升模型表現。而獎勵模型（RM）的精心設計尤為重要，其信號質量直接影響微調效果。

在現有RL方案中，有三種主流獎勵方案：

執行準確率: 仍是核心指標，通過查詢正確性提供直觀反饋。
Bradley-Terry獎勵模型: 基于大模型的Bradley-Terry獎勵模型（BTRM）通過執行結果構建偏好對，已成功應用于代碼生成。
抽象語法樹: 采用抽象語法樹（AST）結構獎勵來捕捉語法相似性。

但這些方法各存缺陷：

執行獎勵因實時數據庫訪問導致延遲；
BTRM計算內存開銷大；
AST匹配易誤判語法相異但語義相同的查詢，產生噪聲信號。

這些痛點表明Text2SQL領域的關鍵挑戰：如何設計高效獎勵模型，在保持性能前提下替代執行驗證。

為此，字節跳動有團隊提出了Graph-Reward-SQL 框架，包含兩大互補獎勵模型：

圖匹配網絡評分（Graph Matching Network Score, GMNScore）: 通過圖匹配網絡（GMN）直接評估SQL功能等價性，無需執行即可捕捉深層語義。相較執行驗證，其速度提升顯著；相比BTRM，GMN輕量架構大幅降低GPU內存占用。
漸進式關系運算符樹匹配（Stepwise Relational Operator Tree Match，StepRTM）:StepRTM則通過漸進獎勵機制評估公共表表達式（CTE）子查詢生成，與GMNScore形成優勢互補。

什么是CTE？CTE（Common Table Expression，公共表表達式）是SQL中一種用于簡化復雜查詢的結構，它通過將子查詢定義為臨時命名的結果集（類似于臨時表），使得查詢更具可讀性和模塊化。CTE使用WITH關鍵字定義，允許在后續查詢中多次引用。

2. 什么是Graph-Reward-SQL

2.1 主流獎勵模型

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

鑒于獎勵模型在強化學習中的核心地位，介紹 Graph-Reward-SQL 框架之前，先介紹三類主流模型。如上表所示，從推理耗時和GPU顯存占用維度，將現有模型與 Graph-Reward-SQL 進行對比。

2.1.1 執行準確率

在Text2SQL任務中，執行準確率（Execution Accuracy，EX）通過判斷SQL執行結果正確性提供離散獎勵。采用融合語法錯誤分析和運行時診斷的改進模型，其計算公式為：

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

但EX存在明顯缺陷：當數據庫存在數據質量問題（如缺失、不一致）或結構異常時，不同查詢可能輸出相同結果。

雖然測試套件TS嘗試解決此問題，但假陽性/假陰性仍難以避免，且頻繁執行SQL會導致計算開銷激增。

測試套件TS：https://github.com/taoyds/test-suite-sql-eval

2.1.2 Bradley-Terry模型（BTRM）

相較于EX，BTRM無需實時查詢數據庫即可提供密集獎勵信號，但大模型參數導致顯存占用較高。

2.1.3 匹配式獎勵

現有方法包括SQL關鍵詞匹配和n-gram重疊檢測，雖響應迅速但易誤判語法差異的語義等價查詢。PPOCoder雖引入語法樹匹配，仍局限于淺層結構分析。

2.2 GRAPH-REWARD-SQL框架

上圖展示GRAPH-REWARD-SQL 框架創新點：

采用GMNScore解決EX的語義盲區（如WHERE age>34與>=34得分相同的問題）
為CTE-SQL設計漸進式獎勵模型StepRTM，填補中間獎勵空白（如下圖）

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

上圖展示了StepRTM的實現機制：

將生成SQL拆解為帶位置標記的子查詢鏈；
將參考查詢與子查詢均解析為運算符樹；
通過樹結構逐級匹配，動態計算增量獎勵。

2.2.1 關系操作符樹（ROT）

精準建模SQL的結構與語義是查詢分析與比對的核心。雖然抽象語法樹（AST）能捕捉SQL的句法特征，但SQL天然缺失控制流圖（CFGs）和數據流圖（DFGs）等關鍵邏輯表征——這些恰是呈現程序邏輯與數據依賴的基石。

為此，引入關系操作符樹（Relational Operator Tree，ROT），將SQL查詢解構為關系代數操作符的層次化樹結構。

每個樹節點代表特定邏輯操作（如連接、投影），而枝干走向則暗含查詢的依賴關系與執行脈絡。

基于Apache Calcite框架，SQL被編譯為標準化中間表示RelNode，其內置操作符優化與子句精簡能力，可生成抗語法干擾的規范邏輯計劃。

RelNode能像CFGs/DFGs般，通過邊結構融合控制流與數據流，為深度查詢分析提供全景式的圖模型支撐。

2.2.2 FuncEvalGMN

獲取SQL圖表示后，使用基于SQL語句對訓練的圖匹配網絡(GMN)來評估功能等價性。該模型創新性地融合了全局位置編碼與跨圖注意力機制，通過對比學習預訓練結合監督學習，深度捕捉SQL查詢的語義關聯。相似度計算采用最終圖嵌入的負歐氏距離。

2.2.3 ROT/RelNode局部匹配（RelPM）

與抽象語法樹（AST）類似，RelNode同樣能通過圖匹配評估SQL相似性。RelPM 作為基于規則的匹配算法，通過SQL的RelNode表示來衡量相似度。其AST版本稱為AstPM。

二者均采用分層局部匹配策略，依據節點匹配的精確率與召回率得出全局相似度評分。

算法將生成節點逐一比對：當運算符類型和值相同時判定匹配，并通過子圖比對計算匹配分數，最終選取最高分節點作為匹配結果。

2.2.4 獎勵函數設計

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

上圖展示了獎勵機制設計，包含最終結果評估模型GMNScore和分步評估模型StepRTM。

2.2.5 結果獎勵：GMN評分機制

采用FuncEvalGMN指標來評估生成SQL的功能正確性，與強化學習獎勵模型的目標高度契合。具體獎勵模型設計如下：

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

該評分機制對SQL查詢中的語法錯誤和ROT解析錯誤實施分級懲罰。

2.2.6 分步獎勵機制：StepRTM

現代ETL（數據抽取-轉換-加載）流程通常不會一蹴而就，而是由分析師拆解為循序漸進的子查詢計劃(一般采用CTE）。

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

CTE不僅能提升復雜SQL的可讀性，清晰展示ETL的中間轉換步驟，更天然適配分步評估的需求。

借鑒子圖匹配技術，創新性地提出分步關系運算符樹匹配（StepRTM），通過分步獎勵機制提供漸進式反饋。

3. 效果對比

3.1 對比實驗設計

3.1.1 數據集

主要基于Spider和BIRD兩大基準展開：

Spider數據集囊括10,181條自然語言問詢與5,693個跨越138個領域的復雜SQL語句。
BIRD數據集包含12,751道專業問題，覆蓋37+個垂直領域。

采用Spider訓練集進行模型訓練，并選取兩個數據集的開發集進行評估。

PPO訓練前使用200k-Text2SQL數據集進行預熱，完整數據說明詳見附錄A。

3.1.2 基線模型

對比了多種典型基線方案：

主流方案EX；
基于DeepSeek-Coder-1.3B-Ins架構的BTRM獎勵模型
匹配式獎勵模型AstPM與RelPM

3.1.3 評估體系

采用測試套件TS（開源地址：https://github.com/taoyds/test-suite-sql-eval）作為核心指標，通過多數據庫驗證提升評估魯棒性。

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

上表展示了Deepseek-Coder雙模型在各類基線及GMNScore獎勵機制下的TS表現。

3.1.4 實施細節

PPO訓練前分兩階段進行監督微調：

使用與Spider等量的200k-Text2SQL子集訓練1.3B/6.7B模型2個epoch；
將BIRD數據轉為CTE格式構建CTE-SFT預熱集，以優化逐步獎勵實驗中的CTE生成能力。

PPO超參設置如下：

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

3.2 獎勵機制性能對比

GMNScore成功取代了傳統EX方案，徹底擺脫了對SQL執行和數據庫環境的依賴。

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

如上表所示，在1.3B和6.7B模型上，GMNScore均取得了最優的平均TS得分，充分驗證了在強化學習中獎勵信號設計的關鍵作用。

RelPM表現顯著優于AstPM，兩種模型規模下分別實現2.53%和1.71%的性能提升。

這一優勢源于ROT采用歸一化邏輯計劃進行SQL解析，有效規避了表層語法差異的干擾，為兩種獎勵模型提供了更魯棒的表示。

GMNScore通過圖嵌入技術捕捉深層語義特征，不僅省去了執行結果對比環節，更大幅降低了誤報噪聲。此外，該方案無需構建和維護數據庫，為大規模Text-to-SQL強化學習提供了輕量化解決方案。

引入StepRTM逐步獎勵機制后，模型性能得到進一步提升。

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

如上表所示，CTE-SFT與StepRTM的組合在各種獎勵模型中均展現出穩定增益。特別地，集成GMNScore與StepRTM的框架實現了最佳綜合表現：在BIRD數據集上提升5.87%，Spider數據集上提升0.97%。這表明由于BIRD數據集具備更復雜的數據庫結構和查詢邏輯，其從逐步獎勵機制中的獲益更為顯著。

3.3 GMNScore在GRPO中的卓越表現

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

GMNScore不僅與PPO配合默契，在GRPO框架下同樣大放異彩。通過使用PPO和GRPO對Qwen2.5-Coder-7B/14B-Ins模型進行訓練，上圖顯示：在這兩種強化學習方案中，GMNScore始終力壓EX，充分彰顯了其穩定可靠的優越性能。

3.4 StepRTM賦能CTE-SQL

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

上表通過兩組對比，揭示了逐步獎勵模型對SQL語句正確性與結構優化的雙重提升。

案例一中，傳統模型誤檢索評論表數據，而采用StepRTM的CTE-SQL通過"用戶定位→帖子評分聚合"的分步子查詢精準解決問題。

案例二中，當傳統SQL因硬編碼性別標識而失效時，CTE-SQL則以"男性英雄篩選→超能力提取"的模塊化設計完美實現需求。

3.5 GMNScore準確性分析

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

實驗證明，GMNScore作為PPO的獎勵模型表現優異，遠超BTRM。通過分析訓練過程中兩種獎勵信號與實際結果的關聯性（如上圖），GMNScore始終保持著與執行結果的高度同步2。這說明GMNScore在訓練時能提供更穩定精準的反饋信號，這正是其性能出眾的關鍵所在。

本文轉載自????大語言模型論文跟蹤????，作者：HuggingAGI

標簽

字節跳動

框架

GMNScore

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍

1. 強化學習在Text2SQL領域的現狀

2. 什么是Graph-Reward-SQL

2.1 主流獎勵模型

2.1.1 執行準確率

2.1.2 Bradley-Terry模型（BTRM）

2.1.3 匹配式獎勵

2.2 GRAPH-REWARD-SQL框架

2.2.1 關系操作符樹（ROT）

2.2.2 FuncEvalGMN

2.2.3 ROT/RelNode局部匹配（RelPM）

2.2.4 獎勵函數設計

2.2.5 結果獎勵：GMN評分機制

2.2.6 分步獎勵機制：StepRTM

3. 效果對比

3.1 對比實驗設計

3.1.1 數據集

3.1.2 基線模型

3.1.3 評估體系

3.1.4 實施細節

3.2 獎勵機制性能對比

3.3 GMNScore在GRPO中的卓越表現

3.4 StepRTM賦能CTE-SQL

3.5 GMNScore準確性分析

目錄