成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍

發布于 2025-6-3 06:35
瀏覽
0收藏

1. 強化學習在Text2SQL領域的現狀

Text2SQL技術是將自然語言轉換為結構化數據庫查詢,通過賦能非技術人員高效操作關系數據庫。

當前研究聚焦于基礎模型微調,其中強化學習(RL)被證實能顯著提升模型表現。而獎勵模型(RM)的精心設計尤為重要,其信號質量直接影響微調效果。

在現有RL方案中,有三種主流獎勵方案:

  • 執行準確率: 仍是核心指標,通過查詢正確性提供直觀反饋。
  • Bradley-Terry獎勵模型: 基于大模型的Bradley-Terry獎勵模型(BTRM)通過執行結果構建偏好對,已成功應用于代碼生成。
  • 抽象語法樹: 采用抽象語法樹(AST)結構獎勵來捕捉語法相似性。

但這些方法各存缺陷:

  • 執行獎勵因實時數據庫訪問導致延遲;
  • BTRM計算內存開銷大;
  • AST匹配易誤判語法相異但語義相同的查詢,產生噪聲信號。

這些痛點表明Text2SQL領域的關鍵挑戰:如何設計高效獎勵模型,在保持性能前提下替代執行驗證。

為此,字節跳動有團隊提出了Graph-Reward-SQL 框架,包含兩大互補獎勵模型:

  • 圖匹配網絡評分(Graph Matching Network Score, GMNScore): 通過圖匹配網絡(GMN)直接評估SQL功能等價性,無需執行即可捕捉深層語義。相較執行驗證,其速度提升顯著;相比BTRM,GMN輕量架構大幅降低GPU內存占用。
  • 漸進式關系運算符樹匹配(Stepwise Relational Operator Tree Match,StepRTM):StepRTM則通過漸進獎勵機制評估公共表表達式(CTE)子查詢生成,與GMNScore形成優勢互補。

什么是CTE?CTE(Common Table Expression,公共表表達式)是SQL中一種用于簡化復雜查詢的結構,它通過將子查詢定義為臨時命名的結果集(類似于臨時表),使得查詢更具可讀性和模塊化。CTE使用WITH關鍵字定義,允許在后續查詢中多次引用。

2. 什么是Graph-Reward-SQL

2.1 主流獎勵模型

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

鑒于獎勵模型在強化學習中的核心地位,介紹 Graph-Reward-SQL 框架之前,先介紹三類主流模型。如上表所示,從推理耗時和GPU顯存占用維度,將現有模型與 Graph-Reward-SQL 進行對比。

2.1.1 執行準確率

在Text2SQL任務中,執行準確率(Execution Accuracy,EX)通過判斷SQL執行結果正確性提供離散獎勵。采用融合語法錯誤分析運行時診斷的改進模型,其計算公式為:

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

但EX存在明顯缺陷:當數據庫存在數據質量問題(如缺失、不一致)或結構異常時,不同查詢可能輸出相同結果。

雖然測試套件TS嘗試解決此問題,但假陽性/假陰性仍難以避免,且頻繁執行SQL會導致計算開銷激增。

測試套件TS:https://github.com/taoyds/test-suite-sql-eval

2.1.2 Bradley-Terry模型(BTRM)

相較于EX,BTRM無需實時查詢數據庫即可提供密集獎勵信號,但大模型參數導致顯存占用較高。

2.1.3 匹配式獎勵

現有方法包括SQL關鍵詞匹配和n-gram重疊檢測,雖響應迅速但易誤判語法差異的語義等價查詢。PPOCoder雖引入語法樹匹配,仍局限于淺層結構分析。

2.2 GRAPH-REWARD-SQL框架


上圖展示GRAPH-REWARD-SQL 框架創新點:

  • 采用GMNScore解決EX的語義盲區(如WHERE age>34與>=34得分相同的問題)
  • 為CTE-SQL設計漸進式獎勵模型StepRTM,填補中間獎勵空白(如下圖)

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

上圖展示了StepRTM的實現機制:

  • 將生成SQL拆解為帶位置標記的子查詢鏈;
  • 將參考查詢與子查詢均解析為運算符樹;
  • 通過樹結構逐級匹配,動態計算增量獎勵。

2.2.1 關系操作符樹(ROT)

精準建模SQL的結構與語義是查詢分析與比對的核心。雖然抽象語法樹(AST)能捕捉SQL的句法特征,但SQL天然缺失控制流圖(CFGs)和數據流圖(DFGs)等關鍵邏輯表征——這些恰是呈現程序邏輯與數據依賴的基石。

為此,引入關系操作符樹(Relational Operator Tree,ROT),將SQL查詢解構為關系代數操作符的層次化樹結構。

每個樹節點代表特定邏輯操作(如連接、投影),而枝干走向則暗含查詢的依賴關系與執行脈絡。

基于Apache Calcite框架,SQL被編譯為標準化中間表示RelNode,其內置操作符優化與子句精簡能力,可生成抗語法干擾的規范邏輯計劃。

RelNode能像CFGs/DFGs般,通過邊結構融合控制流與數據流,為深度查詢分析提供全景式的圖模型支撐。

2.2.2 FuncEvalGMN

獲取SQL圖表示后,使用基于SQL語句對訓練的圖匹配網絡(GMN)來評估功能等價性。該模型創新性地融合了全局位置編碼與跨圖注意力機制,通過對比學習預訓練結合監督學習,深度捕捉SQL查詢的語義關聯。相似度計算采用最終圖嵌入的負歐氏距離。

2.2.3 ROT/RelNode局部匹配(RelPM)

與抽象語法樹(AST)類似,RelNode同樣能通過圖匹配評估SQL相似性。RelPM 作為基于規則的匹配算法,通過SQL的RelNode表示來衡量相似度。其AST版本稱為AstPM。

二者均采用分層局部匹配策略,依據節點匹配的精確率與召回率得出全局相似度評分。

算法將生成節點逐一比對:當運算符類型和值相同時判定匹配,并通過子圖比對計算匹配分數,最終選取最高分節點作為匹配結果。

2.2.4 獎勵函數設計

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

上圖展示了獎勵機制設計,包含最終結果評估模型GMNScore和分步評估模型StepRTM。

2.2.5 結果獎勵:GMN評分機制

采用FuncEvalGMN指標來評估生成SQL的功能正確性,與強化學習獎勵模型的目標高度契合。具體獎勵模型設計如下:

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

該評分機制對SQL查詢中的語法錯誤和ROT解析錯誤實施分級懲罰。

2.2.6 分步獎勵機制:StepRTM

現代ETL(數據抽取-轉換-加載)流程通常不會一蹴而就,而是由分析師拆解為循序漸進的子查詢計劃(一般采用CTE)。

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

CTE不僅能提升復雜SQL的可讀性,清晰展示ETL的中間轉換步驟,更天然適配分步評估的需求。

借鑒子圖匹配技術,創新性地提出分步關系運算符樹匹配(StepRTM),通過分步獎勵機制提供漸進式反饋。

3. 效果對比

3.1 對比實驗設計

3.1.1 數據集

主要基于Spider和BIRD兩大基準展開:

  • Spider數據集囊括10,181條自然語言問詢與5,693個跨越138個領域的復雜SQL語句。
  • BIRD數據集包含12,751道專業問題,覆蓋37+個垂直領域。

采用Spider訓練集進行模型訓練,并選取兩個數據集的開發集進行評估。

PPO訓練前使用200k-Text2SQL數據集進行預熱,完整數據說明詳見附錄A。

3.1.2 基線模型

對比了多種典型基線方案:

  • 主流方案EX;
  • 基于DeepSeek-Coder-1.3B-Ins架構的BTRM獎勵模型
  • 匹配式獎勵模型AstPM與RelPM

3.1.3 評估體系

采用測試套件TS(開源地址:https://github.com/taoyds/test-suite-sql-eval)作為核心指標,通過多數據庫驗證提升評估魯棒性。

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

上表展示了Deepseek-Coder雙模型在各類基線及GMNScore獎勵機制下的TS表現。

3.1.4 實施細節

PPO訓練前分兩階段進行監督微調:

  • 使用與Spider等量的200k-Text2SQL子集訓練1.3B/6.7B模型2個epoch;
  • 將BIRD數據轉為CTE格式構建CTE-SFT預熱集,以優化逐步獎勵實驗中的CTE生成能力。

PPO超參設置如下:

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

3.2 獎勵機制性能對比

GMNScore成功取代了傳統EX方案,徹底擺脫了對SQL執行和數據庫環境的依賴。

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

如上表所示,在1.3B和6.7B模型上,GMNScore均取得了最優的平均TS得分,充分驗證了在強化學習中獎勵信號設計的關鍵作用

RelPM表現顯著優于AstPM,兩種模型規模下分別實現2.53%和1.71%的性能提升。

這一優勢源于ROT采用歸一化邏輯計劃進行SQL解析,有效規避了表層語法差異的干擾,為兩種獎勵模型提供了更魯棒的表示。

GMNScore通過圖嵌入技術捕捉深層語義特征,不僅省去了執行結果對比環節,更大幅降低了誤報噪聲。此外,該方案無需構建和維護數據庫,為大規模Text-to-SQL強化學習提供了輕量化解決方案。

引入StepRTM逐步獎勵機制后,模型性能得到進一步提升。

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

如上表所示,CTE-SFT與StepRTM的組合在各種獎勵模型中均展現出穩定增益。特別地,集成GMNScore與StepRTM的框架實現了最佳綜合表現:在BIRD數據集上提升5.87%,Spider數據集上提升0.97%。這表明由于BIRD數據集具備更復雜的數據庫結構和查詢邏輯,其從逐步獎勵機制中的獲益更為顯著。

3.3 GMNScore在GRPO中的卓越表現

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

GMNScore不僅與PPO配合默契,在GRPO框架下同樣大放異彩。通過使用PPO和GRPO對Qwen2.5-Coder-7B/14B-Ins模型進行訓練,上圖顯示:在這兩種強化學習方案中,GMNScore始終力壓EX,充分彰顯了其穩定可靠的優越性能。

3.4 StepRTM賦能CTE-SQL

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

上表通過兩組對比,揭示了逐步獎勵模型對SQL語句正確性與結構優化的雙重提升。

案例一中,傳統模型誤檢索評論表數據,而采用StepRTM的CTE-SQL通過"用戶定位→帖子評分聚合"的分步子查詢精準解決問題。

案例二中,當傳統SQL因硬編碼性別標識而失效時,CTE-SQL則以"男性英雄篩選→超能力提取"的模塊化設計完美實現需求。

3.5 GMNScore準確性分析

Graph-Reward-SQL: 字節跳動新框架讓Text-to-SQL訓練效率提升10倍-AI.x社區

實驗證明,GMNScore作為PPO的獎勵模型表現優異,遠超BTRM。通過分析訓練過程中兩種獎勵信號與實際結果的關聯性(如上圖),GMNScore始終保持著與執行結果的高度同步2。這說明GMNScore在訓練時能提供更穩定精準的反饋信號,這正是其性能出眾的關鍵所在。

本文轉載自????大語言模型論文跟蹤????,作者:HuggingAGI

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲成人国产精品 | 国产美女黄色片 | 成人福利视频网站 | 国产久视频 | 国产精品久久久久aaaa | 亚洲视频免费在线观看 | 久久视频免费看 | 黄色精品 | 一区二区在线 | 日本午夜免费福利视频 | 久久91av | 精品久久久久久 | 亚洲精品888 | 久久国内精品 | 天天天插| 美女一区| 国产精品视频一二三区 | 免费爱爱视频 | 亚洲高清视频在线 | 一级一片在线观看 | 毛片一级电影 | av网站在线看 | 久久久av | 青青伊人久久 | 日韩成人免费视频 | 色橹橹欧美在线观看视频高清 | 亚洲综合色站 | 国产在线一区二区三区 | 国产片一区二区三区 | 国产精品毛片 | 国产高清精品网站 | 精品亚洲一区二区三区 | 中日字幕大片在线播放 | 久久精品国产一区二区三区不卡 | 亚洲欧美另类在线观看 | 亚洲欧美成人 | 欧洲高清转码区一二区 | 亚洲永久入口 | 久久精品国产免费一区二区三区 | 欧美精品一区三区 | 亚洲午夜精品久久久久久app |