阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估

發布于 2025-5-23 06:49

瀏覽

0收藏

1.引言

1.1 研究背景與意義

在當今數字化時代，數據的高效處理和利用至關重要。Text-to-SQL 作為自然語言處理和數據庫領域的關鍵技術，旨在實現自然語言問題到 SQL 查詢的自動轉換，從而打破非專業用戶與數據庫系統之間的障礙，提高數據處理效率，拓展智能數據庫服務、自動數據分析和數據庫問答等應用范圍。隨著人工智能技術的不斷發展，特別是大型語言模型（LLMs）的出現，為 Text-to-SQ 任務帶來了新的機遇和挑戰。

1.2 現有研究的不足

盡管 Text-to-SQ 研究取得了一定進展，但仍存在諸多問題。以往研究主要集中在提取問題到 SQL 的模式并通過訓練編解碼器模型進行泛化，而對于基于 LLM 的Text-to-SQ 解決方案，核心的提示工程問題缺乏系統研究。具體表現為：在問題表示方面，現有研究雖有多種方式，但缺乏對不同表示及其與 LLMs 配合效果的系統分析；在示例選擇和組織上，策略多樣但最優選擇不明確；此外，開源 LLMs 在 Text-to-SQ 中的潛力未得到充分挖掘，且提示效率問題也亟待解決。

2.預備知識

2.1 Text-to-SQL 的發展脈絡

Text-to-SQL 的研究歷程涵蓋了多個階段和方法。早期研究采用預定義規則或查詢枚舉的方式，之后將其視為序列到序列任務，利用編碼器 - 解碼器架構訓練機器學習模型。隨著深度學習技術的飛速發展，諸如注意力機制、圖表示、語法解析等眾多技術被應用于 Text-to-SQ 任務，其中 BERT 是具有代表性的模型之一。近年來，隨著 LLMs 的興起，Text-to-SQ 研究進入新的階段。LLMs 通過在大規模文本語料上預訓練，能夠執行多種自然語言任務，其在 Text-to-SQ 中的應用核心在于找到最優提示，即提示工程。本文提出的 DAIL-SQL 從問題表示、上下文學習、監督微調三個方面來實現 T2SQL。

2.2 關鍵概念定義

2.2.1 問題表示

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

在零樣本場景下的 Text-to-SQL 中，問題表示的目標是在給定數據庫 D 上，對于自然語言目標問題 q，最大化 LLM M 生成正確 SQL ??? 的可能性。這需要綜合考慮數據庫模式等有用信息，以及可能的指令語句、規則暗示和外鍵信息等，通過函數??(?,?) 來實現。

2.2.2 上下文學習

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

在少樣本場景下，上下文學習是 LLMs 從輸入提示中的示例學習的過程。它包括示例選擇和示例組織兩個關鍵環節，目標是在目標問題 q 和數據庫 D 上，最大化 LLM M 生成正確 SQL ??? 的可能性，同時考慮從給定的示例集合 Q 中選擇 k 個示例，并通過函數??(?,?,?) 進行表示。

2.2.3 監督微調

監督微調是使用額外的任務特定訓練數據來增強 LLMs，使其更適合特定下游任務的方法。對于 Text-to-SQ 任務，給定一個大型語言模型 M 和一組 Text-to-SQ 訓練數據 T，目標是最小化經驗損失，包括對給定 LLM 進行微調以及尋找最優問題表示兩個子任務。

3.方法

3.1 問題表示方法探究

3.1.1 現有方法對比

基本提示（BS??）：以清單 1 中所示，一種簡單的表示方法，由表 schemas 組成、以 Q 為前綴的自然語言問題和以 A 為前綴 : SELECT 提示 LLM 生成 SQL。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

文本表示提示（TR??）：如清單 2 所示，用自然語言表示模式和問題，并在開頭添加指令，引導 LLMs。在零樣本場景下對 Spider - dev 的執行準確率為 69.0%。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

OpenAI 演示提示（OD??）：如清單 2 所示，由指令、schema 和問題組成，所有信息用 #注釋，指令更具體，例如 “僅需完成的sqlite SQL查詢語句，無需提供說明。”。它在不同 LLMs 上有不同表現，在某些情況下能取得較好的性能。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

代碼表示提示（CR??）：如清單 4 所示，以 SQL 語法呈現 Text-to-SQ 任務，直接呈現 CREAT TABLE 建表語句，并在注釋中給出自然語言問題。它能提供全面的數據庫創建信息，如列類型和主 / 外鍵，對 LLM CODE - DAVINCI - 002 的準確率較達到了 75.6% 。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

Alpaca SFT 提示（AS??）：如清單 5 所示，為監督微調設計的提示，以 Markdown 格式提示 LLM 根據輸入上下文完成任務。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

3.1.2 實驗結果與分析

（1）通過在 zero-shot 零樣本場景下對 Spider-dev 數據集的實驗（圖 1），比較不同問題表示方法在不同 LLMs 上的性能。結果顯示，不同 LLMs 對問題表示方法有不同偏好。例如，OD??適合多種 LLMs，在 GPT-3.5-Turbo 上執行準確率達到75.5%；而 AS??在 GPT-3.5-Turbo、TEXT-DAVINCI-003 和 Vicuna-33B 上表現較差。GPT-4 對簡單的 BS?? 有偏好，這表明強大的 LLM 可能會減輕表示設計的復雜性。綜合不同 LLMs 的平均性能，GPT-4 和 GPT-3.5-Turbo 在零樣本場景下能力較強。因此，對于零樣本場景，GPT-3.5-Turbo 和 OD?? 可能是較好的選擇；對于較弱的 LLMs，如 TEXT-DAVINCI- 003 和 Vicuna-33B，OD?? 和 CR?? 更優。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

（2）消融研究進一步探討了外鍵（FK）和規則暗示（RI）對性能的影響。

外鍵暗示不同關系表之間的關系，在 Text-to-SQL 任務中可能有幫助。只有 CR?? 包含外鍵信息，通過在其他表示中添加外鍵信息并在 Spider-dev 上進行評估（圖 2），發現外鍵能顯著提高多數 LLMs 的執行準確率，但對某些組合有負面影響。例如，外鍵使 BS??的執行準確率提高了 5.0%，但對 OD??和 AS??的性能有不利影響。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

受 OD?? 性能的啟發，研究規則暗示的影響。通過在不同表示中加入 “沒有解釋” 規則暗示并進行消融研究（圖 3），發現添加該規則能一致提高所有 LLMs 在精確集匹配和執行準確率方面的性能，其中最顯著的改進分別超過 6% 和 3%。而對于 OD??，移除該規則會導致精確集匹配準確率下降 2.4% - 6.2%，執行準確率下降 1.3% - 2.4%，表明該規則暗示的重要性。同時，對另一種規則暗示 “Let’s think step by step” 進行測試，發現其在 Text-to-SQ 任務中的性能高度不穩定。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

3.2 上下文學習的關鍵要素

上述問題表示方法使 LLM 能夠直接通過 zero-shot 零樣本學習輸出所需的 SQL。但是 LLM 還可以通過上下文學習，在文本中輸入少量的示例，使其在文本到 SQL 方面表現的更好。因此，在本小節中，我們將討論上下文的關鍵學習，即示例選擇和示例組織。我們首先給出上下文學習的方案，以進一步進行討論。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

3.2.1 示例選擇

隨機選擇：隨機從可用候選示例中選取 k 個示例，是示例選擇的一種基線方法。

問題相似性選擇（QTS??）：選擇 k 個與目標問題最相似的示例，通過將示例問題和目標問題嵌入預訓練語言模型，應用距離度量方法選擇示例。

掩碼問題相似性選擇（MQS??）：針對跨域 Text-to-SQ，通過用掩碼標記替換表名、列名和值來消除特定領域信息的負面影響，然后計算嵌入相似度選擇示例。

查詢相似性選擇（QRS??）：不使用目標問題，而是旨在選擇 k 個與目標 SQL 查詢相似的示例。通過初步模型生成近似的 SQL 查詢，然后根據關鍵詞將示例查詢編碼為二進制離散語法向量，綜合考慮相似度和多樣性選擇示例。

指出在示例選擇時應綜合考慮問題和 SQL 查詢，因為根據上下文學習的本質是從類比中學習，在 Text-to-SQ 任務中需要生成與給定問題匹配的查詢，所以 LLMs 應該學習從問題到 SQL 查詢的映射。

3.2.2 示例組織

全信息組織（FI??）：如清單 6 所示，組織示例的方式與目標問題相同，包含完整信息，包括指令、模式、問題和對應的 SQL 查詢，僅在結尾的 “SELECT” 處與目標問題有所不同，此處為對應的 SQL 查詢。這種方式保證了質量，但可能在數量上受限。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

僅 SQL 組織（SO??）：如清單 7 所示，只包含所選示例的 SQL 查詢，并在提示中有前綴指令。這種方式旨在最大化示例數量，但丟失了問題與 SQL 查詢的映射信息，而該信息可能是有用的。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

提出一種新的示例組織策略 DAIL - SQL 的示例組織（DAIL??），它呈現問題和相應的 SQL 查詢，作為 FI??和 SO??的折衷，保留問題-SQL 映射，同時減少示例的標記長度，通過去除標記成本較高的數據庫模式來實現。

3.3 DAIL-SQL 的創新方法

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

示例選擇（DAIL??）：綜合考慮問題和查詢來選擇候選示例。首先在目標問題??和候選集 Q 中的示例問題????中掩碼特定領域的單詞，然后根據掩碼后的問題嵌入的歐幾里得距離對候選示例進行排序，同時計算預預測的 SQL 查詢??′與 Q 中的????的查詢相似性，最后根據問題相似性和查詢相似性大于預定義閾值??的標準選擇示例，使得所選的 k 個示例在問題和查詢方面都有良好的相似性。

示例組織（DAIL??）：呈現問題和相應的 SQL 查詢，保留問題 - SQL 映射，同時減少示例的標記長度。通過去除標記成本較高的數據庫模式來實現，既保證了質量又考慮了數量。

3.4 監督微調的應用與探索

為了提高大型語言模型在零樣本場景下的性能，現有的文本到 SQL 方法中流行的選擇是上下文學習，這在上述小節中進行了討論。作為一種替代但有前途的選擇，有監督微調目前探索較少。與針對各種語言任務的有監督微調類似，我們可以將其應用于文本到 SQL 領域，并提高大型語言模型在這個下游任務上的性能。為了進一步了解有監督微調在文本到 SQL 中的作用，我們首先提供如下簡要公式。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

3.4.1 公式及原理

對于 Text-to-SQ 任務，給定一個大型語言模型 M 和一組 Text-to-SQ 訓練數據

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

，監督微調的目標是最小化經驗損失。其中，???? 和 ???? 分別是自然語言問題和其在數據庫????上的對應查詢，通過最小化損失函數 L 來衡量生成查詢與真實查詢之間的差異。監督微調包括兩個子任務：對給定 LLM 進行微調以及尋找最優問題表示，這與問題表示部分相關聯。

3.4.2 數據準備和微調過程

從給定的 Text-to-SQ 數據集中生成提示 - 響應對進行微調。具體而言，給定數據集

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

，將目標問題和給定數據庫作為提示，將期望的查詢作為 LLM 的響應，即生成 T ={(???? = ??(????, ????), ???? = ????)}。根據計算資源情況，可以選擇全微調或參數高效微調。例如，在有足夠計算資源時可選擇全微調，否則可選擇參數高效微調。

3.4.3 開源 LLMs 的監督微調研究

（1）選擇 LLaMA 及其對齊變體作為研究對象，包括 LLaMA - 7B、LLaMA - 13B、LLaMA - 33B、Falcon - 40B、Alpaca - 7B、GPT4ALL - 7B、Vicuna - 7B、Vicuna - 13B、Vicuna - 33B、LLaMA - 2 - CHAT - 7B、LLaMA - 2 - CHAT - 13B、LLaMA - 2 - CHAT - 70B 和 CodeLLaMA - 34B 等。

（2）在零樣本場景下，通過對不同開源 LLMs 在 Spider - dev 上的實驗（表 3），研究問題表示、模型規模和對齊對性能的影響。結果表明，CR??在不同開源 LLMs 上表現最佳，可能是因為其包含的全數據庫知識補償了開源 LLMs 的能力不足，或者刺激了 LLMs 的編碼能力。從模型規模來看，LLaMA 和 Vicuna 的模型規模與性能呈正相關，例如 LLaMA - 2 - CHAT - 70B 隨著參數增多性能提高。從對齊角度看，對齊后的 LLMs 在 Text-to-SQ 任務中表現更好，例如 Vicuna 在相同模型規模下比 LLaMA 執行準確率高約 5%。Falcon - 40B 由于訓練數據集中缺乏專用代碼數據，表現較差。CodeLLaMA - 34B 通過精心收集的代碼數據在對齊階段表現出顯著的性能提升，盡管其參數只有 LLaMA - 2 - CHAT - 70B 的一半，但性能卻超過了后者，這凸顯了訓練語料在 LLMs 中的重要性。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

（3）在少樣本場景下，以 LLaMA - 33B 和 Vicuna - 33B 為例，使用 CR??和 DAIL Selection 進行實驗（圖 5）。結果表明，LLaMA - 33B 受益更多，在 5 - shot Full - Information Organization 示例下達到 36.4% 的精確集匹配準確率。不同組織策略在不同 k - shot 場景下表現不同，Full - Information Organization 在多數情況下表現較好。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

（4）監督微調后，在零樣本場景下，開源 LLMs 的性能得到顯著提升（圖 6）。不同表示方法和模型規模之間的差距在微調后變窄，可能是因為微調后 LLMs 學會了在沒有任務指令和外鍵的情況下回答新的 Text-to-SQ 問題。在少樣本場景下，對微調后的 LLaMA - 7B 和 13B 進行實驗（表 4）。結果表明，微調后的 LLMs 無法從示例中學習，添加上下文示例反而導致精確集匹配和執行匹配準確率下降，這可能是因為 LLM 過度擬合零樣本提示，使得示例變得無用。

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

4.實驗

4.1 實驗設置

4.1.1 數據集選擇

使用了兩個被廣泛認可的數據集：Spider 和 Spider - Realistic。Spider 是一個大規模的跨域 Text-to-SQ 數據集，包含 200 個數據庫的 8659 個訓練實例和 1034 個開發實例，每個實例由一個特定數據庫上的自然語言問題及其對應的 SQL 查詢組成。在本文中，使用開發集 Spider - dev 進行評估。Spider - Realistic 是 Spider 的一個更具挑戰性的變體，它從 Spider - deV 中選擇了 508 個示例，并手動修改了問題，同時保持 SQL 查詢不變。在少樣本場景中，使用 Spider 的訓練集作為示例候選集，用于在 Spider - dev 和 Spider - Realistic 上進行測試。

4.1.2 評估指標確定

采用精確集匹配準確率（EM）和執行準確率（EX）作為評估指標。精確集匹配準確率衡量預測的 SQL 查詢與對應的真實 SQL 查詢之間匹配的 SQL 關鍵詞數量，執行準確率則比較預測的 SQL 查詢在某些數據庫實例上的執行輸出與真實 SQL 查詢的執行輸出。這兩個指標能夠更準確地評估模型的性能，因為對于一個給定的問題可能存在多個有效的 SQL 查詢。

4.1.3 LLM 參數設置

為了確保公平比較，對所有方法使用相同的最大上下文長度，OpenAI LLM 為 4096，開源 LLM 為 2048。在評估過程中，預留 200 個標記用于響應生成。默認情況下，將溫度參數設置為 0，以消除隨機性的影響。在處理響應時，遵循現有工作，提取響應中的第一個 SQL 查詢并去除額外的輸出。

4.2 問題表示實驗結果

4.2.1 零樣本場景評估

通過在零樣本場景下對 Spider - dev 數據集的實驗（圖 1），比較了不同問題表示方法在不同 LLMs 上的性能。結果表明，不同 LLMs 對問題表示方法的偏好不同，OD??在大多數 LLMs 上表現較好，而 AS??在部分 LLMs 上表現較差。通過消融研究（圖 2、圖 3），進一步探討了外鍵（FK）和規則暗示（RI）對性能的影響。外鍵在多數情況下能提高 LLMs 的執行準確率，但對某些組合有負面影響；規則暗示 “沒有給出任何解釋” 能顯著提高所有 LLMs 的性能，而另一種規則暗示 “讓我們一步一步地思考。” 性能不穩定。綜合來看，OD??與外鍵和 GPT - 3.5 - TURBO 的組合在零樣本場景下是最有效和經濟的。

4.2.2 消融實驗總結

對外鍵和規則暗示的消融實驗結果表明，它們對 Text-to-SQ 任務的性能有重要影響。外鍵信息對不同的問題表示方法和 LLMs 組合有不同的影響，而規則暗示 “沒有給出任何解釋” 在提高性能方面表現出一致性。這些結果為進一步優化問題表示方法提供了依據。

4.3 上下文學習實驗詳情

在少樣本場景下，我們使用 GPT-4、GPT-3.5-Turbo、TEXT-DAVINCI-003 和 Vicuna-33B 來檢驗不同的示例選擇和組織策略。

4.3.1 示例選擇實驗分析

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

在少樣本場景下，對不同示例選擇策略進行了實驗（表 2）。通過計算問題和查詢的 Jaccard 相似度，并與目標實例進行比較，結果表明 DAIL??策略在大多數情況下優于其他策略。同時，問題和查詢相似度越高，執行準確率越高，這進一步強調了在示例選擇中同時考慮問題和查詢的重要性。

4.3.2 示例組織實驗解讀

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

在少樣本場景下，對不同示例組織策略進行了實驗（圖 4）。結果表明，不同 LLMs 對不同示例組織策略有不同的偏好。例如，GPT-4 在 DAIL 組織下受益最大，其執行準確率在 Spider-dev 上從 72.3% 提高到 83.5%，在 Spider-Realistic 上從 66.5% 使得該組織方式對其效果較好。對于 GPT-3.5-Turbo 和 TEXT-DAVINCI-003，添加示例可能會導致執行準確率下降，這可能是由于它們的上下文學習能力有限。對于 Vicuna-33B 隨著示例數量的增加，其性能在 DAIL 組織下持續提高。綜合來看，DAIL 組織在某些情況下能夠取得較好的性能，并且對于具有較強上下文學習能力的 LLM，如 GPT-4 效果更為明顯。

4.4 監督微調實驗成果

在這一部分中，我們研究文本到 SQL 的有監督微調。由于對 OpenAI 大語言模型進行微調的成本高得難以承受，我們專注于開源大語言模型。鑒于很少有現有工作采用開源大語言模型且它們的性能尚不清楚這一事實，我們首先對開源大語言模型進行全面評估，采用各種問題表示、示例選擇和組織策略。之后，我們在文本到 SQL 中對開源大語言模型進行微調，并觀察它們在零樣本和少樣本場景下的性能提升。

4.4.1 開源 LLMs 實驗總結

在零樣本場景下，對不同開源 LLMs 進行了實驗（表 3），分析了問題表示、模型規模和對齊對性能的影響。結果表明，CR??在不同開源 LLMs 上表現最佳，模型規模和對齊對性能有積極影響。在少樣本場景下，以 LLaMA - 33B 和 Vicuna - 33B 為例進行實驗（圖 5），結果表明 LLaMA - 33B 受益更多，Full - Information Organization 在不同 k - shot 場景下表現較好。在監督微調方面，零樣本場景下監督微調能顯著提升性能，不同表示方法和模型規模之間的差距在微調后變窄（圖 6）。少樣本場景下，微調后的 LLMs 無法從示例中學習（表 4）。

從實驗結果可以看出，開源 LLMs 在 Text-to-SQ 任務中具有一定的潛力，尤其是在監督微調后，其性能在零樣本場景下有明顯提升，能夠與一些非開源的 LLMs 相媲美。然而，少樣本場景下的問題也不容忽視，這可能需要進一步研究如何更好地利用示例信息，或者探索更合適的微調方法來解決。

4.4.2 標記效率實驗探討

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估-AI.x社區

強調了標記效率在 Text-to-SQ 任務中的重要性，并對不同表示方法和組織策略進行了標記效率的實驗（圖 7）。在零樣本場景下，外鍵相關的提示在提高執行準確率的同時可能會消耗更多的標記。在少樣本場景下，FI??組織方式效率較低，DAIL??在準確性和效率方面優于 SO??和 FI??。與其他先進的 Text-to-SQ 方法相比，DAIL - SQL 在準確性和效率上表現更優。對于開源 LLMs，微調后的 LLMs 標記效率有所提高，但添加示例可能會降低效率。

標記效率的研究為實際應用提供了重要的參考。在實際使用 LLMs 進行 Text-to-SQ 任務時，需要考慮如何在保證性能的前提下，盡可能地減少標記的使用，以提高效率和降低成本。DAIL - SQL 在這方面表現出了優勢，為未來的研究和應用提供了一個良好的方向。

5.討論

5.1 問題表示建議

推薦使用代碼表示提示（CR??）和 OpenAI 演示提示（OD??），因為它們在實驗中表現出較好的性能。同時，外鍵和規則暗示等信息對于問題表示也非常有幫助，可以進一步提高性能。在實際應用中，可以根據具體的 LLM 和任務需求，靈活選擇和組合這些方法，以達到最佳的效果。

5.2 示例選擇要點

強調在示例選擇中應同時考慮自然語言問題和 SQL 查詢的相似性，這是設計有效示例選擇策略的關鍵因素。通過實驗證明，同時考慮這兩個因素的 DAIL??策略在大多數情況下優于其他策略。未來的研究可以進一步探索如何更準確地衡量和利用這種相似性，以提高示例選擇的質量。

5.3 示例組織策略

根據所采用的 LLM 的能力來選擇示例組織策略。如果 LLM 足夠強大，如 GPT - 4，呈現問題和 SQL 查詢對是一種有效且高效的選擇；否則，呈現全信息示例可能更為合適。這一結論為不同能力的 LLMs 在處理 Text-to-SQ 任務時提供了一種實用的指導原則，有助于提高任務的處理效率和效果。

5.4 開源 LLM 的思考

指出擁有更多參數的 LLMs 對 Text-to-SQ 任務有益，但訓練語料在其中起著更為關鍵的作用。監督微調對于開源 LLMs 在 Text-to-SQ 任務中具有必要性且有很大的潛力。未來的研究可以進一步探索如何更好地利用監督微調技術，提高開源 LLMs 的性能，同時也需要關注訓練語料的質量和多樣性，以充分發揮 LLMs 的潛力。

5.5 研究局限性分析

由于資源有限，只測試了兩種規則暗示，未來可以進一步探索更多規則暗示以提高性能。只使用了 Spider 訓練集對開源 LLMs 進行微調，額外的 Text-to-SQ 數據可能會進一步增強 LLMs。Spider 和 Spider - Realistic 中的數據庫可能不夠大，在面對大量表的 Text-to-SQ 任務時可能會出現新的挑戰。當前的評估指標優先考慮正確性而非效率，未來可以進一步研究如何促使 LLM 生成高效的 SQL 查詢。

這些局限性為未來的研究指明了方向。研究人員可以在規則暗示、數據使用、數據庫規模和評估指標等方面進行進一步的探索和改進，以推動 Text-to-SQ 技術的不斷發展。

6.結論

6.1 研究總結

本文對基于 LLM 的 Text-to-SQ 任務進行了系統的研究。通過對現有提示工程方法的系統比較，提出了一種新的集成解決方案 DAIL - SQL，該方案在 Spider 排行榜上取得了 86.6% 的執行準確率，刷新了紀錄。在問題表示方面，深入研究了不同的表示方法及其組成部分對性能的影響；在上下文學習方面，提出了 DAIL - SQL 的示例選擇和組織方法，強調了同時考慮問題和查詢的重要性；在監督微調方面，展示了開源 LLMs 在 Text-to-SQ 任務中的潛力，同時也指出了微調后可能出現的問題，如在少樣本場景下無法從示例中學習。此外，還強調了標記效率在提示工程中的重要性，并通過實驗證明了 DAIL - SQL 在準確性和效率方面的優勢。

6.2 未來研究方向

然而，本文也存在一些局限性，未來的研究可以進一步探索更多規則暗示、使用更多的 Text-to-SQ 數據、應對更大規模的數據庫以及優化評估指標以提高 Text-to-SQ 任務的性能。這些方向將有助于進一步完善 Text-to-SQ 技術，使其在實際應用中發揮更大的作用。

總之，本文為 Text-to-SQ 任務的進一步研究提供了全面的理論基礎和實踐指導，希望能夠激發更多的研究人員關注和參與到這一領域的研究中來，共同推動 Text-to-SQ 技術的不斷發展。

論文地址：https://arxiv.org/pdf/2308.15363

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

代碼地址：https://github.com/BeachWang/DAIL-SQL

原文鏈接：https://www.yuque.com/u21774036/qnmlr1/ilxxsoh26grbafe4

本文轉載自????AIGC前沿技術追蹤????，作者：AIGC前沿技術追蹤

標簽

大型語言

模型

SQL

贊

回復

舉報

社區頭條

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準評估

1.引言

1.1 研究背景與意義

1.2 現有研究的不足

2.預備知識

2.1 Text-to-SQL 的發展脈絡

2.2 關鍵概念定義

2.2.1 問題表示

2.2.2 上下文學習

2.2.3 監督微調

3.方法

3.1 問題表示方法探究

3.1.1 現有方法對比

3.1.2 實驗結果與分析

3.2 上下文學習的關鍵要素

3.2.1 示例選擇

3.2.2 示例組織

3.3 DAIL-SQL 的創新方法

3.4 監督微調的應用與探索

3.4.1 公式及原理

3.4.2 數據準備和微調過程

3.4.3 開源 LLMs 的監督微調研究

4.實驗

4.1 實驗設置

4.1.1 數據集選擇

4.1.2 評估指標確定

4.1.3 LLM 參數設置

4.2 問題表示實驗結果

4.2.1 零樣本場景評估

4.2.2 消融實驗總結

4.3 上下文學習實驗詳情

4.3.1 示例選擇實驗分析

4.3.2 示例組織實驗解讀

4.4 監督微調實驗成果

4.4.1 開源 LLMs 實驗總結

4.4.2 標記效率實驗探討

5.討論

5.1 問題表示建議

5.2 示例選擇要點

5.3 示例組織策略

5.4 開源 LLM 的思考

5.5 研究局限性分析

6.結論

6.1 研究總結

6.2 未來研究方向

目錄