答案抽取正確率達96.88%，xFinder斷了大模型「作弊」的小心思

發布于 2024-6-17 12:46

瀏覽

0收藏

本文第一作者和通訊作者均來自上海算法創新研究院。其中，通訊作者李志宇博士畢業于中國人民大學計算機專業，并曾在阿里巴巴、小紅書等互聯網公司從事算法落地與研究工作，曾參與了包括千億級商品知識圖譜、用戶圖譜和輿情圖譜的研發工作，累計發表論文四十余篇。李志宇當前在上海算法創新研究院大模型部門（由熊飛宇博士帶領）負責整體的技術研發工作。研究院主頁：https://www.iaar.ac.cn/

大語言模型（LLM）的迅速發展，引發了關于如何評估其公平性和可靠性的熱議。

盡管現有的評估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各種 Benchmark 推動了行業進步，但專注于這些評估框架核心組件可信度或可靠性度量的團隊卻為數不多。

近日，上海算法創新研究院和中國人民大學的研究團隊發布了一篇名為《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的論文。這篇論文深入分析了LLM評估框架的整體流程，重點評估了答案抽取器組件在大模型評估中的可靠性和一致性。

答案抽取正確率達96.88%，xFinder斷了大模型「作弊」的小心思-AI.x社區

論文地址：
????https://arxiv.org/abs/2405.11874???
Github鏈接：
????https://github.com/IAAR-Shanghai/xFinder???
Huggingface鏈接：
????https://huggingface.co/collections/IAAR-Shanghai/xfinder-664b7b21e94e9a93f25a8412???

當前的評估框架主要依賴正則表達式（RegEx）來抽取答案，但這種方法存在明顯缺陷。人工復核結果顯示，其最佳抽取正確率僅為74.38%，評估結果極不可靠。

此外，RegEx方法容易被有意或無意地擬合，增加了「作弊」的可能性，從而影響評估結果的可靠性和一致性。下圖展示了LLM評估框架中RegEx組件抽取錯誤的情況。

答案抽取正確率達96.88%，xFinder斷了大模型「作弊」的小心思-AI.x社區

為了有效解決這一問題，上海算法創新研究院和中國人民大學的研究團隊開發了一個名為 xFinder 的新模型，用于更準確地抽取關鍵答案。

xFinder 具有以下優勢：

（1）不要求特定格式的答案輸出，具備較強的答案抽取魯棒性，抽取準確率高達95.18%，顯著優于目前最佳LLM評估框架中的RegEx方法。

（2）支持多樣化題型，能夠將字母選擇題自動轉換為問答題，并支持不同題型的混排評估，從而降低測試者擬合題型的可能性。

方法介紹

答案抽取正確率達96.88%，xFinder斷了大模型「作弊」的小心思-AI.x社區

xFinder的實現過程主要包括LLM響應內容的生成、KAF數據集的標注和xFinder的訓練。為了實現 xFinder 模型的有效訓練，團隊構建了一個專門的數據集——關鍵答案查找（KAF）數據集。該數據集包含 26,900 個訓練樣本、4,961 個測試樣本和 4,482 個泛化樣本，涵蓋多種評估任務。

大語言模型響應生成

首先，研究團隊從現有的主要評估基準和報告中挑選了多個典型的評估任務數據集，這些任務被分類為四種類型：字母選項任務、短文本選項任務、分類標簽任務和數學任務。

接著，團隊使用不同系列的 LLM（如 Qwen、InternLM、ChatGLM 等）生成這些任務的數據對。通過多種 LLM，團隊生成了豐富多樣的數據對，為 xFinder 模型的訓練提供了充分的數據支持。

自動標注與人工復核

團隊使用了一種策略，從 LLM 響應中提取關鍵答案并將其用作標簽，以構建高質量的 KAF 數據集。為提高訓練集的標注效率，他們采用了半自動化流程，通過不同提示使用 GPT-4 生成了兩組標注，并利用自一致性策略篩選出標注不一致的項和所有數學問題，提交給人工復查。為了確保測試集和泛化集的有效性和可靠性，所有標簽都經過兩輪手動注釋。

訓練 xFinder

為了增強 KAF 數據集的多樣性和模型的泛化能力，研究團隊采用了兩種數據增強策略：

（1）模擬 LLM 響應：對 KAF 訓練集中 50% 的字母選項問題進行修改，增加或刪除一到兩個選項，以模擬 LLM 的多樣化響應。

（2）豐富提示形式：提取包含關鍵答案句子的 LLM 響應的 10%，替換其中的提示部分，例如將「The final answer is A」替換為「Based on the context of the question, A is the most likely answer」。

此外，團隊使用 XTuner 工具和 QLoRA 方法，對 Llama 系列、Qwen 系列和 Gemma 系列等基座模型進行微調，最終獲得 xFinder。

答案抽取正確率達96.88%，xFinder斷了大模型「作弊」的小心思-AI.x社區