DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1
大型語言模型(LLMs)在推理能力上的進展引發了對其在復雜任務中表現的關注,尤其是在金融領域。DianJin-R1是一個針對金融領域的推理增強框架,通過推理增強監督和強化學習,提升金融推理任務的表現。
DianJin-R1模型在金融測試集(CFLUE、FinQA、CCC)上顯著優于基礎模型,尤其在CFLUE和CCC上表現突出,DianJin-R1-32B在CFLUE上準確率從77.95提升至86.74,CCC上從56.50提升至96.00,超越DeepSeek-R1。
摘要
DianJin-R1是一個針對金融領域的推理增強框架,旨在解決大語言模型在該領域的推理挑戰。該框架使用DianJin-R1Data數據集,結合CFLUE、FinQA和中國合規檢查(CCC)數據,涵蓋多樣的金融推理場景。模型DianJin-R1-7B和DianJin-R1-32B基于Qwen2.5進行微調,采用結構化格式生成推理步驟和最終答案。通過應用群體相對策略優化(GRPO)強化學習,模型獲得了結構化輸出和答案正確性的雙重獎勵信號。
在五個基準測試上,DianJin-R1模型在復雜金融任務中表現優于非推理模型,尤其在真實世界的CCC數據集上,單次推理模型的表現超過多代理系統。DianJin-R1展示了通過結構化監督和獎勵對齊學習提升金融推理的有效性,提供了可擴展的實際應用解決方案。
簡介
大型語言模型(LLMs)在推理能力上的進展引發了對其在復雜任務中表現的關注,尤其是在金融領域。DianJin-R1模型通過推理增強監督和強化學習,提升金融推理任務的表現。構建了高質量的推理數據集DianJin-R1-Data,來源包括CFLUE、FinQA和合規性數據集CCC。采用GPT-4o進行驗證,確保生成答案與推理步驟的一致性。
DianJin-R1-7B和DianJin-R1-32B模型通過結構化輸出格式進行監督微調,并使用GRPO強化學習算法優化推理質量。在CFLUE、FinQA、CCC等基準測試中,DianJin-R1模型表現優于非推理模型,尤其在金融領域。實際應用中,基于LLMs的多代理系統在CCC數據集上進行條件合規檢查,整合中間推理步驟以得出最終判斷。DianJin-R1結合高質量監督、結構化推理生成和獎勵驅動的強化學習,提供了一種可擴展的金融推理增強策略。
DianJin-R1-Data建設
數據源
CFLUE數據集。包含38,638道金融考試多選題,經過長度、難度和模糊性三步篩選,確保問題清晰且具備深度推理能力,適合評估LLMs的金融推理能力。
FinQA數據集。包含8,281個金融問答對,經過相同的長度和難度篩選,適合評估英語金融推理。
CCC數據集。內部數據集,評估服務代理的合規性,包含客戶與服務代理的對話,經過人工審核,確保合規與非合規案例的平衡分布。
推理數據集構建
針對CCC、CFLUE和FinQA數據集的差異,采用不同的推理構建方法。
CFLUE問題的推理生成
定義DCFLUE MCQ為包含問題、解釋和答案的多選題數據集。使用GPT-4o將DCFLUE MCQ中的多選題轉換為開放式問題,生成DCFLUE OE數據集。利用DeepSeek-R1生成推理鏈和預測答案,并用GPT-4o驗證答案和推理的一致性。滿足條件的實例保留為有效推理樣本,未滿足的實例最多重試3次,最終未成功的實例歸為難題樣本。
生成的推理增強數據集為RCFLUE MQC,難題數據集為GCFLUE MQC。對DCFLUE OE應用相同流程,生成RCFLUE OE和GCFLUE OE數據集。
FinQA問題的推理生成
FinQA數據集的QA對已為開放式格式,表示為D FinQA。將CFLUE中的推理生成過程應用于D FinQA,得到推理增強數據集R FinQA。生成的非推理數據集為G FinQA。
基于多Agent的CCC對話推理生成
CCC數據集DCCC包含對話x_i及其對應的合規性判斷答案y_i,判斷過程復雜,需遵循指導原則。開發了一個工作流程,從開始節點到兩個結果節點,評估合規性違規與否。
使用多代理LLM系統生成推理,采用Qwen2.5-72B-Instruct為每個條件節點生成中間推理鏈(CoTs)和答案。最終答案a_i由結果節點決定,若與金標準答案y_i匹配,則合并中間推理鏈生成統一推理r_i。若不匹配,最多重試T次,生成的推理增強數據集為RCC,未增強數據集為GCC。
模型訓練
訓練大型語言模型(LLMs)進行金融推理分為兩個階段:
- 通過監督微調(SFT)學習推理。
- 通過強化學習(RL)增強推理能力。
使用SFT學習推理
使用R CFLUE MCQ、RCFLUE OE、R FinQA和RCCC數據集對LLMs進行微調,以生成推理鏈(CoT)和最終答案。每個訓練實例包含問題x、推理路徑r和答案y。在微調過程中,問題x作為模型輸入,推理r和答案y作為目標輸出,幫助模型學習生成連貫的推理步驟和正確的解決方案。
使用強化學習增加推理能力
GCFLUE MCQ數據集用于強化學習(RL),旨在提升推理能力。采用Group Relative Policy Optimization(GRPO)算法,結合兩種獎勵機制:
- 格式獎勵:輸出需包含一個推理段(...)和一個最終答案(...),格式正確得1分,錯誤得0分。
- 準確性獎勵:若標簽內內容與參考答案完全一致,得1分;否則得0分,鼓勵生成準確答案。
實驗
實驗設置
DianJin-R1-Data的統計信息總結在表1中,CFLUE MCQ占SFT數據的大部分,數據經過洗牌以防止過擬合。
模型訓練分為兩個階段,使用NVIDIA A100 GPU,7B模型在單節點8 GPU上訓練,32B模型在4節點32 GPU上訓練。SFT階段使用DeepSpeed的Zero-3優化,學習率1.0 × 10^-5,序列長度16K,bf16精度,訓練3個epoch,梯度累積16步。RL階段每個樣本進行8次回合,訓練批量大小1024,回合批量大小256,學習率1.0 × 10^-6,采樣溫度0.6,訓練5個epoch。
評估模型使用三個金融基準數據集:CFLUE、FinQA和自有數據集CCC,以及兩個推理能力評估基準:MATH500和GPQA-Diamond。報告準確率,即正確回答問題的比例,并計算所有測試集的平均準確率。CFLUE和CCC為中文數據集,其余為英文。FinQA和CCC的答案正確性由GPT-4o評估,其他數據集通過規則方法提取答案并與標準答案比較。
基線模型分為兩類:一類為無明確推理能力的通用LLM(如GPT-4o、DeepSeekV3等);另一類為具備推理能力的通用LLM(如DeepSeek-R1及其衍生模型)。
結果
DianJin-R1模型在金融測試集(CFLUE、FinQA、CCC)上顯著優于基礎模型,尤其在CFLUE和CCC上表現突出,DianJin-R1-32B在CFLUE上準確率從77.95提升至86.74,CCC上從56.50提升至96.00,超越DeepSeek-R1。
在一般領域測試集(MATH-500、GPQA-Diamond)上,DianJin-R1模型也有提升,但由于未使用一般領域推理數據,表現仍低于大型模型或經過一般推理數據微調的模型。
一般推理模型(如DeepSeek-R1、QwQ-32B)在一般推理基準上表現優異,但在金融基準上不一定更好,DeepSeek-R1在CFLUE和CCC上優于DeepSeek-V3,但在FinQA上表現下降,DeepSeek-R1-Distill-Qwen-7B在所有金融測試集上均不及Qwen-2.5-7B-Instruct。
討論
SFT顯著提升了模型在所有數據集上的表現,增強了推理能力。RL在所有數據集上均有改善,唯獨FinQA例外,可能因RL實例為中文,FinQA為英文,未來將加入英文示例。
SFT使用的三個數據源為CFLUE、FinQA和CCC,其中CFLUE對性能影響最大,包含31,000多個推理實例,單獨使用時準確率從59.26提升至65.67。添加FinQA或CCC主要提升各自測試集的表現,對整體影響有限。
多代理LLM系統用于檢測CCC數據集中的合規性違規,采用條件節點的推理生成工作流程。引入多代理方法后,準確率從55.50提升至95.00,顯示出結構化推理的有效性,但平均每個實例需8.15次API調用。DianJin-R1-7B和DianJin-R1-32B模型在僅一次API調用的情況下,表現出與多代理方法相當或更優的性能,體現了有效推理和組織推理路徑的能力。
總結和未來工作
DianJin-R1是一個針對金融領域的大型語言模型的推理增強框架,結合結構化監督和強化學習算法(GRPO),提升復雜金融和合規任務的表現。實驗表明,推理感知訓練顯著提高了模型的準確性和可解釋性。
本文轉載自???靈度智能???,作者:靈度智能
