Fin-R1:通過強化學習實現金融推理的大語言模型 原創
摘要
推理大語言模型(LLMs)正在各個領域快速發展,但其處理復雜金融問題的能力仍需深入探索。本文介紹了Fin-R1,一個專為金融推理設計的大語言模型。該模型參數規模輕量(70億),顯著降低了部署成本,同時有效解決了金融領域的三大痛點:碎片化的金融數據、不可控的推理邏輯以及薄弱的業務泛化能力。為提升模型推理能力,我們首先通過從多個權威數據集蒸餾和篩選,構建了Fin-R1-Data——一個包含約60,091條完整思維鏈(CoT)的高質量數據集,涵蓋推理和非推理金融場景。隨后,我們基于該數據集進行監督微調(SFT)和強化學習(RL)訓練。這種兩階段框架顯著增強了模型執行復雜金融推理任務的能力,使其在金融AI應用中能夠做出更準確且可解釋的決策。盡管Fin-R1僅有70億參數的緊湊結構,但在覆蓋多種金融業務場景的權威基準測試中表現優異,平均得分75.2,綜合排名第二,顯著優于其他大規模推理LLMs。值得注意的是,Fin-R1優于DeepSeek-R1-Distill-Llama-70B,展現了其高效性和有效性。在專注于金融推理的ConvFinQA和FinQA任務中,Fin-R1分別取得了85.0和76.0的先進水平得分。在實際應用中,Fin-R1在金融合規和機器人投顧等領域展現了強大的自動化推理和決策能力,為長期困擾金融行業的挑戰提供了高效解決方案。代碼已開源:https://github.com/SUFE-AIFLM-Lab/Fin-R1。
1 引言
近年來,大語言模型(LLMs)的快速迭代顯著推動了人工智能向通用人工智能(AGI)的演進。OpenAI的o1系列模型通過“探索-反思-迭代”機制擴展“思維鏈”推理過程的長度,增強了解決復雜推理任務的能力。類似的o1類LLMs,如QwQ和Marco-o1,在數學、編程和邏輯推理等多種任務中取得了顯著進步。金融領域的o1模型復現版本,如XuanYuan-FinX1-Preview和Fino1,也展示了LLMs在模擬人類認知過程和處理復雜任務方面的巨大潛力。DeepSeek-R1采用了與o1類模型完全不同的方法,通過純強化學習(RL)增強大語言模型的推理能力。經過數千步的無監督RL訓練,結合少量冷啟動數據和多階段訓練框架,該模型在基準測試中展現出涌現的推理能力。同時,這種訓練策略進一步優化了模型的推理性能和可讀性,證明了RL驅動方法在提升大規模語言模型推理能力方面的有效性。
然而,通用推理模型應用于金融領域時,仍面臨垂直場景適配的挑戰。金融推理任務通常涉及法律條款、經濟指標和數學建模等知識,不僅需要跨學科知識的整合,還要求推理邏輯可驗證且步驟清晰。在真實金融業務場景中應用LLMs時,常遇到以下問題:
1. 金融數據碎片化:數據不一致不僅增加了預處理復雜度,還可能導致信息冗余或缺失,削弱模型對金融領域的全面理解和推理能力。
2. 黑盒推理邏輯:現有模型的復雜結構使其推理過程難以直觀解釋,與金融監管對透明性和可追溯性的要求相矛盾,限制了模型在關鍵金融業務中的應用。
3. 金融場景泛化能力不足:現有模型在不同場景中表現不穩定,難以及時遷移和泛化到新業務場景,導致高風險金融應用中輸出不可靠。
為解決通用推理模型在金融領域的挑戰,本文提出Fin-R1——專為金融推理設計的大語言模型。通過重構高質量金融推理數據集并采用兩階段訓練框架,Fin-R1有效解決了金融數據碎片化、推理邏輯不可控和業務泛化能力弱三大核心問題。主要貢獻如下:
- 高質量金融推理數據集:提出Fin-R1-Data,一個從多權威金融數據集蒸餾篩選的高質量CoT數據集,專為專業金融推理場景設計,覆蓋中英文金融垂直領域的多維專業知識。
- 顯式金融推理大語言模型:提出Fin-R1,基于多維金融業務數據集訓練,精準滿足金融行業對決策過程、數值嚴謹性和業務泛化能力的核心需求。
- 兩階段模型構建框架:提出包含高質量CoT數據集構建和SFT+RL模型訓練的兩階段工作流框架,顯著提升模型金融推理性能。
報告結構如下:第2節詳細描述方法框架;第3節簡述多金融基準測試的實驗結果;第4節總結技術貢獻并展望未來研究方向。
2 方法
2.1 概述
我們提出了如圖1所示的兩階段模型構建框架。在數據生成階段,我們基于DeepSeek-R1進行數據蒸餾,并采用LLM-as-Judge(Xu et al., 2023)的數據過濾方法,構建高質量金融推理數據集Fin-R1-Data。在模型訓練階段,我們基于Qwen2.5-7B-Instruct構建金融推理模型Fin-R1,通過監督微調(SFT)和組相對策略優化算法(GRPO)(Shao et al., 2024)提升模型推理能力并規范化輸出格式。
圖1:Fin-R1構建流程示意圖。展示了Fin-R1的兩階段構建框架:數據生成階段(使用DeepSeek-R1生成CoT數據,并通過Qwen2.5-72B-Instruct進行質量過濾)和模型訓練階段(包括Fin-R1的SFT預訓練和GRPO優化)。右側突出顯示了Fin-R1在金融代碼生成、專業知識和業務知識方面的性能表現。
2.2 數據構建
我們的目標是開發Fin-R1-Data,一個專為金融領域設計的高質量監督微調(SFT)數據集。為此,我們設計了穩健且全面的數據構建流程,包括數據蒸餾和數據過濾,以確保數據集的準確性和可靠性。數據構建的詳細流程如圖2所示。
圖2:第一階段數據構建流程:(1)數據蒸餾,(2)答案檢查(通過LLM評估DeepSeek-R1生成答案的準確性),(3)推理選擇(通過LLM評估和評分推理軌跡以確保邏輯連貫性和質量)。"Reasoning"表示推理輸出,"Thinking"指評判模型的評估過程。
2.2.1 數據來源
Fin-R1-Data共包含60,091條獨立條目,涵蓋中英雙語內容。數據集主要由開源數據集和專有數據集兩部分組成。開源數據集包括:
- Ant_Finance(Alipay Team, 2023)
- FinanceIQ(Duxiaoman DI Team, 2023b)
- Quant-Trading-Instruct (FinanceQT)(Malik, 2024)
- ConvFinQA(Chen et al., 2022)
- FinQA(Chen et al., 2021)
- Twitter-Financial-News-Sentiment (TFNS)(Anonymous, 2024)
- Finance-Instruct-500K(Flowers, 2025)
- FinCorpus(Duxiaoman DI Team, 2023a)
- FinCUGE(Lu et al., 2023)
專有數據集部分為金融研究生入學考試(FinPEE)數據集,包含350道金融研究生入學考試的計算題。FinPEE的構建遵循嚴格的多階段流程:
1. 首先以PDF格式收集數據,并使用Mineru(Wang et al., 2024a)批量轉換為Markdown格式。
2. 隨后通過正則化技術提取結構化問答對(Q-A)。
3. 為確保數據完整性和準確性,所有提取的Q-A對均經過人工審查和驗證,最終形成高質量的金融研究生考試題目數據集。
Fin-R1-Data的組成結構如圖3所示。
圖3:Fin-R1-Data的組成結構:(1)金融代碼,(2)金融專業知識,(3)金融推理知識,(4)金融非推理知識。
表1系統展示了Fin-R1-Data中各類別的描述、數據來源及比例分布。數據集主要由金融非推理業務知識和金融推理業務知識構成,合計占比77.9%。這兩類數據全面覆蓋了真實金融業務場景的廣泛操作流程。此外,金融專業知識是數據集的重要組成部分,涵蓋多個金融子領域的關鍵概念,占比21.9%。Fin-R1-Data還包含專門用于量化交易策略開發的金融代碼數據,但僅占0.2%。
表1:Fin-R1-Data的類別及來源
2.2.2 數據處理
數據處理包括數據蒸餾和數據過濾兩個階段。
數據蒸餾階段的參數配置嚴格遵循DeepSeek-R1官方規范,具體設置如下:
1. 溫度(temperature)設為0.6。
2. 對于數學數據,使用標準化提示:“請用\boxed{}包裹最終答案”,以確保答案格式一致。
3. 為保持與目標推理模式對齊,在生成數據前強制在每個輸出開頭追加“\n”。
數據過濾階段包含兩個主要部分:
1. 答案檢查(評估模型生成答案的準確性):僅保留與參考答案完全匹配的響應。若DeepSeek-R1生成的答案與數據集提供的標準答案不符,則直接丟棄。對于客觀題,采用精確匹配確保正確性;對于主觀題,采用LLM-as-Judge評估答案有效性。
2. 推理篩選(評估推理軌跡的質量):從Xie et al.(2024)的研究中提煉出七個關鍵維度——內部一致性、術語重疊率、推理步驟數量、邏輯連貫性、內容多樣性、任務領域相關性和任務指令對齊性,用于全面評估模型的推理軌跡數據。
為確保過濾過程的穩健性,我們對比了人工標注者與模型的評分相關性。結果顯示,Qwen2.5-72B-Instruct的評分與人工判斷高度一致,僅存在微小偏差,而GPT-4o的偏差較大(詳見附錄A.2)。因此,我們選擇Qwen2.5-72B-Instruct評估推理軌跡質量,并基于評分篩選高質量軌跡,最終形成用于監督微調(SFT)的優化數據集。圖4展示了高質量與低質量推理軌跡的對比示例。
圖4:高質量和低質量推理選擇過濾的示例
2.3 訓練方法
Fin-R1首先通過監督微調(SFT)使用高質量金融推理數據集進行訓練,以增強其推理能力。在此基礎上,我們采用強化學習實現組相對策略優化(GRPO),結合金融問答數據和雙獎勵機制,提升答案格式和內容的準確性。圖5直觀總結了整體訓練框架,展示了監督學習與強化學習的協同整合。
圖5:第二階段訓練構建流程。SFT階段:基礎模型使用結構化推理增強數據集進行SFT,重點提升金融推理能力。RL階段:應用GRPO算法,引入組計算機制提供兩種獎勵信號——格式正確性和內容準確性。
2.3.1 訓練數據模板
SFT訓練數據:在監督微調階段,訓練數據集V中的每個樣本v包含三個部分,即v = (x, c, y),其中:
- x表示問題
- c表示推理軌跡,格式化為...
- y表示答案,格式化為...
在SFT階段,x作為訓練集輸入,c和y作為訓練集輸出。此階段使模型學習結構化金融推理模式,優化參數以生成格式良好的推理軌跡和準確答案。
RL訓練數據:在強化學習階段,每個樣本v = (x, y),其中x為問題,y為模型輸出(僅含答案,不含推理軌跡)。強化學習通過提升答案準確性和格式合規性進一步優化輸出質量。
2.3.2 監督微調(SFT)
我們首先在Qwen2.5-7B-Instruct模型上進行監督微調,特別針對金融推理的關鍵方面進行優化。這一微調過程有效緩解了通用模型在金融推理任務中出現的推理失敗問題。訓練數據由ConvFinQA和FinQA數據集組成。經過SFT后,模型在金融推理方面表現出顯著提升的性能,詳見表2。
2.3.3 組相對策略優化(GRPO)
在強化學習階段,我們采用組相對策略優化(GRPO)算法。
對于每次訓練迭代,我們從舊策略π_old中采樣G個候選輸出{α_i}^G_i=1。每個輸出獲得獎勵r_i,據此我們計算組相對優勢A_i:
A_i = (r_i - μ_{r})/σ_{r}
其中μ_{r}和σ_{r}分別表示組內獎勵值的均值和標準差。超過組平均值的輸出將獲得更高的優勢值以進行優先優化。策略更新通過最大化以下目標函數實現:
J_GRPO(θ) = E_{v~P(V),{α_i}^G_i=1~π_{θ,old}(O|v)}
[1/G Σ^G_i=1 (min(r^ratio_i A_i, clip(r^ratio_i,1-ε,1+ε)A_i) - βD_KL(π_θ||π_ref))]
其中:
- r^ratio_i = π_θ(α_i|v)/π_{θ,old}(α_i|v)表示重要性采樣比率
- A_i表示組相對優勢
- clip(r^ratio_i,1-ε,1+ε)將更新幅度限制在信任區域內
- D_KL(π_θ||π_ref)是KL散度
- β是超參數
2.3.4 獎勵函數設計
在基于GRPO訓練獎勵模型的過程中,我們采用兩種獎勵機制:格式獎勵和準確度獎勵。
格式獎勵:我們鼓勵輸出包含...標簽內的推理步驟序列和...標簽內的簡明最終答案。如果所有四個標簽恰好出現一次且標簽外無額外內容,則給予1分格式獎勵分,否則為0分。格式獎勵函數定義如下:
準確度獎勵:在金融場景中,我們發現難以通過基于規則的方法窮盡列舉答案正則表達式。因此采用Qwen2.5-Max作為答案評估的評判者。從模型輸出中提取...標簽內的內容作為標準答案。如果標簽內輸出與標準答案語義一致,則獎勵1分,否則為0分。準確度獎勵函數定義如下:
2.4 評估
2.4.1 評估數據集
我們通過系統驗證五個代表性開源異構數據集建立金融領域多任務基準框架:FinQA、ConvFinQA、Ant-Finance、TFNS和Finance-Instruct-500k。為控制成本并保持數據分布相對統一,每個評估集隨機采樣1,000條數據進行評估,若不足1,000條則評估全部。
2.4.2 評估方法
本研究采用的金融評估數據集(除Finance-Instruct-500k外)均采用客觀題形式,具有確定唯一的參考答案。鑒于數值計算問題可能導致模型輸出與參考答案在表示形式上存在差異(如圖6所示,表現為百分數與小數表示的等效轉換問題或有效數字保留差異),我們采用大語言模型作為自動評估評判者進行答案檢查,采用Zhu等人(2024)提出的提示設計和評估方法。
圖6:模型輸出與真實答案的差異展示。圖5(a)展示小數位差異,圖5(b)展示表達形式差異。
3 實驗
3.1 基線模型
為全面評估Fin-R1在金融場景中的推理能力,我們與多個最先進模型進行了全面對比評估,包括:DeepSeek-R1、Fin-R1-SFT、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B、Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct和Qwen-2.5-32B-Instruct。這些模型涵蓋了從輕量級到高性能架構的完整譜系,綜合考慮了推理能力和計算資源消耗等因素。
3.2 結果
在覆蓋多個金融業務場景的綜合基準評估中,Fin-R1盡管只有輕量級的7B參數量,仍展現出顯著的性能優勢。它以平均75.2分的成績總體排名第二,僅比DeepSeek-R1(78.2分)低3分,同時以6分優勢超越DeepSeek-R1-Distill-Llama-70B(69.2分)。Fin-R1在兩個推理任務中排名第一:FinQA(76.0分)和ConvFinQA(85.0分),超越了所有競爭模型。雖然Fin-R1主要針對FinQA和ConvFinQA進行了專門訓練,但在其他金融基準測試(Ant_Finance、TFNS和Finance-Instruct-500K)中也表現出顯著性能提升,表明該模型具有強大的跨任務泛化能力。
表2:不同金融基準測試中的評估結果
4 結論與未來工作
我們提出了金融推理大語言模型Fin-R1,有效解決了金融AI應用中的三大核心挑戰:碎片化的金融數據、不可控的推理邏輯和薄弱的業務泛化能力。通過構建高質量金融推理CoT數據集Fin-R1-Data,再通過SFT和RL訓練模型,形成了金融領域內的兩階段工作流框架。Fin-R1在ConvFinQA和FinQA上分別取得85.0和76.0分的先進水平表現。未來我們將聚焦于金融科技領域的整合與創新:一方面優化金融多模態場景架構,深化其在尖端領域的應用探索;另一方面推動LLMs在金融領域的廣泛應用,深化與金融應用的整合以增強風險管理和監管合規,最終擴展模型的實際效用。
局限性
盡管模型在金融領域取得了顯著改進,我們的研究仍存在三個主要局限:
1. 訓練數據集覆蓋范圍有限:當前訓練數據僅局限于ConvFinQA和FinQA
2. 單模態架構限制:純文本架構難以處理包含視覺元素的財務報告
3. 封閉場景關注偏差:當前評估主要針對有明確標準答案的推理問題
我們相信這些改進將顯著提升模型在真實金融場景中的適用性和有效性。
本文轉載自公眾號AIRoobt ,作者:Zhaowei Liu等
