DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1

發布于 2025-4-27 00:24

瀏覽

0收藏

大型語言模型（LLMs）在推理能力上的進展引發了對其在復雜任務中表現的關注，尤其是在金融領域。DianJin-R1是一個針對金融領域的推理增強框架，通過推理增強監督和強化學習，提升金融推理任務的表現。

DianJin-R1模型在金融測試集（CFLUE、FinQA、CCC）上顯著優于基礎模型，尤其在CFLUE和CCC上表現突出，DianJin-R1-32B在CFLUE上準確率從77.95提升至86.74，CCC上從56.50提升至96.00，超越DeepSeek-R1。

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1-AI.x社區

摘要

DianJin-R1是一個針對金融領域的推理增強框架，旨在解決大語言模型在該領域的推理挑戰。該框架使用DianJin-R1Data數據集，結合CFLUE、FinQA和中國合規檢查（CCC）數據，涵蓋多樣的金融推理場景。模型DianJin-R1-7B和DianJin-R1-32B基于Qwen2.5進行微調，采用結構化格式生成推理步驟和最終答案。通過應用群體相對策略優化（GRPO）強化學習，模型獲得了結構化輸出和答案正確性的雙重獎勵信號。

在五個基準測試上，DianJin-R1模型在復雜金融任務中表現優于非推理模型，尤其在真實世界的CCC數據集上，單次推理模型的表現超過多代理系統。DianJin-R1展示了通過結構化監督和獎勵對齊學習提升金融推理的有效性，提供了可擴展的實際應用解決方案。

簡介

大型語言模型（LLMs）在推理能力上的進展引發了對其在復雜任務中表現的關注，尤其是在金融領域。DianJin-R1模型通過推理增強監督和強化學習，提升金融推理任務的表現。構建了高質量的推理數據集DianJin-R1-Data，來源包括CFLUE、FinQA和合規性數據集CCC。采用GPT-4o進行驗證，確保生成答案與推理步驟的一致性。

DianJin-R1-7B和DianJin-R1-32B模型通過結構化輸出格式進行監督微調，并使用GRPO強化學習算法優化推理質量。在CFLUE、FinQA、CCC等基準測試中，DianJin-R1模型表現優于非推理模型，尤其在金融領域。實際應用中，基于LLMs的多代理系統在CCC數據集上進行條件合規檢查，整合中間推理步驟以得出最終判斷。DianJin-R1結合高質量監督、結構化推理生成和獎勵驅動的強化學習，提供了一種可擴展的金融推理增強策略。

DianJin-R1-Data建設

數據源

CFLUE數據集。包含38,638道金融考試多選題，經過長度、難度和模糊性三步篩選，確保問題清晰且具備深度推理能力，適合評估LLMs的金融推理能力。

FinQA數據集。包含8,281個金融問答對，經過相同的長度和難度篩選，適合評估英語金融推理。

CCC數據集。內部數據集，評估服務代理的合規性，包含客戶與服務代理的對話，經過人工審核，確保合規與非合規案例的平衡分布。

推理數據集構建

針對CCC、CFLUE和FinQA數據集的差異，采用不同的推理構建方法。

CFLUE問題的推理生成

定義DCFLUE MCQ為包含問題、解釋和答案的多選題數據集。使用GPT-4o將DCFLUE MCQ中的多選題轉換為開放式問題，生成DCFLUE OE數據集。利用DeepSeek-R1生成推理鏈和預測答案，并用GPT-4o驗證答案和推理的一致性。滿足條件的實例保留為有效推理樣本，未滿足的實例最多重試3次，最終未成功的實例歸為難題樣本。

生成的推理增強數據集為RCFLUE MQC，難題數據集為GCFLUE MQC。對DCFLUE OE應用相同流程，生成RCFLUE OE和GCFLUE OE數據集。

FinQA問題的推理生成

FinQA數據集的QA對已為開放式格式，表示為D FinQA。將CFLUE中的推理生成過程應用于D FinQA，得到推理增強數據集R FinQA。生成的非推理數據集為G FinQA。

基于多Agent的CCC對話推理生成

CCC數據集DCCC包含對話x_i及其對應的合規性判斷答案y_i，判斷過程復雜，需遵循指導原則。開發了一個工作流程，從開始節點到兩個結果節點，評估合規性違規與否。

使用多代理LLM系統生成推理，采用Qwen2.5-72B-Instruct為每個條件節點生成中間推理鏈（CoTs）和答案。最終答案a_i由結果節點決定，若與金標準答案y_i匹配，則合并中間推理鏈生成統一推理r_i。若不匹配，最多重試T次，生成的推理增強數據集為RCC，未增強數據集為GCC。

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1-AI.x社區

模型訓練

訓練大型語言模型（LLMs）進行金融推理分為兩個階段：

通過監督微調（SFT）學習推理。
通過強化學習（RL）增強推理能力。

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1-AI.x社區

使用SFT學習推理

使用R CFLUE MCQ、RCFLUE OE、R FinQA和RCCC數據集對LLMs進行微調，以生成推理鏈（CoT）和最終答案。每個訓練實例包含問題x、推理路徑r和答案y。在微調過程中，問題x作為模型輸入，推理r和答案y作為目標輸出，幫助模型學習生成連貫的推理步驟和正確的解決方案。

使用強化學習增加推理能力

GCFLUE MCQ數據集用于強化學習（RL），旨在提升推理能力。采用Group Relative Policy Optimization（GRPO）算法，結合兩種獎勵機制：

格式獎勵：輸出需包含一個推理段（...）和一個最終答案（...），格式正確得1分，錯誤得0分。
準確性獎勵：若標簽內內容與參考答案完全一致，得1分；否則得0分，鼓勵生成準確答案。

實驗

實驗設置

DianJin-R1-Data的統計信息總結在表1中，CFLUE MCQ占SFT數據的大部分，數據經過洗牌以防止過擬合。

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1-AI.x社區

模型訓練分為兩個階段，使用NVIDIA A100 GPU，7B模型在單節點8 GPU上訓練，32B模型在4節點32 GPU上訓練。SFT階段使用DeepSpeed的Zero-3優化，學習率1.0 × 10^-5，序列長度16K，bf16精度，訓練3個epoch，梯度累積16步。RL階段每個樣本進行8次回合，訓練批量大小1024，回合批量大小256，學習率1.0 × 10^-6，采樣溫度0.6，訓練5個epoch。

評估模型使用三個金融基準數據集：CFLUE、FinQA和自有數據集CCC，以及兩個推理能力評估基準：MATH500和GPQA-Diamond。報告準確率，即正確回答問題的比例，并計算所有測試集的平均準確率。CFLUE和CCC為中文數據集，其余為英文。FinQA和CCC的答案正確性由GPT-4o評估，其他數據集通過規則方法提取答案并與標準答案比較。

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1-AI.x社區

基線模型分為兩類：一類為無明確推理能力的通用LLM（如GPT-4o、DeepSeekV3等）；另一類為具備推理能力的通用LLM（如DeepSeek-R1及其衍生模型）。

結果

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1-AI.x社區

在一般領域測試集（MATH-500、GPQA-Diamond）上，DianJin-R1模型也有提升，但由于未使用一般領域推理數據，表現仍低于大型模型或經過一般推理數據微調的模型。

一般推理模型（如DeepSeek-R1、QwQ-32B）在一般推理基準上表現優異，但在金融基準上不一定更好，DeepSeek-R1在CFLUE和CCC上優于DeepSeek-V3，但在FinQA上表現下降，DeepSeek-R1-Distill-Qwen-7B在所有金融測試集上均不及Qwen-2.5-7B-Instruct。

討論

SFT顯著提升了模型在所有數據集上的表現，增強了推理能力。RL在所有數據集上均有改善，唯獨FinQA例外，可能因RL實例為中文，FinQA為英文，未來將加入英文示例。

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1-AI.x社區

SFT使用的三個數據源為CFLUE、FinQA和CCC，其中CFLUE對性能影響最大，包含31,000多個推理實例，單獨使用時準確率從59.26提升至65.67。添加FinQA或CCC主要提升各自測試集的表現，對整體影響有限。

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1-AI.x社區

多代理LLM系統用于檢測CCC數據集中的合規性違規，采用條件節點的推理生成工作流程。引入多代理方法后，準確率從55.50提升至95.00，顯示出結構化推理的有效性，但平均每個實例需8.15次API調用。DianJin-R1-7B和DianJin-R1-32B模型在僅一次API調用的情況下，表現出與多代理方法相當或更優的性能，體現了有效推理和組織推理路徑的能力。

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1-AI.x社區

總結和未來工作

DianJin-R1是一個針對金融領域的大型語言模型的推理增強框架，結合結構化監督和強化學習算法（GRPO），提升復雜金融和合規任務的表現。實驗表明，推理感知訓練顯著提高了模型的準確性和可解釋性。

本文轉載自???靈度智能???，作者：靈度智能

標簽

DianJin-R1

大模型

DeepSeek-R1

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1

摘要

簡介

DianJin-R1-Data建設

數據源

推理數據集構建

CFLUE問題的推理生成

FinQA問題的推理生成

基于多Agent的CCC對話推理生成

模型訓練

使用SFT學習推理

使用強化學習增加推理能力

實驗

實驗設置

結果

討論

總結和未來工作

目錄