成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1

發布于 2025-4-27 00:24
瀏覽
0收藏

大型語言模型(LLMs)在推理能力上的進展引發了對其在復雜任務中表現的關注,尤其是在金融領域。DianJin-R1是一個針對金融領域的推理增強框架,通過推理增強監督和強化學習,提升金融推理任務的表現。

DianJin-R1模型在金融測試集(CFLUE、FinQA、CCC)上顯著優于基礎模型,尤其在CFLUE和CCC上表現突出,DianJin-R1-32B在CFLUE上準確率從77.95提升至86.74,CCC上從56.50提升至96.00,超越DeepSeek-R1。

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1-AI.x社區

摘要

DianJin-R1是一個針對金融領域的推理增強框架,旨在解決大語言模型在該領域的推理挑戰。該框架使用DianJin-R1Data數據集,結合CFLUE、FinQA和中國合規檢查(CCC)數據,涵蓋多樣的金融推理場景。模型DianJin-R1-7B和DianJin-R1-32B基于Qwen2.5進行微調,采用結構化格式生成推理步驟和最終答案。通過應用群體相對策略優化(GRPO)強化學習,模型獲得了結構化輸出和答案正確性的雙重獎勵信號。

在五個基準測試上,DianJin-R1模型在復雜金融任務中表現優于非推理模型,尤其在真實世界的CCC數據集上,單次推理模型的表現超過多代理系統。DianJin-R1展示了通過結構化監督和獎勵對齊學習提升金融推理的有效性,提供了可擴展的實際應用解決方案。

簡介

大型語言模型(LLMs)在推理能力上的進展引發了對其在復雜任務中表現的關注,尤其是在金融領域。DianJin-R1模型通過推理增強監督和強化學習,提升金融推理任務的表現。構建了高質量的推理數據集DianJin-R1-Data,來源包括CFLUE、FinQA和合規性數據集CCC。采用GPT-4o進行驗證,確保生成答案與推理步驟的一致性。

DianJin-R1-7B和DianJin-R1-32B模型通過結構化輸出格式進行監督微調,并使用GRPO強化學習算法優化推理質量。在CFLUE、FinQA、CCC等基準測試中,DianJin-R1模型表現優于非推理模型,尤其在金融領域。實際應用中,基于LLMs的多代理系統在CCC數據集上進行條件合規檢查,整合中間推理步驟以得出最終判斷。DianJin-R1結合高質量監督、結構化推理生成和獎勵驅動的強化學習,提供了一種可擴展的金融推理增強策略。

DianJin-R1-Data建設

數據源

CFLUE數據集。包含38,638道金融考試多選題,經過長度、難度和模糊性三步篩選,確保問題清晰且具備深度推理能力,適合評估LLMs的金融推理能力。

FinQA數據集。包含8,281個金融問答對,經過相同的長度和難度篩選,適合評估英語金融推理。

CCC數據集。內部數據集,評估服務代理的合規性,包含客戶與服務代理的對話,經過人工審核,確保合規與非合規案例的平衡分布。

推理數據集構建

針對CCC、CFLUE和FinQA數據集的差異,采用不同的推理構建方法。

CFLUE問題的推理生成

定義DCFLUE MCQ為包含問題、解釋和答案的多選題數據集。使用GPT-4o將DCFLUE MCQ中的多選題轉換為開放式問題,生成DCFLUE OE數據集。利用DeepSeek-R1生成推理鏈和預測答案,并用GPT-4o驗證答案和推理的一致性。滿足條件的實例保留為有效推理樣本,未滿足的實例最多重試3次,最終未成功的實例歸為難題樣本。

生成的推理增強數據集為RCFLUE MQC,難題數據集為GCFLUE MQC。對DCFLUE OE應用相同流程,生成RCFLUE OE和GCFLUE OE數據集。

FinQA問題的推理生成

FinQA數據集的QA對已為開放式格式,表示為D FinQA。將CFLUE中的推理生成過程應用于D FinQA,得到推理增強數據集R FinQA。生成的非推理數據集為G FinQA。

基于多Agent的CCC對話推理生成

CCC數據集DCCC包含對話x_i及其對應的合規性判斷答案y_i,判斷過程復雜,需遵循指導原則。開發了一個工作流程,從開始節點到兩個結果節點,評估合規性違規與否。

使用多代理LLM系統生成推理,采用Qwen2.5-72B-Instruct為每個條件節點生成中間推理鏈(CoTs)和答案。最終答案a_i由結果節點決定,若與金標準答案y_i匹配,則合并中間推理鏈生成統一推理r_i。若不匹配,最多重試T次,生成的推理增強數據集為RCC,未增強數據集為GCC。

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1-AI.x社區

模型訓練

訓練大型語言模型(LLMs)進行金融推理分為兩個階段:

  • 通過監督微調(SFT)學習推理。
  • 通過強化學習(RL)增強推理能力。

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1-AI.x社區

使用SFT學習推理

使用R CFLUE MCQ、RCFLUE OE、R FinQA和RCCC數據集對LLMs進行微調,以生成推理鏈(CoT)和最終答案。每個訓練實例包含問題x、推理路徑r和答案y。在微調過程中,問題x作為模型輸入,推理r和答案y作為目標輸出,幫助模型學習生成連貫的推理步驟和正確的解決方案。

使用強化學習增加推理能力

GCFLUE MCQ數據集用于強化學習(RL),旨在提升推理能力。采用Group Relative Policy Optimization(GRPO)算法,結合兩種獎勵機制:

  • 格式獎勵:輸出需包含一個推理段(...)和一個最終答案(...),格式正確得1分,錯誤得0分。
  • 準確性獎勵:若標簽內內容與參考答案完全一致,得1分;否則得0分,鼓勵生成準確答案。

實驗

實驗設置

DianJin-R1-Data的統計信息總結在表1中,CFLUE MCQ占SFT數據的大部分,數據經過洗牌以防止過擬合。

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1-AI.x社區

模型訓練分為兩個階段,使用NVIDIA A100 GPU,7B模型在單節點8 GPU上訓練,32B模型在4節點32 GPU上訓練。SFT階段使用DeepSpeed的Zero-3優化,學習率1.0 × 10^-5,序列長度16K,bf16精度,訓練3個epoch,梯度累積16步。RL階段每個樣本進行8次回合,訓練批量大小1024,回合批量大小256,學習率1.0 × 10^-6,采樣溫度0.6,訓練5個epoch。

評估模型使用三個金融基準數據集:CFLUE、FinQA和自有數據集CCC,以及兩個推理能力評估基準:MATH500和GPQA-Diamond。報告準確率,即正確回答問題的比例,并計算所有測試集的平均準確率。CFLUE和CCC為中文數據集,其余為英文。FinQA和CCC的答案正確性由GPT-4o評估,其他數據集通過規則方法提取答案并與標準答案比較。

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1-AI.x社區

基線模型分為兩類:一類為無明確推理能力的通用LLM(如GPT-4o、DeepSeekV3等);另一類為具備推理能力的通用LLM(如DeepSeek-R1及其衍生模型)。

結果

DianJin-R1模型在金融測試集(CFLUE、FinQA、CCC)上顯著優于基礎模型,尤其在CFLUE和CCC上表現突出,DianJin-R1-32B在CFLUE上準確率從77.95提升至86.74,CCC上從56.50提升至96.00,超越DeepSeek-R1。

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1-AI.x社區

在一般領域測試集(MATH-500、GPQA-Diamond)上,DianJin-R1模型也有提升,但由于未使用一般領域推理數據,表現仍低于大型模型或經過一般推理數據微調的模型。

一般推理模型(如DeepSeek-R1、QwQ-32B)在一般推理基準上表現優異,但在金融基準上不一定更好,DeepSeek-R1在CFLUE和CCC上優于DeepSeek-V3,但在FinQA上表現下降,DeepSeek-R1-Distill-Qwen-7B在所有金融測試集上均不及Qwen-2.5-7B-Instruct。

討論

SFT顯著提升了模型在所有數據集上的表現,增強了推理能力。RL在所有數據集上均有改善,唯獨FinQA例外,可能因RL實例為中文,FinQA為英文,未來將加入英文示例。

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1-AI.x社區

SFT使用的三個數據源為CFLUE、FinQA和CCC,其中CFLUE對性能影響最大,包含31,000多個推理實例,單獨使用時準確率從59.26提升至65.67。添加FinQA或CCC主要提升各自測試集的表現,對整體影響有限。

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1-AI.x社區

多代理LLM系統用于檢測CCC數據集中的合規性違規,采用條件節點的推理生成工作流程。引入多代理方法后,準確率從55.50提升至95.00,顯示出結構化推理的有效性,但平均每個實例需8.15次API調用。DianJin-R1-7B和DianJin-R1-32B模型在僅一次API調用的情況下,表現出與多代理方法相當或更優的性能,體現了有效推理和組織推理路徑的能力。

DianJin-R1:金融領域推理增強大模型,全面超越DeepSeek-R1-AI.x社區

總結和未來工作

DianJin-R1是一個針對金融領域的大型語言模型的推理增強框架,結合結構化監督和強化學習算法(GRPO),提升復雜金融和合規任務的表現。實驗表明,推理感知訓練顯著提高了模型的準確性和可解釋性。

本文轉載自???靈度智能???,作者:靈度智能

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美一区二区三区视频 | 国产精品视频专区 | 羞羞网站免费 | 精品国产18久久久久久二百 | 久久av综合 | 天堂一区在线 | 国产精品毛片久久久久久 | 久久99精品久久久久久青青日本 | 高清一区二区三区 | 国产激情亚洲 | av网站在线播放 | 黄色在线网站 | 精品国产乱码久久久久久影片 | 欧美久久精品一级黑人c片 91免费在线视频 | 国产乱人伦 | 美女久久 | 亚洲一区二区精品视频 | 国产农村妇女毛片精品久久麻豆 | 欧美精品video | 欧美日韩黄色一级片 | 蜜桃传媒一区二区 | 91精品久久久久久久久中文字幕 | 国产在线播放一区二区三区 | 中文字幕一区在线 | 操操操av| 欧美日韩视频在线 | 亚洲成人精品一区 | 久久久久一区 | 精品一区二区三区在线观看 | 99re在线视频 | 亚洲国产69 | 黄色免费网 | 久久精品二区亚洲w码 | 亚洲成av人片在线观看 | 黄网站涩免费蜜桃网站 | 国产一区久久精品 | 成人免费视频观看 | 国产精品久久视频 | 欧美精品1区 | 国产又爽又黄的视频 | 精品婷婷 |