成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

WAIC搶先爆料:金融“黑馬”大模型超DeepSeek刷新SOTA,論文已上線

人工智能
不僅在各項金融測評集上刷新SOTA,在MATH、GPQA等通用推理基準中,也有比肩DeepSeek R1,GPT-o1等超大尺寸推理模型的水平。

又到了一年一度“中國AI春晚”WAIC,各家大廠動作頻發的時候。

今年會有哪些看點?你別說,我們還真在扒論文的過程中,發現了一些熱乎線索。

比如螞蟻數科的金融推理大模型,發布會還沒開,技術論文已悄咪咪上線。

金融領域的推理大模型,你可以理解為金融領域的DeepSeek,帶著SOTA的刷榜成績來了。

同樣是“杭州”背景科技公司,螞蟻數科。

不僅在各項金融測評集上刷新SOTA,在MATH、GPQA等通用推理基準中,也有比肩DeepSeek R1,GPT-o1等超大尺寸推理模型的水平。

圖片圖片

圖片圖片

而且論文也把技術細節全部公開講清楚了。

嘿嘿嘿,留給螞蟻數科自己發布會上當新聞來講的東西,不多了。

模型出廠即專家

新模型名為Agentar-Fin-R1,一共有兩個不同參數版本:8B和32B。

圖片圖片

螞蟻數科的研究出發點很務實,就是要突破大模型應用在實際金融業務場景中遇到的行業問題

與通用場景不同,金融應用在數據、幻覺和合規方面,有著更嚴苛的要求。核心面臨的挑戰有三點:

  • 金融問題的復雜性:涉及法規、風險和實時數據,AI系統必須具備快速學習和適應的能力。通用大模型雖然會推理,但對專業術語、監管細節常常“一臉懵”。
  • 可信度和可解釋性:金融決策關乎重大利益,出錯代價高。每一個推理步驟都必須透明可審計,確保決策過程的可信度和可解釋性。
  • 金融大模型評測集:業界缺少圍繞真實金融業務場景,驗證復雜任務推理、智能體應用等關鍵能力的金融大模型評測集。

針對于此,Agentar-Fin-R1基于Qwen3,從數據采集、訓練框架、任務分類等角度出發,實現了針對金融任務的深度優化。

從效果上來看,首先,Agentar-Fin-R1在所有金融評測基準上——包括Fineva、FinEval、FinanceIQ和螞蟻數科全新提出的Finova——均達到業界最優水平,超越業界開源金融大模型,也包括GPT-o1、DeepSeek-R1等超大尺寸通用推理模型

還做到了兼顧專業與通用,在實現金融專業化的同時,通用推理能力沒有明顯損失。

△Agentar-Fin-R1與Qwen3的對比

具體實現方法主要包括以下創新:

  • 更專業全面的金融數據標簽體系,讓模型“出廠即專家”;
  • 更高效的加權訓練算法,大幅降低大模型應用門檻;
  • 模型能力結合真實業務場景自主進化。

圖片圖片

我們逐一詳細拆解。

更專業的金融任務數據標簽體系

首先,訓練行業大模型需要對行業知識進行系統化的學習,

針對金融任務紛繁復雜的實際情況,螞蟻數科團隊構建了精細化的金融任務分類體系,覆蓋銀行、證券、保險、基金、信托等全場景。并將復雜的金融領域任務分解為精準定義的類別,比如“意圖識別”、“風險評估”、“合規檢查”等等。

基于千億級金融專業數據語料,再經過專門設計的可信數據合成和CoT數據精標,構建了迄今已知最專業最全面的金融領域訓練數據集。

這樣做的好處是,相當于打造了一個“課程大綱”,來作為整個開發流程的指導框架。

不僅能指導數據處理和訓練工作流,還實現了系統化的任務向導優化,確保金融推理場景的全面覆蓋。

多維度可信保障

以此為框架,對于垂直領域模型,最為關鍵的數據如何獲取?

螞蟻數科團隊通過三個層次來確保數據的高質量。

首先,是源頭可信。背靠螞蟻在金融領域的長期積累以及真實數據,構建專業全面的金融領域訓練數據集,并供下游進行可信的數據合成。

其次,是合成可信。引入可驗證的雙軌多智能體協作數據合成框架,也就是讓多個AI智能體相互討論相互審核,來保證合成數據質量。

最后,治理可信。通過人工抽樣標注,基于自研獎勵模型的打分過濾,去重、去污、去毒等全面數據處理,保證數據安全。

圖片圖片

高效訓練優化

訓練方面,螞蟻數科團隊創新采用“加權訓練”,以最大化提升數據利用效率及訓練效率。

簡單來說,就是動態分配訓練資源,讓模型在較難的任務上多投入精力學,在簡單任務上少花精力。

具體到數據效率方面,是通過難度感知加權訓練框架來挖掘數據潛力,結合標簽引導合成和智能選擇提升數據利用率。

在訓練效率方面,則采用兩階段訓練策略:

  • 第一階段,先進行知識全面注入,讓模型把金融知識吃透;
  • 第二階段,專挑最難、最弱的題目用強化學習+目標微調,強化模型復雜推理能力。

除此之外,研究團隊還構建了全面的歸因系統,實現快速瓶頸識別和針對性改進。

相較于傳統的SFT和RL,這種高效訓練優化策略不僅能夠縮短模型迭代周期、降低計算成本,更重要的是能夠快速響應金融市場的動態變化,確保模型在風險控制、投資決策、合規監管等真實業務場景中,及時部署,自主“進化”。

同時,這也是模型保留通用能力的關鍵所在。

Finova:更嚴苛的評估標準

值得關注的一點是,這次螞蟻數科不僅是在提升模型能力上下了功夫。為了驗證模型在真實場景中的有效性,他們還在“考試題目”上下了功夫。

前文提到,在這項研究中,螞蟻數科自己提出了一個新的評測基準Finova

為什么要提新標準?原因很簡單:現有的金融測評集,太簡單了

就像對于通用模型,人類專家們絞盡腦汁設置“人類最后的考試”,極限考驗頂尖模型的性能,螞蟻數科也希望在金融領域,能面向實際部署,更準確地評估模型的真實效用。

圖片

具體來說,Finova是從智能體執行任務能力、復雜推理能力、安全合規能力這三個真實場景中最受關注的維度,來對模型進行考察,共包含1350道金融難題。

圖片

智能體能力評估

從實際業務需求出發,標準化評估金融智能體的核心能力:

  • 金融意圖檢測:精準識別投資咨詢、產品詢問、風險評估等復雜金融場景中的用戶真實需求
  • 金融槽位識別:準確抽取和結構化“萬能險”、“科創板”等專業金融術語,構建金融文本理解基礎
  • 金融工具規劃:智能解析用戶需求并推薦匹配的金融工具,如投資組合分析、基金對比等
  • 金融表達生成:基于多種來源的數據源綜合生成準確可靠、嚴格符合監管要求的專業金融表達

舉個例子,面對“能告訴我瑞士法郎兌加元現在報價多少,近期加元為什么跌得這么兇”這樣的問題,模型理解用戶意圖為對“外匯”進行信息查詢+分析解讀,識別“瑞士法郎”、“加元”等槽位,調用相應查詢工具,最后綜合多種信息源生成回答。

復雜推理能力

深度整合金融數學計算、代碼理解和多步驟復雜邏輯推理,模擬真實金融決策場景:

涵蓋資產估值、投資組合優化、風險分析等核心金融業務;考驗模型在歷史數據分析、結果預測、復雜場景推理等方面的綜合表現。

在這方面,感受一下,Finova的真題如下:

某工業公司2024年4月的財務數據顯示:邊際貢獻總額為 $60,000,凈利潤為 $25,000。預計5月份銷售量將同比增長5%,假設公司成本結構和固定成本保持不變。則該公司在此期間的經營杠桿系數(DOL)為 __,對應的凈利潤預期增幅為 __%(結果分別保留一位小數和整數位)。

安全合規驗證

安全防護方面,識別和防范惡意輸入、數據泄露、系統濫用等安全威脅。

合規監管方面,深度理解反洗錢法規、數據隱私保護、投資者保護、風險披露等多元化監管框架。

可以看到,在Finova這個新基準下,參與測試的模型評分相較于其他基準都有明顯的下降,甚至得分幾乎砍半。

圖片圖片

其中,螞蟻數科的Agentar-Fin-R1-32B達到了最高的69.93分,大幅超越了同尺寸金融推理大模型Dianjin-R1-32B(56.02分),也超越了超大尺寸推理模型DeepSeek-R1(61.28分)和GPT-o1(60.46分)。

這進一步凸顯了垂直領域模型在特定任務中的顯著優勢。

螞蟻數科SOTA意外嗎?

從實驗結果可以看出,Agentar-Fin-R1這樣的垂直模型,是行業賽道中的“隱藏王牌”,在實際應用場景中往往能比通用模型更快落地、發揮作用。

這也是為什么——是螞蟻數科帶來了這次最新的金融行業SOTA模型。

有必然性,基因就在那里。作為螞蟻集團的科技商業化獨立板塊,螞蟻數科長期浸潤一線,天然具備對金融場景更深度的行業理解和數據積累。

并且從2017年起,螞蟻數科已經布局AI,致力于以AI技術深度重構企業核心場景。

目前,在金融領域,螞蟻數科累計已服務100%國有股份制銀行,超60%城商行,以及數百家金融機構,支持金融業的高效數智化轉型。

也有順勢而為的準確趨勢判斷。

實際上,作為螞蟻數科的企業級智能體服務品牌,Agentar已經成為螞蟻集團在金融領域AI實踐的一個經驗輸出窗口。

Agentar鏈接數百個金融MCP,為金融機構規模化應用大模型提供強大的數據生態,并已聯合金融行業機構推出超百個金融智能體解決方案,覆蓋銀行、證券、保險、通用金融等四大領域,能提升一線員工工作效率超80%。

現在,新模型出爐,可以說是螞蟻數科本身行業洞察+數據積累+AI能力的一次集中體現。

當然啦,技術論文實現SOTA之外,作為模型和產品,更重要的還是實際應用表現。

建議螞蟻數科的朋友,發布會多講講這方面的。

論文和性能成績,我們已經替你們搶跑了喲~

論文地址:https://arxiv.org/abs/2507.16802

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-06-27 15:48:34

2024-08-19 08:45:00

開源模型

2024-10-12 10:57:39

2022-11-16 17:30:25

AI論文

2023-08-24 13:59:57

模型數據

2025-05-19 08:41:00

AI模型開發者

2025-05-16 08:58:09

2025-03-06 07:28:31

DeepSeek大模型人工智能

2025-05-08 08:10:25

大模型DeepSeekAPI

2025-03-27 12:27:13

2025-01-26 09:00:00

AI算力模型

2025-02-24 10:01:23

2025-02-06 09:27:02

DeepSeek超算

2025-02-13 08:30:11

2025-03-31 08:25:00

AI模型數據

2023-07-27 13:58:19

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 最新av在线播放 | 日韩黄色在线 | 日韩视频精品 | 欧美精品日韩少妇 | 99热亚洲| av资源站 | 精品免费视频 | 中文字幕第一区综合 | 中文在线免费观看 | 亚洲精品久久久久久久久久久 | 黄色a网站 | 国内自拍xxxx18 | 日本久久久久 | 一道本在线视频 | 亚洲第一黄网 | 亚洲第一区在线观看 | 国产精品久久久久久久成人午夜 | 亚洲一区日韩 | 中文在线观看免费视频 | 麻豆国产一区二区三区四区 | a级片在线观看 | 91性视频 | 精品一区二区三 | 91精品免费视频 | 亚洲欧美在线一区 | 国产成人精品三级麻豆 | 香蕉av在线 | 亚洲成人免费在线观看 | 成人免费看片视频 | 激情视频一区 | 成人免费黄色大片 | 亚洲在线一区二区 | 亚洲天堂免费 | 久久99精品久久久久久国产越南 | 国产又粗又猛 | 亚洲免费精品视频 | 激情综合网五月 | 日韩免费高清 | 中文字幕亚洲欧美 | 日韩视频免费大全中文字幕 | av一级在线 |