成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深夜突襲,DeepSeek-Prover-V2加冕數(shù)學(xué)王者!671B數(shù)學(xué)推理逆天狂飆

人工智能
就在剛剛,DeepSeek-Prover-V2技術(shù)報告也來了!34頁論文揭秘了模型的訓(xùn)練核心——遞歸+強化學(xué)習(xí),讓數(shù)學(xué)推理大提升。有人盛贊:DeepSeek已找到通往AGI的正確路徑!

就在剛剛,DeepSeek-Prover-V2正式發(fā)布。

此次DeepSeek-Prover-V2提供了兩種模型尺寸:7B和671B參數(shù)。

DeepSeek-Prover-V2-671B:在DeepSeek-V3-Base基礎(chǔ)上訓(xùn)練,推理性能最強。

DeepSeek-Prover-V2-7B:基于DeepSeek-Prover-V1.5-Base構(gòu)建,上下文長度擴展至高達(dá)32Ktoken。

圖片圖片

圖片圖片

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

GitHub:https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main

同時,技術(shù)報告也放出了。

圖片圖片

論文鏈接:https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/DeepSeek_Prover_V2.pdf

昨天,DeepSeek突然在Hugging Face上開源了671B模型,果然很快就有后續(xù)了。

圖片圖片

數(shù)學(xué)證明大提升

此次DeepSeek-Prover-V2的訓(xùn)練核心,就是靠「遞歸+強化學(xué)習(xí)」。

首先,DeepSeek-V3會拆解復(fù)雜定理,生成一系列子目標(biāo)和推理思路。隨后,GRPO算法就會從多種候選方案中自動學(xué)習(xí)如何選出最優(yōu)解。

對于這次放出的技術(shù),網(wǎng)友盛贊說,這將導(dǎo)致超越人類的數(shù)字AI,極大地推動AI研究。

方法可以總結(jié)如下:

· 優(yōu)化算法,以實現(xiàn)更快、更智能的模型 

· 揭示AI「黑盒」行為的洞見

· 設(shè)計更好的架構(gòu),無需無盡的試錯 

· 加速數(shù)據(jù)分析,以實現(xiàn)更快的突破

因此,這就導(dǎo)致我們通向AGI,產(chǎn)生超級智能。幾年內(nèi),AI就將產(chǎn)生人類無法理解的高級數(shù)學(xué)。

圖片圖片

具體來說,DeepSeek-Prover-V2專門用于Lean 4中的形式化定理證明。

其中,初始化數(shù)據(jù)是通過DeepSeek-V3驅(qū)動的遞歸定理證明流程來收集的。

冷啟動訓(xùn)練過程中,會首先提示DeepSeek-V3將復(fù)雜問題分解為一系列子目標(biāo),然后將已解決子目標(biāo)的證明合成為思維鏈過程,并結(jié)合DeepSeek-V3的逐步推理,為強化學(xué)習(xí)提供了一個初始冷啟動。

通過這個過程,非正式和正式的數(shù)學(xué)推理就能集成到一個統(tǒng)一的模型中。

圖片圖片

總結(jié)來說,亮點如下。

  • 生成冷啟動推理數(shù)據(jù):遞歸證明搜索方法

為構(gòu)建冷啟動數(shù)據(jù)集,團隊開發(fā)了一個簡單而有效的遞歸定理證明流程,利用 DeepSeek-V3作為統(tǒng)一工具,進(jìn)行子目標(biāo)分解和形式化。

DeepSeek-V3會被提示,將定理分解為高層次的證明草圖。同時,在Lean 4中形式化這些證明步驟,從而產(chǎn)生一系列子目標(biāo)。

首先使用一個較小的 7B 模型來處理每個子目標(biāo)的證明搜索,以此降低計算負(fù)擔(dān)。

一旦具有挑戰(zhàn)性的問題的分解步驟得到解決,就將完整的逐步形式化證明與DeepSeek-V3產(chǎn)生的相應(yīng)思維鏈過程相結(jié)合,從而生成冷啟動推理數(shù)據(jù)。

  • 基于合成冷啟動數(shù)據(jù)的強化學(xué)習(xí)

團隊精心挑選了一個具有挑戰(zhàn)性的問題子集——它們無法通過7B prover以端到端的方式解決,但分解后的所有子目標(biāo)都已成功解決。

通過整合所有子目標(biāo)的證明,團隊為原始問題構(gòu)建了一個完整的形式化證明。

然后,將此證明附加到DeepSeek-V3的思維鏈中,該思維鏈概述了相應(yīng)的引理分解,從而將非正式推理與后續(xù)形式化過程有機結(jié)合。

在合成冷啟動數(shù)據(jù)上微調(diào)prover模型后,團隊執(zhí)行了強化學(xué)習(xí)階段,以進(jìn)一步增強其連接非正式推理與形式化證明構(gòu)建的能力。

根據(jù)推理模型的標(biāo)準(zhǔn)訓(xùn)練目標(biāo),采用二元正確/不正確反饋作為主要的獎勵監(jiān)督形式。

最終,模型DeepSeek-Prover-V2-671B在神經(jīng)定理證明方面實現(xiàn)了當(dāng)前最優(yōu)的性能,在MiniF2F-test上達(dá)到了88.9%的通過率,并解決了PutnamBench中658個問題中的49個。

DeepSeek-Prover-V2為miniF2F數(shù)據(jù)集生成的證明:https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/minif2f-solutions.zip

  • ·針對AIME與教科書題目的形式化數(shù)據(jù)集ProverBench

ProverBench是一個包含325道題目的基準(zhǔn)數(shù)據(jù)集。

其中,15道題目源自最近AIME競賽(AIME 24&25)中的數(shù)論和代數(shù)題目,提供了極具挑戰(zhàn)性的高中競賽級別題目。

剩余的310道題目則來自精選的教科書例題和教學(xué)教程,構(gòu)建了一個多樣化的、具有教學(xué)意義的形式化數(shù)學(xué)題目集合。

因此,這項基準(zhǔn)更全面地評估高中競賽和本科階段的數(shù)學(xué)水平。

圖片圖片

DeepSeek-Prover-V2

在論文中,團隊構(gòu)建了用于子目標(biāo)分解的推理模型,利用合成的冷啟動數(shù)據(jù)和大規(guī)模強化學(xué)習(xí)技術(shù)來提升其性能。

通過子目標(biāo)分解實現(xiàn)遞歸式證明搜索

將復(fù)雜定理的證明過程拆解為一系列較小的引理,作為中間步驟,是人類數(shù)學(xué)家普遍采用的一種高效策略。

近年來,分層式方法在神經(jīng)定理證明領(lǐng)域得到了廣泛應(yīng)用。它的核心思路是借助現(xiàn)代大型語言模型(LLM)擅長的非形式化推理能力,來提升定理證明搜索的效率。

這部分包括3階段:從自然語言推理到形式化證明草圖、子目標(biāo)的遞歸求解、基于子目標(biāo)的定理證明中的課程學(xué)習(xí)。

首先提示DeepSeek-V3,同時生成自然語言形式的證明草圖,并將其形式化為Lean語言中的定理陳述,其中對于尚未證明的部分使用sorry占位。

接著,7B證明模型用于遞歸地求解被分解出的各個子目標(biāo)。通過組合這些子目標(biāo)的證明內(nèi)容,團隊可以構(gòu)建出原始復(fù)雜問題的完整形式化證明。

冷啟動數(shù)據(jù)收集流程概覽冷啟動數(shù)據(jù)收集流程概覽


DeepSeek利用子目標(biāo)來擴展可用于模型訓(xùn)練的形式化定理范圍。

他們生成了兩種類型的子目標(biāo)定理:一種包含前序子目標(biāo)作為前提條件(對應(yīng)圖 3(b)),另一種則不包含前提條件(對應(yīng)圖 3(a))。

這兩種類型的子目標(biāo)都被納入到專家迭代階段,形成一個漸進(jìn)式的課程體系,引導(dǎo)證明模型逐步掌握解決精選難題的方法。

這一流程的核心思想與AlphaProof 在測試階段采用的強化學(xué)習(xí)策略類似:生成目標(biāo)問題的多種變體,提升模型解決高難度的IMO級別問題的能力。

圖片圖片

將分解后的子目標(biāo)轉(zhuǎn)化為一系列引理(lemma)陳述

首先執(zhí)行步驟 (a):將原始目標(biāo)狀態(tài)替換為當(dāng)前子目標(biāo)。

接著進(jìn)行步驟 (b):將之前的子目標(biāo)作為前提條件納入當(dāng)前引理中。

類型 (b) 的陳述用于遞歸求解復(fù)雜問題,而類型 (a) 和 (b) 的陳述都被納入課程學(xué)習(xí)流程中,用于訓(xùn)練模型逐步掌握推理能力。

最后,將這個組合后的正式證明附加到 DeepSeek-V3最初生成的「思維鏈」之上,形成高質(zhì)量的冷啟動訓(xùn)練數(shù)據(jù),用于支持形式化數(shù)學(xué)推理的學(xué)習(xí)。

統(tǒng)一非形式化推理與形式化證明

算法框架包括兩個階段,分別依賴兩個互補模型:用于引理分解的 DeepSeek-V3,以及用于補全具體形式化證明細(xì)節(jié)的7B證明模型。

這種方法巧妙地融合了高層次的自然語言推理和低層次的精確證明過程,為構(gòu)建可用于訓(xùn)練的形式化推理數(shù)據(jù)提供了重要基礎(chǔ)。

· 用合成數(shù)據(jù)實現(xiàn)冷啟動

在研究過程中,DeepSeek挑選出一些特別難解決的問題。

這些問題很棘手,即便用7B證明模型,也沒辦法從頭到尾直接解決。

不過有意思的是,把這些問題拆解成一個個小目標(biāo)后,每個小目標(biāo)都能被成功證明。就像拼拼圖一樣,把這些小目標(biāo)的證明過程按順序組合起來,就能得到原始難題的完整證明,而且這個證明是非常嚴(yán)謹(jǐn)、規(guī)范的形式化證明。

圖片圖片

接著,DeepSeek把這個完整的證明,添加到 DeepSeek-V3 生成的 「思維鏈」 里。

這里的 「思維鏈」 就像是解題的思路草稿,詳細(xì)記錄了把難題分解成小目標(biāo)的過程。

這樣一來,DeepSeek就得到了一份特殊的證明樣本,它既有像日常思考那樣的非形式化推理過程,又有嚴(yán)謹(jǐn)?shù)男问交C明步驟,兩者完美結(jié)合。

通過這種方式,團隊成功收集到了幾百條高質(zhì)量的數(shù)據(jù)。

它們非常重要,是訓(xùn)練 DeepSeek-Prover-V2模型的基礎(chǔ)。

這里方法的核心是把日常語言描述的證明過程,直接轉(zhuǎn)化成有邏輯結(jié)構(gòu)的形式化框架。

· 用強化學(xué)習(xí)提升推理能力

用冷啟動合成數(shù)據(jù)對證明模型進(jìn)行初步優(yōu)化后,就進(jìn)入了強化學(xué)習(xí)階段。

強化學(xué)習(xí)階段目的是讓模型更好地把日常語言的推理過程,轉(zhuǎn)化成嚴(yán)謹(jǐn)?shù)男问交C明。

在這個過程中,按照標(biāo)準(zhǔn)的推理模型訓(xùn)練要求,用 「正確」 或 「錯誤」 這兩種簡單的反饋,作為主要的獎勵監(jiān)督信號。也就是說,如果模型給出的證明是對的,就獎勵它;如果錯了,就不給獎勵。

但訓(xùn)練有個問題:模型生成的證明結(jié)構(gòu),經(jīng)常和 「思維鏈」 里分解問題的思路對不上。

為了解決這個問題,在訓(xùn)練剛開始的時候,團隊就加入了一種新的獎勵機制,專門用來懲罰那些和分解結(jié)構(gòu)不一致的輸出結(jié)果。

在實際訓(xùn)練中,這個保證結(jié)構(gòu)一致的方法效果非常好,大大提高了證明的準(zhǔn)確率。尤其是在證明那些需要很多步驟、特別復(fù)雜的定理時,優(yōu)勢更加明顯。

訓(xùn)練細(xì)節(jié)

DeepSeek-Prover-V2的訓(xùn)練采用了兩階段策略,建立了兩種互補的證明生成模式:

  • 高效率非思維鏈(non-CoT)模式:優(yōu)化用于快速生成Lean形式化代碼,重點在于輸出簡潔、高效的證明,不包含顯式的中間推理步驟
  • 高精度思維鏈(CoT)模式:注重系統(tǒng)化表達(dá)推理過程,逐步構(gòu)建邏輯清晰的中間步驟,最后生成完整的形式化證明

這兩個生成模式的設(shè)計延續(xù)了DeepSeek-Prover-V1.5的思路,區(qū)別在于不同的提示模板。

在第一階段中,團隊結(jié)合課程學(xué)習(xí)框架和專家迭代機制,訓(xùn)練non-CoT證明模型,并通過子目標(biāo)分解遞歸地合成復(fù)雜問題的證明。

由于non-CoT模式推理速度快、驗證成本低,因此非常適合快速迭代與數(shù)據(jù)采集。

在此基礎(chǔ)上,第二階段引入了冷啟動的思維鏈數(shù)據(jù),這些數(shù)據(jù)整合了DeepSeek-V3的高級數(shù)學(xué)推理能力與合成的形式化證明。

CoT模式隨后進(jìn)入強化學(xué)習(xí)階段,以進(jìn)一步提升模型在推理和形式化構(gòu)造之間的銜接能力。

專家迭代(Expert Iteration)

DeepSeek-Prover-V2的non-CoT模型訓(xùn)練采用了「專家迭代」方法,這是目前形式化定理證明系統(tǒng)中廣泛使用的訓(xùn)練范式。

圖片圖片

論文鏈接:https://arxiv.org/abs/2009.03393

每輪訓(xùn)練中,當(dāng)前性能最好的模型會嘗試解決前幾輪未成功證明的難題。

成功的證明結(jié)果經(jīng)Lean系統(tǒng)驗證后被加入監(jiān)督微調(diào)(SFT)數(shù)據(jù)集中,用于訓(xùn)練下一代更強的模型。

這個過程不僅讓模型持續(xù)從初始演示數(shù)據(jù)中學(xué)習(xí),還能提煉自身的成功推理路徑,不斷優(yōu)化解決難題的能力。

DeepSeek-Prover-V2整體訓(xùn)練流程與V1和V1.5保持一致,只在訓(xùn)練問題的分布上做了兩處改進(jìn):

  • 加入更多來自自動形式化和開源數(shù)據(jù)集的題目,擴大訓(xùn)練覆蓋范圍
  • 加入基于子目標(biāo)分解生成的題目,尤其針對MiniF2F基準(zhǔn)數(shù)據(jù)集中驗證集的高難度問題

監(jiān)督微調(diào)(Supervised Fine-tuning)

團隊在DeepSeek-V3-Base-671B的基礎(chǔ)上進(jìn)行微調(diào),學(xué)習(xí)率設(shè)置為常數(shù)5e-6,最大上下文長度為16,384 token。

訓(xùn)練數(shù)據(jù)來自兩個來源:

  • non-CoT數(shù)據(jù):由專家迭代生成,強調(diào)高效生成Lean代碼,但不包含推理過程
  • 冷啟動CoT數(shù)據(jù):來自DeepSeek-V3的高階數(shù)學(xué)推理,通過形式化草圖展現(xiàn)清晰的推理路徑

non-CoT數(shù)據(jù)強化模型在Lean生態(tài)中的形式驗證能力,而CoT數(shù)據(jù)則更強調(diào)將數(shù)學(xué)直覺轉(zhuǎn)化為結(jié)構(gòu)化形式證明的過程。

強化學(xué)習(xí)(Reinforcement Learning)

DeepSeek采用了Group Relative Policy Optimization(GRPO)作為強化學(xué)習(xí)算法。

GRPO不需要單獨的價值評估模型,而是通過對每道題采樣多個候選證明,并基于相對獎勵進(jìn)行策略優(yōu)化。

訓(xùn)練時,我們使用二元獎勵機制Lean驗證成功則得分1,失敗則為0。

為了確保訓(xùn)練有效性,團隊精心挑選了具有挑戰(zhàn)性但又可解的題目作為訓(xùn)練提示。

在每輪訓(xùn)練中,隨機選取256道不同題目,每道題生成32個候選證明,最大序列長度為32,768 token。

蒸餾與小模型訓(xùn)練(Distillation)

團隊將DeepSeek-Prover-V1.5-Base-7B的最大上下文長度從4,096擴展到32,768 token,并利用在671B模型強化學(xué)習(xí)階段采集的rollout數(shù)據(jù)對模型進(jìn)行微調(diào)。

在CoT模式之外,團隊還加入了專家迭代期間采集的non-CoT數(shù)據(jù),旨在讓小模型具備成本更低的證明能力,能夠快速輸出精煉的形式化結(jié)果。

此外,團隊也在7B小模型上執(zhí)行與671B模型相同的強化學(xué)習(xí)流程。

實驗結(jié)果

MiniF2F基準(zhǔn)測試結(jié)果

MiniF2F包含488個形式化的題目,來源包括AIME、AMC和IMO等競賽,以及MATH數(shù)據(jù)集,涵蓋了初等數(shù)學(xué)的核心領(lǐng)域,如代數(shù)、數(shù)論和歸納法。

這些題目被分為兩個大小相等的子集,即miniF2F-valid和miniF2F-test,每個子集包含244道題目,并且在各個學(xué)科領(lǐng)域具有相同的分布。

如表1所示,實驗結(jié)果表明,DeepSeek-Prover-V2-671B在miniF2F-test基準(zhǔn)上取得了SOTA性能,當(dāng)采用CoT生成策略時,僅用32個樣本便達(dá)到了前所未有的82.4%的準(zhǔn)確率。

值得注意的是,參數(shù)效率更高的DeepSeek-Prover-V2-7B也展現(xiàn)出了很強的競爭力,超越了現(xiàn)有文獻(xiàn)中的所有開源定理證明器。

他們還發(fā)現(xiàn)了一個明顯的規(guī)律:隨著樣本預(yù)算從1增加到8192,7B和671B模型之間的性能差距顯著擴大,更大規(guī)模的模型展現(xiàn)出更高的樣本效率和更快的性能提升。

圖片圖片

  • 子目標(biāo)引導(dǎo)的課程學(xué)習(xí)在難題證明中的應(yīng)用

表2詳細(xì)展示了DeepSeek-Prover-V2在miniF2F基準(zhǔn)測試中的解題情況,其在驗證集和測試集上分別取得了91.0%和88.9%的高通過率。

值得注意的是,團隊提出了子目標(biāo)引導(dǎo)的課程學(xué)習(xí)框架,將通用模型DeepSeek-V3與輕量級專用7B prover相結(jié)合,在miniF2F-valid上實現(xiàn)了90.2%的成功率,與DeepSeekProver-V2-671B的性能幾乎持平。

這些發(fā)現(xiàn)表明,SOTA的通用LLM不僅能進(jìn)行自然語言理解,還能有效支持復(fù)雜的形式推理任務(wù)。

通過巧妙的子目標(biāo)分解,模型便可將難題分解為一系列可處理的步驟,從而有效連接非正式推理與形式化證明構(gòu)建。

圖片圖片

CoT vs. non-CoT

表1的實驗結(jié)果表明,在形式化數(shù)學(xué)推理中,CoT推理模式相比non-CoT模式具有顯著的性能優(yōu)勢。

這進(jìn)一步驗證了CoT提示的有效性,它鼓勵將復(fù)雜問題分解為中間步驟,并證實了推理時擴展在形式化定理證明領(lǐng)域依然適用。

作為補充,表3提供了DeepSeek-Prover-V2在不同推理模式下生成的token數(shù)量的統(tǒng)計信息。

正如預(yù)期的那樣,CoT模式會生成明顯更長的輸出,反映了其復(fù)雜的推理過程。

有趣的是,在non-CoT設(shè)置下,671B模型生成的平均輸出長度比7B模型更長。

更仔細(xì)的分析表明,盡管non-CoT模式下沒有顯式推理提示,但較大規(guī)模的模型通常會在證明代碼中插入簡短的自然語言注釋,這些注釋類似于隱式推理步驟。

這表明,即使沒有顯式的CoT提示,高容量模型也可能在內(nèi)部和外部隱式地執(zhí)行中間推理。

圖片圖片

本科水平基準(zhǔn)測試結(jié)果

  • ProofNet 

ProofNet包含371道使用Lean 3編寫的題目,這些題目選自一系列流行的本科純數(shù)學(xué)教材,涵蓋了實分析、復(fù)分析、線性代數(shù)、抽象代數(shù)和拓?fù)涞戎黝}。

表4的結(jié)果顯示,相比于non-CoT設(shè)置,采用CoT推理時DeepSeek-Prover-V2的通過率得到了顯著提升。

盡管訓(xùn)練數(shù)據(jù)主要源自高中數(shù)學(xué),但該模型在更高級的大學(xué)數(shù)學(xué)問題上展現(xiàn)出了強大的泛化能力,代表著強大的形式推理能力。

  • PutnamBench

PutnamBench基準(zhǔn)測試集包含了1962年至2023年普特南數(shù)學(xué)競賽中的數(shù)學(xué)題。

它是美國和加拿大極負(fù)盛名的年度本科生數(shù)學(xué)競賽,涵蓋分析、線性代數(shù)、抽象代數(shù)、組合數(shù)學(xué)、概率論和集合論等多個大學(xué)領(lǐng)域的知識。

如表4所示,DeepSeek-Prover-V2-671B在PutnamBench中展現(xiàn)了增強的推理能力,解決了49道題目,并顯著優(yōu)于其non-CoT版本。

這說明,CoT推理方法已經(jīng)可以有效處理極有挑戰(zhàn)性的大學(xué)數(shù)學(xué)問題。

圖片圖片

  • RL實現(xiàn)的技能發(fā)現(xiàn):7B勝過671B!

此外,團隊意外地發(fā)現(xiàn):DeepSeek-Prover-V2-7B在PutnamBench數(shù)據(jù)集上采用non-CoT生成模式時,也表現(xiàn)出了卓越的性能。

更令人稱奇的是,這個較小的7B模型成功解決了DeepSeek-Prover-V2-671B仍未能解決的13道題!

這是為什么?

仔細(xì)分析模型的輸出后,團隊從中發(fā)現(xiàn)了一種獨特的推理模式——

7B模型經(jīng)常使用Cardinal.toNat和Cardinal.natCast_inj來處理涉及有限基數(shù)的問題,而671B模型生成的輸出中明顯缺少這種處理方式。

似乎就是這種技術(shù),讓7B能有效解決需要精細(xì)操作基數(shù)值的問題。

圖片

組合問題測試結(jié)果

CombiBench是一個綜合性的基準(zhǔn)測試集,其中包含了100道用Lean 4形式化表示的組合競賽題,配有自然語言描述。

團隊采用with-solution設(shè)置,此時正確的答案已嵌入在Lean代碼中,因此評估可以完全集中在證明過程的生成上。

對其中77道題進(jìn)行評估后,模型成功解決了12道。

結(jié)果表明,盡管該Prover模型主要在數(shù)論和代數(shù)領(lǐng)域進(jìn)行訓(xùn)練,但在組合問題上也展現(xiàn)出了良好的泛化潛力,即使這些問題相當(dāng)難。

ProverBench數(shù)據(jù)集

為了增強現(xiàn)有基準(zhǔn),團隊構(gòu)建了一個包含325道題目的基準(zhǔn)數(shù)據(jù)集。

其中,15道題目來自AIME 24和25中的數(shù)論和代數(shù)題目,屬于極難的高中競賽級別題目。剩余的310道題目則來自精選的教科書例題和教學(xué)教程。

這就能更全面評估高中競賽和本科階段的數(shù)學(xué)水平。

  • AIME題目形式化

美國數(shù)學(xué)邀請賽AIME 24&25中的題目,已成為評估LLM推理能力的常用基準(zhǔn)。

為了彌合模型在形式化和非形式化數(shù)學(xué)推理能力評估上的差異,我們整理并形式化了AIME 24&25中的部分題目,并排除了幾何、組合和計數(shù)問題,因為它們在Lean中的表示較復(fù)雜。

最終,團隊選擇了15道題目,涵蓋了初等數(shù)論和代數(shù)中競賽級別的知識點。

結(jié)果顯示,DeepSeek-V3-0324成功解決了15道題中的8道題。

而DeepSeek-Prover-V2-671B在已知正確答案的前提下,能夠為15道題目中的6道構(gòu)建出有效的形式化證明。

這種表明,非形式化數(shù)學(xué)推理與形式化定理證明的性能差距正在顯著縮小,高級語言模型在語言理解和形式邏輯的嚴(yán)謹(jǐn)性上正日益接近。

  • ·教科書題目形式化

除了AIME 24&25之外,團隊還從高中競賽和本科課程教材中挑出題目來擴充基準(zhǔn)測試集。

最終,他們形式化了310道題,難度范圍很廣,覆蓋了競賽級別的初等數(shù)學(xué)到本科常見的高級主題。

如表6所示,結(jié)果表明,采用CoT推理的DeepSeek-Prover-V2-671B始終優(yōu)于所有基線模型,與在其他基準(zhǔn)測試中的表現(xiàn)一致。

圖片圖片

在論文最后,團隊表示,未來的工作將著重于將范例擴展到類似AlphaProof的系統(tǒng)。

最終目標(biāo),就是解決代表自動定理證明領(lǐng)域前沿的IMO級數(shù)學(xué)難題!

快速開始

我們可以直接使用Hugging Face的Transformers庫進(jìn)行模型推理。

以下是如何生成miniF2F數(shù)據(jù)集中問題證明的一個簡單示例:

from transformers import AutoModelForCausalLM, Autotokenizer
import torch
torch.manual_seed(30)
model_id = "DeepSeek-Prover-V2-7B"  # or DeepSeek-Prover-V2-671B
tokenizer = Autotokenizer.from_pretrained(model_id)
formal_statement = """
import Mathlib
import Aesop
set_option maxHeartbeats 0
open BigOperators Real Nat Topology Rat
/-- What is the positive difference between $120\%$ of 30 and $130\%$ of 20? Show that it is 10.-/
theorem mathd_algebra_10 : abs ((120 : ?) / 100 * 30 - 130 / 100 * 20) = 10 := by
  sorry
""".strip()
prompt = """
Complete the following Lean 4 code:
```lean4
{}
```
Before producing the Lean 4 code to formally prove the given theorem, provide a detailed proof plan outlining the main proof steps and strategies.
The plan should highlight key ideas, intermediate lemmas, and proof structures that will guide the construction of the final formal proof.
""".strip()
chat = [
  {"role": "user", "content": prompt.format(formal_statement)},
]
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)
inputs = tokenizer.apply_chat_template(chat, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
import time
start = time.time()
outputs = model.generate(inputs, max_new_token=8192)
print(tokenizer.batch_decode(outputs))
print(time.time() - start)

參考資料:https://github.com/deepseek-ai/DeepSeek-Prover-V2/tree/main

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-03-26 09:12:59

DeepSeek VChat2BISQL

2025-04-11 12:10:33

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-06-17 08:45:00

模型智能工具

2025-07-18 09:55:11

2025-03-07 08:30:00

2025-03-04 09:00:00

2025-02-25 14:46:59

2025-04-03 06:30:00

2025-03-06 08:11:25

2025-04-07 08:50:00

模型AI數(shù)據(jù)

2025-04-03 15:57:48

2025-03-27 10:28:32

2025-07-18 10:12:00

2025-02-03 13:55:20

2024-12-27 11:13:16

2025-06-25 08:54:03

模型訓(xùn)練AI

2024-12-27 10:27:58

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日本久草 | 日韩精品一区在线观看 | 日本一区二区高清视频 | 99re超碰| 久草免费福利 | 亚洲成人高清 | a毛片 | 日韩欧美在线不卡 | 久久久激情视频 | 中文字幕av免费 | h视频免费在线观看 | 欧美日韩国产在线观看 | 久热爱 | 91久久久精品国产一区二区蜜臀 | 亚洲久草视频 | 一区二区三区av | 国产精品极品美女在线观看免费 | 亚洲欧美国产精品一区二区 | 欧美高清视频在线观看 | 九九伦理电影 | 久久人体 | 亚洲国产精品日本 | 欧美一级片在线观看 | 国产精品毛片av | 超碰在线97国产 | 精品乱码一区二区三四区视频 | 成年人黄色免费视频 | 国产激情91久久精品导航 | 福利视频一区二区 | 精品国产乱码久久久久久丨区2区 | 大乳boobs巨大吃奶挤奶 | 在线看片网站 | 日韩欧美一级 | 精品国产一二三区 | 91久久国产综合久久 | 久久黄视频 | 日韩精品久久一区 | 成人精品一区二区三区 | 一级全黄视频 | 欧美日韩亚洲视频 | 久久久久久久久久久久一区二区 |