成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式

發布于 2025-4-21 07:29
瀏覽
0收藏

大家好,我是HxShine

今天分享一篇香港科技大學、DeepSeek-AI和上海交通大學聯合發表的文章,標題為:CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction(CODEI/O:通過代碼輸入輸出預測濃縮推理模式)。

這篇文章提出了一種名為 CODEI/O 的新方法,旨在 通過代碼輸入輸出預測來提煉和濃縮代碼中蘊含的多種推理模式,從而提升大語言模型(LLMs)的推理能力。 該方法的核心思想是 將代碼轉換為一種輸入輸出預測任務,讓模型學習在給定代碼和測試用例的情況下,預測輸入或輸出,而這些輸入輸出都以自然語言(思維鏈,CoT)的形式呈現。

該方法主要特點如下:

?通用性: CODEI/O 不僅能用于代碼相關的任務的推理能力, 還適用于更廣泛的推理任務, 如邏輯、符號、數學、科學和常識推理等。

一、概述

?Title:CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

?URL:arXiv:2502.07316v3

?Authors:Junlong Li, Daya Guo, Dejian Yang, Runxin Xu, Yu Wu, Junxian He

?Code:?? https://github.com/hkust-nlp/CodeIO??

1.Motivation

? 現有研究主要集中于增強特定領域的技能,例如數學或代碼生成,但由于訓練數據稀疏且分散,提高其他推理任務的性能仍然具有挑戰性(如何提升通用的推理能力還沒有人做的特別好!?。。?。

? 傳統方法在原始代碼上進行持續預訓練效果不佳,因為相關推理信號通常是隱式的,并且與噪聲信息交織在一起(預訓練階段利用代碼提上推理能力時的數據質量不太好!!!)。

? 直接訓練文本到代碼生成也面臨挑戰,因為它受限于生成特定代碼語法的要求,很難推廣到代碼特定任務之外的任務(需要做到更通用,例如全部用自然語言來處理,方便遷移到其他任務?。。。?。

2.Methods

省流版總結:

CODEI/O 將代碼轉化為輸入-輸出預測格式, 訓練模型根據自然語言形式的 CoT 推理來預測給定代碼和測試用例的輸入/輸出。這樣可以將結構化推理從特定代碼語法中解耦出來,并保留程序的嚴謹性。CODEI/O 能夠學習到通用推理基礎,如邏輯流程規劃、狀態空間搜索、決策樹遍歷和模塊化分解。

?CODEI/O方法:將原始代碼文件轉換成可執行的函數,并設計一個更直接的任務:給定一個函數及其相應的文本查詢,模型需要預測給定輸入的執行輸出或給定輸出的可行輸入,全部以自然語言作為CoT理由。

?數據構建:從各種來源收集原始代碼文件,轉換為統一格式,然后通過執行代碼生成輸入-輸出對,并使用DeepSeek-V2.5收集自然語言CoT預測。為了進一步提升數據質量,通過代碼執行驗證所有預測,并對初始錯誤的回應進行多輪修訂(CODEI/O++)。

?訓練方法:采用兩階段訓練策略,首先在CODEI/O或CODEI/O++數據集上進行訓練,然后在通用指令調優數據集上進行第二階段訓練。

詳細方法和步驟:

數據收集 (Collecting Raw Code Files):

? 從多樣化的來源選擇原始代碼,包括CodeMix (一個大型的內部代碼預訓練語料庫) 和 PyEdu-R (Python-Edu 的一個子集,專注于復雜的推理任務,如 STEM、系統建?;蜻壿嬛i題)。

? 為了避免與 CodeMix 重疊,PyEdu-R 特意排除了純算法中心的文件。

? 除了這兩個主要來源,還整合了來自各種小型但信譽良好的來源的高質量代碼文件,包括綜合算法存儲庫、具有挑戰性的數學問題和知名的在線編碼平臺。

? 總共合并了大約 810.5K 個代碼文件。

數據轉換 (Transforming to a Unified Format): 使用 DeepSeek-V2.5 對收集的原始代碼文件進行預處理,將其精煉為統一的格式,強調主要的邏輯功能,并使其可執行,以便收集輸入-輸出對。轉換后的數據組織成以下組件:

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

1)Cleaned Reference Code:通過清理和重構代碼,提取核心邏輯功能到函數中,排除可視化和文件處理等非必要元素。

2)Input Generator:創建一個獨立的、基于規則的 Python 輸入生成器函數,返回遵循主入口函數要求的非平凡輸入。應用隨機性以實現可擴展的數據生成。

3)Query:基于主入口函數生成簡潔的問題陳述,作為描述代碼預期功能的查詢。

這里有一個完整的example:

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

收集輸入和輸出對 (Collecting Input and Output Pairs): 對于每個轉換后的函數,使用輸入生成器采樣多個輸入,并通過執行代碼獲得相應的輸出。

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

構建輸入-輸出預測樣本 (Building Samples for Input-Output Prediction):

? 將收集的輸入-輸出對和轉換后的函數組合成可訓練的格式。

? 對于監督微調過程,為每個訓練樣本構建一個 prompt 和 response。Prompt 模板結合了函數、查詢、參考代碼以及特定的輸入或輸出。Response 理想情況下是自然語言 CoT,解釋如何推導出正確的輸出或可行的輸入。

? 提供了兩種構建 CoT response 的方法:

1)Direct Prompting – CODEI/O:使用 DeepSeek-V2.5 合成所有期望的 response,因為其性能優越且成本極低。

2)Making Full Use of Code – CODEI/O++:對于預測不正確的 response,將反饋附加為第二輪輸入消息,并要求 DeepSeek-V2.5 重新生成另一個 response。最終的 response 通過連接所有四個組件(第一輪 response + 第一輪反饋 + 第二輪 response + 第二輪反饋)構建。一個revise的example如下:

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

訓練設置 (Training Setups): 采用兩階段訓練策略:第一階段在 CODEI/O 或 CODEI/O++ 數據集上訓練 (加強推理能力),第二階段進行通用指令調優 (提升通用能力)。

3.Conclusion

?CODEI/O 方法有效提升了模型的推理能力。通過在 CODEI/O 數據集上訓練,模型在各種推理任務上都取得了顯著且普遍的性能提升,包括符號推理、科學推理、邏輯推理、數學推理和常識推理。

?CODEI/O 方法具有通用性和泛化能力。盡管 CODEI/O 使用的代碼中心數據進行訓練,但它不僅提升了代碼相關任務的性能,也提升了更廣泛的通用推理任務的性能,表明其學習到的推理模式具有良好的泛化能力。

4.Limitation

? 本文主要驗證了 CODEI/O 方法在提高模型推理能力上的有效性,但對于模型規模、推理成本等方面未進行深入探討,未來可以進一步探索如何將其應用于更廣泛的場景,并降低推理成本。

二、詳細內容

1.不同基座模型使用 CODEI/O 和 CODEI/O++ 在多個推理 benchmark 上的結果

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

總結1:CODEI/O 和 CODEI/O++ 不僅取得了更高的平均分數,而且性能更加均衡,在幾乎所有 benchmark 上都實現了性能提升,展示了其平衡且可泛化的推理能力。

總結2:與使用完整數據集訓練的 WI (Full) 和 OMI2 (Full) 相比,使用 3.5M 子集的 CODEI/O 和 CODEI/O++ 在 Qwen 2.5 Coder 7B 上仍然取得了更具競爭力的結果,表明 CODEI/O 具有更好的數據效率。

2.消融實驗:推理需要學習推理Pattern,最終答案反而不重要

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

說明:分別評估了僅進行輸入預測 (I. Pred. only)、僅進行輸出預測 (O. Pred. only) 以及去除 rejection sampling 的效果。

總結1:結果表明,輸入預測和輸出預測的效果大致相似,但輸入預測在 KorBench 上表現更優,而輸出預測在 BBH 等符號推理任務上表現更好。

總結2:去除 rejection sampling (過濾掉錯誤的數據或者更換成正確的數據)會導致性能普遍下降,表明 rejection sampling 雖然減少了訓練數據,但損失了數據多樣性,反而降低了性能 (重點是要學習更多pattern,答案是否正確對結果影響不大!!!)。DDdDd

3.CODEI/O 的 scaling effect

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

說明:a)展示了隨著隨機采樣訓練數據量增加,模型在各個 benchmark 上的性能變化趨勢。 b) 展示了隨著每個樣本輸入-輸出對數量比例變化,模型性能的變化。

總結1:增加訓練樣本數量通常會提升各個 benchmark 的性能,表明 CODEI/O 具有良好的可擴展性??偨Y2:Figure 4b 表明,增加每個樣本的輸入-輸出對數量比例,也能帶來性能提升,尤其是在從 1/6 增加到 6/6 時,表明某些推理模式需要多個測試用例才能充分捕獲和學習其復雜的邏輯流程。

4.不同 revision turns 下對訓練結果的影響

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

說明:Figure 5 展示了在不同 revision turns 下(修正錯誤結果的次數),模型在 benchmark 上的平均分數變化??偨Y1:從 turn 0 到 turn 1,模型性能有顯著提升,表明單輪修訂能夠有效提高數據質量??偨Y2:但從 turn 1 到 turn 2,性能提升微乎其微,甚至在 Qwen 2.5 Coder 7B 上出現下降,表明進一步修訂帶來的收益迅速遞減。(推理 長度影響比較大,可能影響了其他正常的推理)

5.不同數據格式對模型性能的影響

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

說明:評估了將 query+code 放在 prompt 中,CoT 放在 response 中 (Q+Code COT) 以及其他不同組合方式的效果。總結1:結果表明,將 query 和 reference code 放在 prompt 中,CoT 放在 response 中的格式 (Q+Code COT) 取得了最高的平均分數和最均衡的性能,表明這種格式最有利于模型學習可遷移的推理能力。總結2:將 query 放在 prompt 中,reference code 放在 response 中的格式 (Q Code) 效果最差,這可能是因為這種格式類似于標準的代碼生成任務,但訓練樣本量遠少于標準的代碼生成數據集。

6.多階段微調的影響

香港科技大學聯合DeepSeek-AI推出CODEI/O:讓AI學會“濃縮”推理模式-AI.x社區

說明:Table 4 展示了不同訓練策略下的平均 benchmark 分數。對比了單階段指令調優 (IT)、兩階段訓練 (CODEI/O+IT, CODEI/O++IT) 以及不同數據混合方式的效果??偨Y1:結果表明,所有兩階段訓練變體都優于單階段訓練,說明使用 CODEI/O 數據進行獨立訓練能提升推理效果。總結2:對于 Qwen 2.5 Coder 7B,保持 CODEI/O 和指令調優數據完全分離的效果最佳,而對于 LLAMA 3.1 8B,混合數據效果更好。論文為了簡化方法,主要實驗采用了完全分離的數據。

三、總結

結論1: CODEI/O 是一種有效提升大型語言模型通用推理能力的方法。 通過將原始代碼轉換為輸入-輸出預測任務,并利用自然語言 CoT 進行訓練,CODEI/O 使得模型能夠學習代碼中蘊含的多樣化推理模式,并在各種推理 benchmark 上取得顯著且均衡的性能提升。

結論2: CODEI/O++ 通過執行反饋和多輪修訂進一步增強了模型性能。 基于執行反饋的修訂策略能夠提高數據質量,并使模型在各種推理領域都獲得更優的表現。

結論3: CODEI/O 方法具有良好的通用性和泛化能力。 盡管使用代碼數據進行訓練,CODEI/O 不僅提升了代碼相關任務的性能,也顯著提升了其他通用推理任務的性能,表明其學習到的推理模式具有廣泛的適用性。

結論4: CODEI/O 在數據效率和性能方面都優于其他基線方法。 實驗表明,CODEI/O 即使使用相對較小的數據集,也能超越使用更大規模數據集的其他方法,展現了其數據效率和卓越的性能。

產業應用價值:

?提升通用人工智能模型的推理能力: CODEI/O 提供了一種新的訓練方法,可以有效提升大型語言模型的通用推理能力,使其在更廣泛的應用場景中表現更出色。

?降低數據標注成本: CODEI/O 利用代碼的結構化特性自動生成訓練數據,無需大量人工標注,降低了數據獲取和標注的成本。

?增強模型的魯棒性和泛化性: CODEI/O 訓練的模型在各種推理任務上都表現出均衡且優異的性能,表明其具有良好的魯棒性和泛化性,可以應用于更復雜和多樣的實際場景。

?為代碼相關應用提供更強大的基礎模型: CODEI/O 使用代碼數據進行訓練,可以為代碼生成、代碼理解、代碼缺陷檢測等代碼相關應用提供更強大的基礎模型。

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美日韩中文在线 | 91精品导航| 亚洲最大福利网 | aaa在线| 亚洲人成在线播放 | 中文av在线播放 | 综合激情av | 亚洲国产精品99久久久久久久久 | 亚洲激情视频在线 | 国产精品成人在线播放 | 日韩和的一区二在线 | 欧美日韩国产在线观看 | 97视频精品 | 日本久草视频 | 国产精品欧美一区二区三区不卡 | 国产高清免费视频 | 天天干在线播放 | 精品久久中文 | 中文字幕在线第二页 | 亚洲欧美激情精品一区二区 | 国产成人精品久久二区二区91 | www国产亚洲精品久久网站 | av在线免费网 | 日韩不卡一区二区 | 成人欧美一区二区 | 日本一区二区视频 | 日韩一区二区福利视频 | 日本免费网 | 欧美一区二区久久 | 99在线免费观看 | 国产女人与拘做受视频 | 国产999精品久久久影片官网 | 亚洲黄色视屏 | 91精品国产乱码久久久久久久久 | 国产高清精品一区 | 国内毛片毛片毛片毛片 | 日韩成人av在线 | 天天综合网天天综合 | 天天操夜夜艹 | 成人美女免费网站视频 | 国产一级片一区二区 |