成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<kbd id="iymsc"><acronym id="iymsc"></acronym></kbd>

<samp id="iymsc"><tr id="iymsc"></tr></samp>

<tfoot id="iymsc"><tr id="iymsc"><big id="iymsc"></big></tr></tfoot>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！

大語言模型論文跟蹤

發布于 2024-5-28 10:36

瀏覽

0收藏

比GPT4還要厲害的開源模型

AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！-AI.x社區圖片

今天這篇論文介紹了一個最新的大語言模型 AutoCoder，一個只有33B的大語言模型。AutoCoder-33B在HumanEval基準測試中Pass@1的達到90.9%，領先于當前所有頂級的代碼生成大型語言模型。在HumanEval+上，它的Pass@1為78%，僅次于GPT-4 Turbo和CodeQwen1.5-Chat。

模型下載地址：https://huggingface.co/Bin12345/AutoCoder

AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！-AI.x社區圖片

其中，盡管AutoCoder-S只有6.7B參數，它在HumanEval和HumanEval+上的Pass@1比率依然達到了78.7%和72%。在MBPP和MBPP+基準測試中，它的性能分別為79.4%和69.8%，在MBPP+的測試中，其表現在70B參數級別內僅次于DeepSeek-Coder-instruct (33B)。

為了測試AutoCoder在多種程序語言上的表現，作者采用MultiPL-E基準測試AutoCoder。實驗結果顯示，AutoCoder在Java、C++和Rust語言上的Pass@1成績分別為61.4%、68.9%和60.8%，表現卓越。在其他三種語言上，它的表現也僅次于CodeQwen1.5-Chat等少數模型，彰顯了AutoCoder在多語言代碼生成上的強勁實力。

AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！-AI.x社區圖片

為什么AutoCoder這么強？

AutoCoder之所以能強國GPT-4o的原因，是因為作者采用了 AIEV-INSTRUCT方法來構建高質量的代碼指令集數據。

AIEV-INSTRUCT通過智能體（Agent）交互模擬程序員編碼和執行單元測試的過程，并通過執行驗證確保數據的準確性。AIEV-INSTRUCT包含教學階段和自學階段，減少了在數據注釋過程中對成本高昂的閉源模型的依賴。

AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！-AI.x社區圖片

上圖展示了AIEV-INSTRUCT的整體架構，分為兩個階段：教學階段和自我學習階段。

? 在教學階段，模型主要通過吸收教師模型的知識來學習；
? 而在自我學習階段，它則獨立進行學習。

在教學階段，作者收集了開源代碼片段，并引入GPT-4 Turbo作為教師模型，以補充和修正這些代碼。整個流程包含四個關鍵步驟：

? 在初始化階段（I），配置了必要的組件，GPT-4 Turbo扮演著提問者和程序員的雙重角色，確保生成的數據多樣化，從而形成一個更加均衡的概率分布，避免對話模板的單一化。對話消息以空列表的形式初始化，用于在整個過程中存儲數據。最終，這個列表將包含多輪對話，并將整個對話作為單一數據項加入到我們的最終數據集中。此外，還需要設置一個Docker容器，作為我們的代碼解釋器，負責安裝必要的外部包并執行需要驗證的代碼。
? 在提出問題階段（II），首先利用GPT-4 Turbo執行OSS-Instruct ，構建問題描述和具體解決方案，包括基于開源代碼片段的代碼片段。不同的是，要求GPT-4 Turbo提供一些單元測試，以進一步確保數據集中代碼的準確性。前一步驟中初始化的對話消息將依次添加問題描述（?）、解決方案和單元測試（?）。
? 在執行反饋階段（III），通過多輪執行反饋來檢驗生成的代碼，提升數據集的質量。首先，將第二步生成的代碼片段輸入代碼解釋器。如果執行出錯，對話消息將添加詳細的錯誤輸出（Stderr）（?）。同時，這些錯誤信息將提供給提問者，他將基于錯誤輸出生成自然語言描述，該描述也將添加到對話消息中（?）。然后，自然語言描述和錯誤輸出作為新問題提交給程序員，程序員將繼續修改代碼。對話消息將添加新生成的代碼（?），并重復這一過程。
? 在終止階段（IV），同樣使用代碼解釋器運行程序員生成的代碼。如果程序運行成功，輸出結果（Stdout）將添加到對話消息中（?），完成單個數據項的分析。每分析2000個數據項后，將新數據按1:9的比例劃分為測試集和訓練集。訓練集用于訓練學生模型（AutoCoder）。訓練完成后，使用測試集來評估教師模型和學生模型。評估完成后，將比較兩個模型的首次通過率（Pass@1）。如果教師模型表現更佳，我將繼續教學階段；如果學生模型表現更佳，將轉向自我學習階段。自我學習階段與教學階段的主要區別在于，自我學習階段中，用學生模型取代了原始的教師模型，學生模型自己擔任提問者和程序員的角色，獨立完成整個執行反饋過程。

AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！-AI.x社區圖片

作者將AutoCoder-AIEV-Instruct數據集與幾個現有的大型代碼指令數據集進行了對比，對比結果如上圖。AutoCoder-AIEV-Instruct數據集包含169K個數據樣本，累計達到241K輪對話。其中，150K輪對話數據來源于多輪對話樣本。該數據集不僅包含主要功能，還涵蓋了后續的包安裝、代碼執行錯誤或結果，以及多樣化的錯誤分析。與Magicoder-Evol-Instruct和Magicoder-OSSInstruct原始數據集相比，新增的單元測試進一步提高了代碼相關任務的準確性。此外，與Code-Feedback 相比，AutoCoder-AIEV-Instruct包含了更豐富的執行反饋結果，減少了代碼塊拼接所需的多輪對話，從而增強了上下文的連貫性。

訓練過程

AutoCoder模型的基礎模型是Deepseek-Coder的兩個基礎版本，即6.7B和33B，作者在這兩個模型的基礎上進行了細致的微調，借助AutoCoder-AIEV-Instruct數據集，成功打造出了AutoCoder 33B和AutoCoder-S 6.7B。

為了賦予AutoCoder代碼解釋器的能力，利用transformer庫中的AutoTokenizer工具包，為模型引入了四個特殊標記。硬件配置上，使用了10個節點，配備了總計40塊80GB的A100 GPU，這些GPU部署在一個基于SLURM的集群中。GPU間的通信由NVIDIA的集體通信庫（NCCL）負責。在訓練參數的設置上，使用了deepspeed庫中的ZeRO-Stage 3特性，以實現模型參數的分割，每個GPU的批次大小設為8，梯度累積步數為4，學習率設為5e-5，參數類型選用了bf16。序列的最大長度被設定為5120，而訓練的總周期則為2。整個訓練過程中，采取了全面的參數調優策。

demo演示方法

git clone https://github.com/bin123apple/AutoCoder

conda create -n AutoCoder pythnotallow=3.11
conda activate AutoCoder
pip install -r requirements.txt


cd /Web_demo
pip install -r requirements.txt

python chatbot.py

論文原文: ??https://arxiv.org/abs/2405.14906??

AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！-AI.x社區

本文轉載自??大語言模型論文跟蹤??，作者： HuggingAGI ????

標簽

贊

收藏

回復

舉報

回復

相關推薦

GPT-4o：實現跨越文本與視覺的智能交互

51CTO內容精選 ? 4323瀏覽 ? 0回復
GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！

戀戀青鳥 ? 3515瀏覽 ? 0回復
速度秒殺GPT-4o！Mistral開源首個22B代碼模型破記錄，支持80+編程語言

duhorse ? 3473瀏覽 ? 0回復
GPT-4o與SQL：大模型改變自身架構的能力有多強？

51CTO技術棧 ? 2466瀏覽 ? 0回復
GPT-4o背后可能的語音技術

魚蟲子 ? 3407瀏覽 ? 0回復
英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o

duhorse ? 3098瀏覽 ? 0回復
開源模型王座一夜易主，GPT-4o被超越

duhorse ? 2320瀏覽 ? 0回復
阿里史上最大規模開源發布，超GPT-4o 、Llama-3.1！

Aceryt ? 2440瀏覽 ? 0回復
擊敗GPT-4o、僅次于o1！英偉達重磅開源超強大模型--Nemotron

Aceryt ? 3325瀏覽 ? 0回復
重磅開源Nemotron大模型：擊敗GPT-4o、僅次于o1！

51CTO技術棧 ? 2241瀏覽 ? 0回復
超GPT-4o，1240億參數！最強開源多模態模型 Pixtral Large！

Aceryt ? 2549瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 4807瀏覽 ? 0回復
微軟發布Phi-4，最強小模型！參數極小、超GPT-4o

Aceryt ? 2230瀏覽 ? 0回復
微軟：GPT-4o-mini只有8B，o1-mini僅100B

PaperAgent ? 2166瀏覽 ? 0回復
微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 2388瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理

Aceryt ? 2549瀏覽 ? 0回復
LLM合集：MiniMax-01 開源，性能比肩 GPT-4o，上下文窗口領先 20-32 倍

AIPaperDaily ? 2457瀏覽 ? 0回復
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準測試中超越了 GPT-4o

Halo咯咯 ? 1.2w瀏覽 ? 0回復
清華發布GLM 4！32B參數模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 2658瀏覽 ? 0回復

大語言模型論文跟蹤

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

不懂RAG？看這一篇萬字長文就夠了 1天前發布
詳解 Minus AI：邁向AGI新紀元？ 2025-06-13 07:02:10發布

熱門推薦

詳解 Minus AI：邁向AGI新紀元？ 0回復

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

上一篇： Agent四大范式 | 綜述：全面理解Agent工作原理

下一篇： DocReLM：自建數據集訓練檢索模型和重排序模型提高 RAG 效果

社區精華內容

目錄

主站蜘蛛池模板：日日摸夜夜爽人人添av | 亚洲欧美日韩在线 | 午夜私人影院 | 日韩成人精品一区 | 91麻豆精品国产91久久久资源速度 | 亚洲精品99久久久久久 | 日韩成人在线一区 | 久久看看 | 亚洲天堂一区 | 国产农村妇女毛片精品久久麻豆 | 亚洲精品天堂 | 自拍偷拍第一页 | 欧美精品久久久久久久久老牛影院 | 在线国产一区 | 亚州精品天堂中文字幕 | 一区二区av在线 | 国产欧美日韩一区 | 亚洲一区欧美 | 国产午夜一级 | 日韩不卡一区二区 | 亚洲国产精品一区 | 亚洲一区二区三区久久久 | 欧美视频一区 | 中文在线一区二区 | 国精品一区二区 | a级大片免费观看 | 国产精品成人久久久久a级久久蜜桃av一区二区天堂 | 国产欧美日韩 | 午夜av毛片 | 久久免费香蕉视频 | 亚洲精品久久久一区二区三区 | 中文字幕在线看人 | 亚洲h在线观看 | 国产一区二区欧美 | 黄色在线免费观看视频网站 | 亚洲人a | 在线观看免费观看在线91 | 国产日韩电影 | 97精品国产97久久久久久免费 | 天天综合久久 | 密乳av |

<sup id="quaze"></sup>

<s id="quaze"></s>

<s id="quaze"></s>

<s id="quaze"></s>