成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一次通過率73%,開源代碼大模型WizardCoder超越最新GPT-4以外所有閉/開源模型

開發(fā)
除了最新 API 的 GPT-4(該團(tuán)隊(duì)測試后得到的結(jié)果是 82.0%),該模型超越了所有閉源和開源模型,包括最新 API 的 ChatGPT(72.5%)和原始 GPT-4(67%)。

這幾天,代碼大模型領(lǐng)域又熱鬧了起來!

先是 Meta 開源代碼專用大模型 Code Llama,且免費(fèi)商用。效果也非常好,Code Llama 在 HumanEval 和 MBPP 代碼數(shù)據(jù)集上的一次生成通過率(pass@1)輕松超越 GPT-3.5,其中「Unnatural」版本的 pass@1 逼近了原始 GPT-4(OpenAI 在今年 3 月 GPT-4 技術(shù)報(bào)告中的數(shù)據(jù))。

Code Llama 發(fā)布僅一天,來自 Phind 組織的研究人員用微調(diào)的 Code Llama-34B 在 HumanEval 評(píng)估中擊敗了 GPT-4。他們的兩個(gè)模型 Phind-CodeLlama-34B-v1 以及 Phind-CodeLlama-34B-Python-v1 在 HumanEval 分別實(shí)現(xiàn) 67.6% 和 69.5% 的 pass@1,顯然都超越了原始 GPT-4 的 67%。

不過,僅僅又過了一天,Phind 微調(diào)版 Code Llama 又迎來了一個(gè)強(qiáng)勁的對(duì)手。這次是 WizardLM 團(tuán)隊(duì)的編程專用大模型 WizardCoder。

該團(tuán)隊(duì)推出了基于 Code Llama 的最新版本模型 WizardCoder 34B,它利用 Evol-Instruct 進(jìn)行微調(diào)而成。

結(jié)果顯示,它在 HumanEval 上的 pass@1 達(dá)到了驚人的 73.2%,超越了原始 GPT-4、ChatGPT-3.5 以及 Claude 2、Bard。此外,WizardCoder 13B 和 7B 版本也將很快到來。

  • GitHub 地址:https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder
  • Huggingface:https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0

此次具體版本是 WizardCoder-Python-34B-V1.0,下圖是與主流閉源和開源模型的 HumanEval pass@1 比較。除了最新 API 的 GPT-4(該團(tuán)隊(duì)測試后得到的結(jié)果是 82.0%),該模型超越了所有閉源和開源模型,包括最新 API 的 ChatGPT(72.5%)和原始 GPT-4(67%)。

因此,WizardCoder-Python-34B-V1.0 成為了最新的 SOTA 開源代碼大模型。

WizardLM 團(tuán)隊(duì)還表示,WizardCoder-Python-34B-V1.0 的性能百分之百是可以復(fù)現(xiàn)的。

想要體驗(yàn) WizardCoder-Python-34B-V1.0 的小伙伴可以嘗試以下 demo。

demo 地址:http://47.103.63.15:50085/

有人表示,在試了 demo 后發(fā)現(xiàn),提供準(zhǔn)確代碼之前似乎有 COT(思維鏈)在起作用,這非常棒。

還有人表示,WizardCoder-Python-34B-V1.0 要比 GPT-4 犯的錯(cuò)更少。

不過運(yùn)行 WizardCoder-Python-34B-V1.0 需要 32GB 以上的 mac。

WizardLM 團(tuán)隊(duì)會(huì)帶來更多驚喜

WizardCoder 在成為代碼家族一員已經(jīng)不是新鮮事,但是 WizardLM 團(tuán)隊(duì)每次都會(huì)給大家?guī)聿灰粯拥捏@喜。

斯坦福發(fā)布的大語言模型排行榜 AlpacaEval 是一種基于 LLM 的全自動(dòng)評(píng)估基準(zhǔn),且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜單。在這其中,WizardLM 13B V1.2 依舊在第六位。

WizardLM 是由 Can Xu 等人在 2023 年 4 月提出的一個(gè)能夠根據(jù)復(fù)雜指令生成文本的大型語言模型。它使用了一個(gè)名為 Evol-Instruct 的算法來生成和改寫指令數(shù)據(jù),從而提高了指令的復(fù)雜度和多樣性。 WizardLM 共有三個(gè)版本:7B、13B 和 30B。

WizardLM 推出的指令微調(diào)代碼大模型 ——WizardCoder,更是打破了閉源模型的壟斷地位,在 HumanEval 和 HumanEval + 上優(yōu)于 Anthropic 的 Claude 和 Google 的 Bard。

更值得一提的是,WizardCoder 還大幅度地提升了開源模型的 SOTA 水平,創(chuàng)造了驚人的進(jìn)步,提高了 22.3% 的性能,成為了開源領(lǐng)域的新晉「領(lǐng)頭羊」。

以下為 WizardLM 團(tuán)隊(duì)在 GitHub 上發(fā)布的諸多模型,這些模型是該團(tuán)隊(duì)不斷創(chuàng)新、改進(jìn)的足跡。

WizardLM 團(tuán)隊(duì)在 WizardLM 與 WizardCoder 之后,還在今年八月中旬公布了 WizardMath。該團(tuán)隊(duì)還發(fā)推文表示,自己一直在致力于解決各個(gè)學(xué)科復(fù)雜的問題。

那么未來 WizardLM 團(tuán)隊(duì)還會(huì)帶給我們?cè)鯓拥捏@喜,讓我們拭目以待。

責(zé)任編輯:趙寧寧 來源: 大模型
相關(guān)推薦

2023-09-11 15:57:16

人工智能模型GPT-4

2024-01-19 12:51:00

AI數(shù)據(jù)

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2023-09-19 14:56:00

模型訓(xùn)練

2023-07-28 16:35:26

代碼模型

2024-09-06 13:00:29

2024-04-22 08:40:00

LLM模型開源

2024-04-19 14:52:13

MetaGPT-4模型

2024-01-30 21:18:57

模型智能CMMLU

2025-05-30 07:40:56

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2024-02-06 17:55:10

2024-04-23 13:37:00

數(shù)據(jù)訓(xùn)練

2024-04-19 09:17:33

AI模型

2024-02-07 12:34:00

模型數(shù)據(jù)

2023-06-19 19:26:54

模型開源

2024-07-02 13:25:22

2023-11-15 09:23:00

模型AI

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-04-20 14:43:38

Linux模型GPT4
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品在线免费观看视频 | 免费一级欧美在线观看视频 | 久久久婷婷 | 日韩在线综合 | 日韩欧美久久精品 | 亚洲国产成人精品女人久久久 | 久久成人亚洲 | 亚洲综合首页 | 91中文视频 | 亚洲国产精品久久久久 | 日日干天天干 | 韩国精品一区二区三区 | 欧美一区二区在线观看 | 91免费在线看 | 亚洲久在线 | 欧美视频1 | 久久国| 亚洲精品视频免费观看 | 欧美日韩久久精品 | 国产高清免费在线 | 日日噜噜噜夜夜爽爽狠狠视频, | 91成人在线视频 | 成人h电影在线观看 | 在线播放一区 | 中文一级片 | 日本免费黄色一级片 | 狠狠操狠狠干 | 日本久久久一区二区三区 | 欧美乱做爰xxxⅹ久久久 | www.色综合 | 国产乱码精品一区二区三区忘忧草 | 久久一二 | 久久久999成人 | 狠狠操天天干 | 欧美久久一区二区三区 | 久久99精品久久久久久狂牛 | 中文字幕日本一区二区 | 翔田千里一区二区 | 欧美aaa级| 国产小视频精品 | 亚洲一区二区在线视频 |