速度秒殺GPT-4o!Mistral開(kāi)源首個(gè)22B代碼模型破記錄,支持80+編程語(yǔ)言
真正Open的AI公司Mistral又低調(diào)上新了。
這次,他們發(fā)布了首款代碼生成模型Codestral,支持80多種編程語(yǔ)言以及32K長(zhǎng)上下文窗口。
不僅在基準(zhǔn)測(cè)試上取得了驚艷的表現(xiàn),而且代碼生成的速度也讓試用的網(wǎng)友非常滿意。
目前,Codestral提供了多種API,而且模型權(quán)重也公開(kāi)在HuggingFace上。
項(xiàng)目地址:https://huggingface.co/mistralai/Codestral-22B-v0.1/tree/main
代碼生成新SOTA
Codestral的訓(xùn)練數(shù)據(jù)包含80多種編程語(yǔ)言,包括最流行的Python、Java、C、C++和Bash,以及HTML、JavaScript等前端語(yǔ)言,在Swift和Fortran上也有良好表現(xiàn)。
模型可以完成的任務(wù)包括編寫(xiě)特定功能的函數(shù)、編寫(xiě)測(cè)試,以及代碼填充。
此外,由于Codestral同時(shí)精通英語(yǔ),也可以與開(kāi)發(fā)人員進(jìn)行交互,有助于提高工程師的編碼水平并減少錯(cuò)誤和漏洞。
可以通過(guò)Le Chat對(duì)話界面免費(fèi)使用模型的交互功能。
在線地址:?https://chat.mistral.ai/chat??
作為一個(gè)參數(shù)量只有22B的模型,Codestral實(shí)現(xiàn)了32K的長(zhǎng)上下文窗口,是Llama 3 70B的四倍。
Codestral使用了Llama架構(gòu),但在7種語(yǔ)言的HumanEval均分超過(guò)了CodeLlama,可以和Llama 3打個(gè)平手。
RepoBench是一個(gè)用于評(píng)估存儲(chǔ)庫(kù)級(jí)代碼補(bǔ)全任務(wù)的新基準(zhǔn),考驗(yàn)?zāi)P偷目缥募z索和理解長(zhǎng)上下文能力。在RepoBench上,Codestral使用Python語(yǔ)言達(dá)到了SOTA成績(jī)。
此外,在其他語(yǔ)言的評(píng)估中,包括C++、bash、Java、PHP、Typescript和C#,Codestral也取得了不錯(cuò)的成績(jī)。
FIM基準(zhǔn)可以評(píng)估模型在中間填充任務(wù)上的性能,但CodeLlama和Llama不直接支持這個(gè)功能。
在FIM任務(wù)中,Codestral用更少的參數(shù)量,在Pyhon、JavaScript和Java三種語(yǔ)言上的分?jǐn)?shù)全面超過(guò)DeepSeek Coder 33B。
目前,Mistral開(kāi)放了兩個(gè)API供開(kāi)發(fā)者調(diào)用Codestral,分別是codestral.mistral.ai和api.mistral.ai,前者有8周的免費(fèi)測(cè)試期,后者按token收費(fèi)。
此外,還可以通過(guò)Continue.dev或者Tabnine插件在VSCode或JetBrains的IDE中使用Codestral的功能。
開(kāi)發(fā)者們已經(jīng)用上了
基準(zhǔn)測(cè)試畢竟只是參考,代碼工具好不好用,只有試過(guò)才知道。
有網(wǎng)友感嘆「80種語(yǔ)言太瘋狂了」「終于有人想起來(lái)Swift了」。
而且實(shí)測(cè)中可以看到,Codestral的代碼生成速度非常快,而且響應(yīng)延遲也很短。
有人給了GPT-4o和Codestral相同的任務(wù),讓它們用Go語(yǔ)言實(shí)現(xiàn)基本的發(fā)布/訂閱系統(tǒng)。
雖然兩個(gè)模型的響應(yīng)延遲都很短,但Codestral寫(xiě)完的時(shí)候,GPT-4o剛寫(xiě)到一半,生成速度高下立現(xiàn)。
有開(kāi)發(fā)者分析,雖然Codestral不是最大、最好的代碼模型,但自己還是會(huì)從Claude Opus爬墻,改用Codestral。
因?yàn)槟P痛_實(shí)包含了更多前沿知識(shí),可以幫助編寫(xiě)最新的AI代碼,但ChatGPT和Opus都做不到。
但也有Python工程師吐槽:「沒(méi)有一個(gè)LLM明白,在Python 3.9之后的版本中,就不再需要使用from typing import List了。」
「GPT-4、GPT-4o、Claude Opus、Gemini和Codestral都無(wú)法理解這一點(diǎn)。即使明確說(shuō)明,它們?nèi)匀粺o(wú)法理解。」
看來(lái)人類程序員剩下的為數(shù)不多的優(yōu)勢(shì)還有「知錯(cuò)就改」。
本文轉(zhuǎn)自 新智元 ,作者:新智元
