Code Llama 70B霸榜3連發，練習5個月擊敗GPT-4！小扎LeCun親自官宣上新

作者：新智元 2024-01-31 09:38:23

人工智能新聞

新的SOTA再次出現，Code Llama系列最強模型發布，70B代碼模型一舉擊敗GPT-4，開源代碼登陸各大平臺，大佬直接開玩。

今天，Meta正式發布了Code Llama 70B，作為Code Llama系列中規模最大，性能最強的版本，一舉擊敗了GPT-4！

目前，模型共有三個版本，均可免費用于研究和商業目的：

CodeLlama - 70B：基礎代碼模型；

CodeLlama - 70B - Python：專門針對Python的 70B模型；

CodeLlama - 70B - Instruct：專門用于理解自然語言指令的模型。

算上8月份發布的Code Llama 7B、13B和34B，這個家也算是完整了。

論文地址：https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

其實，Code Llama在發布時就已經展現了不俗的實力，在一眾代碼生成模型中處于領先位置。

不過GPT-4依然憑借著67.0的HumanEval（pass@1）得分數遙遙領先（Code Llama 34B為53.7）。

盡管后來又有Code Llama的微調版本獲得了更好的成績，卻并沒有進入Meta的這個官方表格。

但是！在寒窗苦讀了5個月之后，Code Llama終于一鳴驚人，以最強的70B模型登頂全部三項測試的榜首。

其中，CodeLlama-70B-Instruct在HumanEval上更是直接拿下了67.8的高分，一舉躋身當下最強開源模型的行列。

可以說，除了GPT-4外，其他同類模型幾乎都難以望其項背。

對此，LeCun轉發并宣傳了自家的新模型：「新一代Code Llama依然開源，正如它的前輩們一樣。」

而終于發現自家AI是塊寶的小扎，也加大了宣傳力度：

我們正式開源了一個全新且更加強大的Code Llama，包含一個龐大的700億參數的模型。

在當今的AI域，編寫和編輯代碼已經成為了最關鍵的應用之一。同樣，能夠編程也對AI模型在其他領域進行更加嚴密和邏輯性的信息處理顯得尤為重要。

我對我們在這方面取得的進展感到非常自豪，并且非常期待在未來的Llama 3及后續模型中加入這些先進的成果。

技術細節

Code Llama是一款能夠通過文本提示生成代碼的大語言模型。它不僅能提升現有開發者的工作效率，還能降低編程新手的學習門檻。

Meta希望將Code Llama打造成為一款既能提高生產力，又具有教育價值的工具，助力程序員創建更加穩定且文檔齊全的軟件。

Code Llama是基于Llama 2開發的，專門用于編程任務的版本。

通過在專為編碼設計的數據集上進行更深入的訓練，Code Llama能夠理解和生成代碼，幫助完成編程任務（如編寫函數、代碼補全和調試），

并支持包括Python、C++、Java、PHP、Typescript （Javascript）、C#和Bash等在內的多種流行編程語言。

到目前為止，Code Llama系列集齊了四種規模，分別擁有7B、13B、34B和70B的參數，

前三個模型采用500B token的代碼和相關數據進行訓練，而新發布的70B模型使用了1TB token。

另外，7B和13B基礎模型和指令模型還經過中間填充（FIM）功能的訓練，具備直接在現有代碼中插入新代碼的能力（代碼補全）。

Code Llama系列模型針對不同的需求和性能要求進行了優化：

7B模型能在單個GPU上運行，適合快速響應的場景；而34B和70B模型則提供了更高級的編碼輔助功能，但運行速度較慢。

Code Llama能夠處理長達100000 token的上下文，這意味著模型可以理解和生成較長的程序代碼。

這對于處理大型代碼庫中的調試任務特別有用，開發者可以提供大量代碼上下文，以獲得更準確的編碼建議。

此外，Code Llama還推出了兩個特別版本：Code Llama - Python 和 Code Llama - Instruct。

考慮到Python在AI社區的重要性，Code Llama - Python針對 Python代碼進行了特別優化（使用100B token的Python代碼數據進行微調），使其在生成Python代碼時更加流暢和準確。

CodeLlama-70B-Python還可以處理一系列任務，例如網絡抓取、數據分析、機器學習（ML）和Web開發。

而Code Llama - Instruct則通過接受自然語言指令和期望輸出的方式進行訓練，使其更擅長根據用戶的需求生成代碼或答案。

CodeLlama-70B-Instruct還可以用于處理排序、搜索、過濾和操作數據，以及實現算法（二進制搜索、斐波那契和階乘等）。

官方建議在需要代碼生成時優先考慮使用Code Llama - Instruct，以獲得更安全、更有用的結果。

需要注意的是，主要用于編程問題的Code Llama和Code Llama - Python，并不適合處理一般的自然語言任務。

基準測試

下面看一下新的Code Llama在同類模型中的表現如何，這里采用業內廣泛應用的編程基準測試：

HumanEval和Mostly Basic Python Programming (MBPP)。

HumanEval是一個包含164個編程問題的基準數據集，用于測試代碼生成模型的功能正確性和邏輯性，而MBPP則測試模型依據具體描述編寫代碼的技巧。

我們可以看到前代的34B表現已經很好了，而參數量翻了一倍的Code Llama 70B老大哥直接霸榜，并且相比于34B性能顯著提升。

其中，CodeLlama-70B-Instruct在HumanEval上得分高達67.8，超過了CodeGen-16B-Mono（29.3）和StarCoder（40.1）等開放模型之前的最佳成績，并與GPT-4（68.2）和Gemini Pro（69.4）等閉源模型相當。

當然，為了更負責任地開發AI模型，Meta已經采取了多項安全措施，并對生成惡意代碼的風險進行了量化評估。

結果顯示，相比于ChatGPT（GPT3.5 Turbo），Code Llama給出的回答更為安全。

挑戰GPT-4，coding模型卷起來了！

目前，通過各各類主流的平臺和框架都可以訪問和使用Code Llama 70B，例如Hugging Face、PyTorch、TensorFlow和Jupyter Notebook。

此外，Meta AI還提供了針對不同目的和語言，使用和微調模型的文檔和教程。

而隨著模型的發布，各大AI平臺也紛紛加入了對Code Llama 70B的支持：

并且還可以直接開玩：

更有大佬把Code Llama 70B跑到了蘋果的處理器上，只不過「有點熱」。

然后這位索性把Code Llama 70B直接量化到了4 bit。

責任編輯：張燕妮來源：新智元

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Code Llama 70B霸榜3連發，練習5個月擊敗GPT-4！小扎LeCun親自官宣上新

技術細節

基準測試

挑戰GPT-4，coding模型卷起來了！