成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

代碼大模型考卷升級!字節開源FullStack Bench,首次覆蓋全棧編程超11類真實場景

人工智能
12月5日,字節豆包大模型團隊開源最新代碼大模型評估基準FullStack Bench,在業界首次囊括編程全棧技術中超11類真實場景,覆蓋16種編程語言,包含3374個問題,相比此前基準,可以更有效地評估大模型在現實世界中的代碼開發能力。

代碼大模型越來越卷,評估AI編程水平的“考卷”也被迫升級。12月5日,字節豆包大模型團隊開源最新代碼大模型評估基準FullStack Bench,在業界首次囊括編程全棧技術中超11類真實場景,覆蓋16種編程語言,包含3374個問題,相比此前基準,可以更有效地評估大模型在現實世界中的代碼開發能力。

代碼評估基準是衡量大模型編程能力的標準工具,也是推動模型優化的關鍵驅動力。不過,當前的代碼評估基準覆蓋的應用類型和編程語言較為有限,難以反映真實世界中代碼開發場景的多樣性和復雜性。

比如,主流代碼評測集HumanEval和MBPP中近80%數據只聚焦基礎編程和高級編程問題;DS-1000中95%數據都集中于數據分析和機器學習任務,且僅對Python語言進行評測;xCodeEval雖覆蓋多項任務,但基本局限于高級編程和數學領域。

FullStack Bench數據覆蓋超11種應用領域,遠超當前主流代碼評估基準

因此,字節豆包大模型團隊與M-A-P開源社區聯合提出FullStack Bench,一個專注于全棧編程和多語言編程的代碼評估數據集。為囊括在真實全棧開發中涉及的各類應用場景,研究團隊從全球最大的程序員技術問答社區Stack Overflow中隨機抽取了50萬個問題進行分析,篩選出占總問題數前88.1%的應用領域,并對其分布做了適當調整來保證每個領域的魯棒性,最終形成了FullStack Bench關注的超過11種應用場景及分布比例。

FullStack Bench包含3374個問題,每個問題均包括題目描述、參考解決方案及單元測試用例,總計15168個單元測試。為保證評估準確性,問題內容均由相關領域的編程專家設計,并經AI和人工驗證進行質量復核。在初始數據集構建后,團隊根據主流代碼大模型測試結果,按問題難度、模糊性和可解性對數據質量進行了交叉評估和進一步完善。

FullStack Bench數據集構成情況

為方便開發者對大模型代碼能力進行系統性測試,豆包大模型團隊還開源了一款高效的代碼沙盒執行工具——SandboxFusion,用于評估來自不同語言的不同編程任務。除了FullStack Bench,SandboxFusion還兼容超過10種廣泛使用的代碼評估數據集,支持23種編程語言。開發者在單服務器上即可輕松部署SandboxFusion,也可直接在GitHub上進行體驗。

發布評測基準及沙盒的同時,字節代碼大模型也首次曝光。研究中,豆包大模型團隊對全球20余款代碼大模型及語言大模型的編程表現進行了評測(詳見論文),其中包括未披露過的豆包代碼大模型Doubao-Coder。

近半年,字節在代碼大模型領域進展迅速,今年6月字節發布了由自研代碼基座模型支撐的AI編程助手豆包MarsCode,目前每月為用戶貢獻百萬量級代碼。

  1. 論文地址:https://arxiv.org/pdf/2412.00535v2
  2. 數據集開源地址:https://huggingface.co/datasets/ByteDance/FullStackBench
  3. 沙盒開源地址:https://github.com/bytedance/SandboxFusion
  4. 沙盒體驗入口:https://bytedance.github.io/SandboxFusion/playground/datasets
責任編輯:鳶瑋 來源: 字節跳動
相關推薦

2023-09-22 12:27:18

微軟Windows 1

2025-06-10 03:30:00

2024-04-09 15:16:13

開源AI

2025-05-12 09:00:00

2024-05-15 16:21:18

火山引擎大模型豆包

2019-12-23 15:23:12

人工智能機器學習技術

2024-08-29 14:05:00

數據模型

2024-12-05 12:26:28

2023-09-13 18:39:13

大模型開發棧框架

2023-06-13 09:36:34

AI代碼

2022-08-19 10:41:32

新華三

2025-04-10 14:30:12

2024-07-15 12:23:49

2022-05-05 08:25:22

模型OpenAI代碼

2024-03-15 15:27:13

華為

2025-05-23 09:03:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久99精品久久久97夜夜嗨 | 精品国产91久久久久久 | 免费在线看黄 | 91视视频在线观看入口直接观看 | 欧美国产精品一区二区三区 | 午夜午夜精品一区二区三区文 | 成人日批视频 | 欧美成人激情 | 视频一区二区国产 | 日韩一区二区三区av | 免费av播放 | 精品国产高清一区二区三区 | 国产黄色在线观看 | 日韩精品在线播放 | www国产成人免费观看视频,深夜成人网 | 亚洲欧美成人影院 | 成人免费黄视频 | 天堂网中文字幕在线观看 | 伊人网国产 | 粉嫩一区二区三区四区公司1 | 日本精品久久 | 亚洲一级视频在线 | 毛片久久久 | 91av在线看| 亚洲aⅴ| 精品一二| 国产免费a| 欧美精品在线一区 | 国产一区二区三区视频 | 在线成人av | 国产乱码久久久久久一区二区 | 亚洲色欲色欲www | 天天插天天操 | 国产精产国品一二三产区视频 | 国产91丝袜在线播放 | 午夜精品在线观看 | 欧美日韩亚洲视频 | 亚洲精品不卡 | 国产精品3区 | 日韩久久中文字幕 | 国产黄色大片在线免费观看 |