成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

掘力計劃第21期 - CodeGeeX:從代碼生成模型到AI編程助手

人工智能
?8月12日,在掘力計劃系列第21場《解析大語言模型的訓練和應用》活動中,智譜AI的薛宇飛博士應邀作了題為《CodeGeeX:從代碼生成模型到AI編程助手》的技術分享。

8月12日,在掘力計劃系列第21場《解析大語言模型的訓練和應用》活動中,智譜AI的薛宇飛博士應邀作了題為《CodeGeeX:從代碼生成模型到AI編程助手》的技術分享。

薛宇飛博士是智譜AI大模型事業部的副總裁,他擁有清華大學計算機系的博士學位和博士后經歷,在人工智能領域有多年的研究和產品經驗,曾任職于多家頂級科技公司。這次薛博士以自身團隊在代碼生成模型方面的研究為切入點,詳細介紹了從訓練一個大規模的通用代碼生成模型,到落地產品化并開發IDE插件,最終使廣大開發者能夠享受到AI編程助手帶來的便利。

背景:編程向更簡單方向發展

從計算機誕生以來,編程工作就在不斷朝著更簡單、更符合人的思維邏輯方向發展。早期的機器語言極為復雜難懂,匯編語言相比機器語言提高了可讀性和生產效率,然后出現了面向過程和面向對象的高級語言,進一步降低了編程的門檻。近年來,低代碼平臺的興起使不專業的開發者也能參與軟件開發,AI輔助代碼生成技術更是讓自動編程成為可能。

自動生成代碼的想法隨著人工智能技術的進步也在逐步實現。早期主要采用基于規則的方法,2015年第一次有研究將深度學習應用于代碼生成,取得了一定進展。2020年, Transformer 架構不僅通過 GPT-3 模型展示它在自然語言生成方面的驚人能力,也開始被應用到了代碼生成領域。2021年,OpenAI 推出了規模達到百億參數的 Codex 代碼生成模型,使自動代碼生成真正具備實用性。此后,業界紛紛推出自己的代碼生成模型和編程助手產品。

CodeGeeX 模型訓練

CodeGeeX 項目于2022年1月啟動,4月開始正式訓練,6月訓練完成。訓練數據主要來源于公開數據集和 GitHub 高質量代碼。公開數據集提供初始訓練語料,GitHub 代碼經篩選后確保質量。第一版 CodeGeeX 支持23種編程語言,其中 Python、C++、Java 的訓練代碼量最大。大模型可以從不同語言中學習通用邏輯,不需要語言完全均衡。

原始代碼數據需要進行預處理。首先對代碼進行分詞,然后將每個詞轉換成對應的ID,得到模型可直接識別的格式。此外,每個代碼片段前加語言標識,讓模型更好地學習到不同語言的特性。

CodeGeeX 采用GPT結構,包含40個 Transformer 層,參數總量達到130億。基于GPT的生成方式是順序生成,每次根據前文預測下一個詞。訓練過程中團隊與華為合作,在華為N騰910 AI處理器上完成。使用FP16精度、數據并行和模型并行訓練技術,經過兩個月完成。

訓練過程中,CodeGeeX團隊還與華為N思 MindSpore 團隊的工程師一起對訓練框架進行了優化。如通過算子融合等技術,將訓練速度提升了2.5倍;加入流水線并行后,整體效率可提升3倍之多。這些成果為后續國產芯片的大模型訓練帶來借鑒。

模型評測與優化

訓練完成后,對模型進行評測與優化才能使其投入實際使用。由于之前針對多語言代碼生成模型缺乏科學的評測基準,團隊基于HumanEval構建了HumanEval-X評測基準,將其從只支持 Python 擴展到 C++、Java、JavaScript 和 Go 五種語言,可以更全面地評估模型的多語言生成能力。

評測結果顯示,CodeGeeX 在 Python 和 Java 上的 Pass@1 指標明顯優于對手模型,其他語言也有出色表現,是當時綜合表現最優的開源多語言代碼生成模型。

為減小模型大小便于實際部署,團隊使用量化與推理優化技術。最終模型從 27GB 降低到 15GB,推理速度也提升2倍多。基于上述工作,CodeGeeX 能夠在普通 GPU 上流暢運行。

AI編程助手應用

代碼生成模型完成之后,團隊著手開發 IDE 插件,將模型應用到實際編程過程中。CodeGeeX 插件支持 VS Code 和JetBrains 等主流 IDE。用戶可以利用代碼補全、生成注釋等功能,也可以通過自然語言聊天提問。

代碼補全可以智能提示后續代碼;語義代碼注釋可自動添加詳細注釋;代碼翻譯可以在多種語言之間轉換。這些功能都基于 CodeGeeX 模型或在其基礎上進行微調得到。用戶可以選擇中文或英文注釋。新版模型支持更多語言,如 Kotlin、Vue 等。

CodeGeeX 插件可以自動生成復雜SQL查詢語句,通過公開SQL練習平臺的題目,前20題全部正確,最后10題也有很多正確,達到可助力編程的程度。該插件已經累積15萬用戶,日活躍2.5萬,獲得廣大開發者認可。

CodeGeeX 2.0 模型升級

今年7月團隊推出了第二代模型CodeGeeX2-6B。它 使用 ChatGLM2-6B 作為基底模型,在此基礎上使用代碼數據進行微調。這樣一來,新模型規模減小到6B,但效果顯著提升,如 Python Pass@1 提升57%,已超過參數規模更大的 StarCoder 模型。

CodeGeeX2 繼承了 ChatGLM2 的中英文語言理解能力,支持更長的文本序列。此外,支持語言種類從23種提升到上百種。新版模型權重對學術研究完全開放,可在GitHub或Hugging Face上獲取權重的下載及使用方式。

結語

綜上所述,CodeGeeX 從一個編程語言生成模型發展成一個可供廣大開發者使用的AI編程助手,已經走過兩年時間。期間團隊進行了模型設計、訓練、評估、優化、產品化等一系列創新性的工作。先使用 GPT 結構訓練出百億參數規模的通用模型,然后以 ChatGLM 為基礎進行調優,使新版模型效果更優。在 IDE 插件中集成代碼生成等功能,真正將AI的力量帶入到開發的日常之中。

當前 CodeGeeX 插件已經積累大量用戶,也獲得他們的認可。團隊將繼續改進產品,以期讓編程對所有人來說都更簡單、更有效率。大模型編程助手正在成為編程發展的新方向,相信未來必將惠及更多開發者,提升軟件開發的生產力。

責任編輯:鳶瑋 來源: 掘金社區
相關推薦

2023-08-17 10:29:28

掘力計劃大語言模型

2023-08-18 17:25:45

掘力計劃大語言模型

2023-08-16 18:23:28

掘力計劃網易有道大模型

2023-08-03 10:25:49

Flutter

2023-08-01 09:09:05

崔紅保跨平臺開發

2023-08-02 10:42:00

Flutter掘力計劃

2023-08-04 10:46:57

掘力計劃前端Pake

2023-11-03 07:46:54

CodeGeeX編程助手

2017-09-05 22:34:24

遍歷SQL運算

2024-08-12 08:41:40

2024-09-27 17:06:13

2023-09-21 11:48:49

CodeGeeXAI代碼

2025-05-23 10:41:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久国产精品一区二区三区 | 国产一区二区三区免费 | 成人h免费观看视频 | 91色视频在线 | 欧美激情一区 | 日本一区精品 | 久久精品99国产精品 | 九九久久国产 | 国产日韩一区二区三免费 | 日本一区二区高清不卡 | 久久久久久久久中文字幕 | 欧美精品乱码久久久久久按摩 | 99热在线免费 | 成人午夜激情 | 国产伦精品一区二区三区高清 | 免费在线看黄 | 欧美日韩在线播放 | 午夜免费视频 | 在线视频一区二区三区 | 亚洲乱码国产乱码精品精98午夜 | 国产精品99久久久久久久久久久久 | 国产成人99久久亚洲综合精品 | 国产综合精品 | 午夜私人影院在线观看 | 日韩欧美国产精品 | 九九伊人sl水蜜桃色推荐 | 欧美精品一区二区三区四区五区 | 精品一区国产 | 国产一级片免费视频 | 亚洲人成人一区二区在线观看 | 91麻豆精品国产91久久久更新资源速度超快 | 精品国产乱码久久久久久闺蜜 | 中文字幕高清免费日韩视频在线 | 91欧美激情一区二区三区成人 | 日本一区二区三区四区 | 亚洲视频一区二区三区 | 亚洲免费在线 | 日韩精品一二三 | 欧美激情欧美激情在线五月 | 国产高清视频在线观看 | 国产精品特级片 |