成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<tfoot id="wi4gg"><delect id="wi4gg"></delect></tfoot>

<button id="wi4gg"></button>

<li id="wi4gg"><dl id="wi4gg"></dl></li><code id="wi4gg"></code>

<code id="wi4gg"></code>

<rt id="wi4gg"></rt>

<rt id="wi4gg"></rt>

<button id="wi4gg"><tbody id="wi4gg"></tbody></button>

<dl id="wi4gg"></dl>

<nav id="wi4gg"><dl id="wi4gg"></dl></nav>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

僅用5M數據超過 OpenAI？快手最新 Code Embedding 模型 OASIS(綠洲)發布原創

發布于 2024-12-2 09:45

瀏覽

0收藏

出品 | 51CTO技術棧（微信號：blog51cto）

最近，快手Kwaipilot 團隊正式宣布開源 OASIS（Optimized Augmentation Strategy for Improved code Search）Code Embedding模型?？焓?Kwaipilot 團隊在代碼表征領域實現了突破性進展，僅僅使用 5M Tokens數據大幅領先 OpenAI，在多個 Code Search benchmark 中顯著超越現有最佳水平。

1.什么是代碼表征?

隨著代碼庫規模的持續擴大，開發者越來越依賴高效的代碼檢索系統來提升開發效率。傳統的關鍵詞匹配方法已經無法滿足現代軟件開發的需求。代碼表征（Code Embedding）技術通過將代碼片段轉化為向量表示，使機器能夠深入理解代碼語義，從而實現更智能的代碼檢索。Code Embedding模型在代碼檢索、倉庫級代碼問答，代碼補全等場景中發揮不可或缺的作用。

僅用5M數據超過 OpenAI？快手最新 Code Embedding 模型 OASIS(綠洲)發布-AI.x社區圖 1. 代碼表征搜索[1]

2.OASIS用了哪些黑科技？

OASIS 的訓練只使用了 5M Tokens的數據，遠低于 SOTA 模型的訓練樣本數，通過結合程序分析技術與創新設計的損失函數，以極低的成本就在多個測試集上超越了現有的 SOTA 模型。

具體來說，OASIS 模型采用了多項創新技術：

倉庫級程序分析：傳統方法僅關注單個代碼片段，缺少代碼的上下文信息，結合南方科技大學Arise實驗室技術，OASIS 引入了倉庫級別的程序分析技術。通過分析函數調用關系和依賴結構，模型能夠更好地理解代碼在更大上下文中的語義，相比于孤立地使用函數的 docstring，程序分析技術可以引入額外的上下文信息構建高質量樣本對。
OASIS-instruct 數據合成算法：我們開發的專有數據增強策略能夠自動生成高質量的訓練樣本。這些樣本包含代碼和自然語言的對應關系，使模型能夠學習到更細膩的語義差異。
融合式損失函數：創新性地將多目標優化策略應用于模型訓練，確保模型在保持傳統Code Embedding模型能力的情況下，既能準確區分相似樣本，又能識別細微的語義差異，在優化目標的角度添加了新的訓練維度。

3.OASIS到底有多強？

僅用5M數據超過 OpenAI？快手最新 Code Embedding 模型 OASIS(綠洲)發布-AI.x社區

在權威的代碼檢索基準測試中，OASIS 展現出了令人矚目的性能：

OASIS在訓練過程中并不包含測試集提供的訓練集的情況下，在 CSN、CoSQA、AdvTest 等主流評測集上，性能優越。平均檢索準確率優于現有所有同尺寸的Code Embedding模型，具體來說，以5M數據訓練在三個不同的代碼檢索數據集全面超越OpenAI-Ada-002，在模型尺寸僅為三分之一的情況下在平均檢索成功率超越CodeFuse-CGE-Small，多個數據集領先明顯。

CodeSearchNet (CSN)數據集

該數據集包含超過200萬個代碼-文檔對，涵蓋Python、Java、JavaScript等六種主流編程語言。數據主要來源于函數級別的代碼及其對應的文檔字符串（docstring），使用自然語言的docstring作為查詢（query）。

CoSQA 數據集

CoSQA數據集是一個包含20,000+對自然語言查詢和代碼的標注數據集，每個數據對都至少由3名人類標注者進行標注。CoSQA數據集中的查詢來源于真實的網絡搜索，反映了開發者在日常工作中遇到的具體需求，而代碼片段則從不同的數據集中精心篩選，以確保多樣性和質量。

AdvTest 數據集

AdvTest數據集專門用于測試代碼搜索任務的難度。它通過規范化函數名和變量名來增加挑戰性，并從原始數據中過濾出高質量的樣本。該數據集包含近2萬的測試樣本，旨在評估模型在代碼理解和搜索方面的性能。

OASIS模型僅使用了5M的訓練數據，以1.3B的參數量在CSN，CoSQA，AdvTest數據集了超過SOTA模型，性能表現遠超OpenAI-Embedding-Ada-002。

4.OASIS有哪些應用場景呢？

OASIS 的應用場景廣泛：

在智能代碼檢索方面，OASIS能準確理解開發者的查詢意圖，從海量代碼庫中精準定位最佳實踐代碼片段。當開發者輸入具體需求描述時，模型能從海量代碼庫中精準定位最佳實踐代碼片段，并優先推薦與當前項目技術棧相匹配的示例。

僅用5M數據超過 OpenAI？快手最新 Code Embedding 模型 OASIS(綠洲)發布-AI.x社區圖 2. IDE代碼檢索

在代碼推薦領域，OASIS突破了傳統代碼補全工具的局限?；趯Υa語義的深度理解，模型能預測開發者的編碼意圖，主動推薦API調用序列和完整的功能實現方案，提升Kwaipilot代碼補全在私域代碼方言中的補全質量。

在智能CR場景，OASIS能夠精確識別功能相似但實現細節不同的代碼片段。這一能力在Code Review 功能中作用顯著，可以幫助模型識別代碼中的可能錯誤。

僅用5M數據超過 OpenAI？快手最新 Code Embedding 模型 OASIS(綠洲)發布-AI.x社區圖 3. Kwaipilot代碼審查

在代碼語義理解方面，模型應用于Kwaipilot RepoChat功能，模型能夠自動提取遺留系統或第三方庫中的關鍵程序邏輯，生成準確的功能描述和調用關系圖譜，幫助開發者快速熟悉上手倉庫，顯著降低團隊的代碼理解成本。

5.開源與未來展望

為推動代碼智能領域的發展，我們決定將 OASIS 完整開源。開發者可以直接通過 Hugging Face 使用模型，也可以基于我們的代碼進行進一步的改進和定制。

Huggingface 地址：https://huggingface.co/Kwaipilot/OASIS-code-1.3B

未來，Kwaipilot 團隊將持續投入代碼智能領域的研究，計劃：

發布性能更強的Code Embedding模型
開源詳細的技術報告和研究成果
拓展模型在更多場景下的應用

OASIS 不僅是一個代碼表征模型，更是 Kwaipilot 團隊對代碼智能未來的探索。我們期待與開發者社區一起，繼續推動這項技術的發展，為軟件開發效率的提升貢獻力量。

讓我們一起，在代碼智能的綠洲中開啟新的篇章。

Reference

[1] Gu X, Zhang H, Kim S. Deep code search[C]//Proceedings of the 40th International Conference on Software Engineering. 2018: 933-944.

本文轉載自??51CTO技術棧??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2024-12-2 09:46:33修改

贊

收藏

回復

舉報

回復

相關推薦

集體出走的Stability AI 發布全新代碼大模型，3B以下性能最優，超越Code Llama和DeepSeek-Coder

pangguiyu ? 4656瀏覽 ? 0回復
利用LLM本身訓練SoTA embedding模型

arnoldzhw ? 4430瀏覽 ? 0回復
OpenAI最新套娃嵌入模型分析：256維的MTEB效果超過1536維

PaperAgent ? 5682瀏覽 ? 0回復
OpenAI 36億收購數據庫初創公司，CTO劇透GPT-5

Crystalcxt ? 2597瀏覽 ? 0回復
Web2Code：適用于多模態大模型的大規模網頁轉代碼數據集與評估框架

sbf_2000 ? 4715瀏覽 ? 0回復
清華大學最新深度時序模型綜述+5k star開源代碼！

海因斯DK ? 5142瀏覽 ? 0回復
OpenAI發布最新大模型安全對齊獎勵方法——RBR

Aceryt ? 2743瀏覽 ? 0回復
比OpenAI的Whisper快50%，最新開源語音模型

Aceryt ? 2891瀏覽 ? 0回復
能訓出SOTA模型的優質數據集發布！復旦最新VidGen-1M: 文生視頻還得靠好數據

angel ? 2795瀏覽 ? 0回復
OpenAI展示草莓，很快發布“GPT-5”獵戶座！

Aceryt ? 2092瀏覽 ? 0回復
谷歌發布Imagen 3，超過SD3、DALL?E-3

Aceryt ? 2519瀏覽 ? 0回復
革命性AI學習方法OptiDEL：用5%的數據超越全數據集性能！

AI論文解讀 ? 2235瀏覽 ? 0回復
大模型語義分析之嵌入(Embedding)模型

AI探索時代 ? 3439瀏覽 ? 0回復
OpenCV 5：邁向計算機視覺新紀元的最新進展

sword_hero ? 3139瀏覽 ? 0回復
Kimi發布最新模型k1.5，技術報告也干貨滿滿

NLP工作站 ? 3610瀏覽 ? 0回復
OpenAI深夜更新GPT-5路線圖，奧特曼高密度爆料全模型免費計劃。GPT-5真的要來了嗎？我懷疑

51CTO技術棧 ? 2078瀏覽 ? 0回復
o1模型醫學推理驚人，超過人類醫生

Aceryt ? 1992瀏覽 ? 0回復
OpenAI最新15頁報告：DeepSeek縮小，中美AI競爭差距

Aceryt ? 2171瀏覽 ? 0回復
Qwen3 Embedding模型架構、訓練方法、數據策略

大模型自然語言處理 ? 774瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

Devin聯合創始人：別搞多智能體系統！微軟和OpenAI鼓吹的代理構建理念大錯特錯！ 1回復

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

上一篇：揭秘：為何大模型總是賺不到錢？行業內幕大曝光！

下一篇：馬斯克美大選結束前猛料談話流出：此前谷歌控制了白宮監管，奧特曼撒謊成性，人類不能控制AI，退休是最好的

社區精華內容

目錄

主站蜘蛛池模板：午夜影院污 | 亚洲成av人片在线观看无码 | 日韩精品久久久 | 久久精品免费看 | 免费性视频| 黄a免费网络 | 国产亚洲一区二区精品 | 亚洲经典一区 | av影音 | 91视频导航 | 色射综合 | 国产精品福利视频 | 紧缚调教一区二区三区视频 | 玖玖操 | 一区二区三区欧美 | 一级毛片在线播放 | 黄色视频a级毛片 | 精品美女视频在免费观看 | 亚洲日韩中文字幕一区 | 在线永久看片免费的视频 | 91精品久久久久久久久 | 男人天堂99| 福利网址| 国产精品久久久久久福利一牛影视 | 国产精品久久久久久久久久免费 | 视频一区二区在线 | 在线中文字幕视频 | 黑人巨大精品欧美一区二区一视频 | 欧美日韩亚洲系列 | 色欧美片视频在线观看 | 国产剧情一区 | 国产伦精品一区二区三区视频金莲 | 欧美三级在线 | 欧美精品网站 | 成人国产精品久久 | 国产清纯白嫩初高生在线播放视频 | 亚洲一区二区精品 | 国产精久久久久久 | 一区二区三区四区在线播放 | 91在线精品一区二区 | 2018天天干天天操 |

<li id="6mgmm"></li>

<li id="6mgmm"><tbody id="6mgmm"></tbody></li>

<li id="6mgmm"></li>

<rt id="6mgmm"><tr id="6mgmm"></tr></rt>

<center id="6mgmm"><acronym id="6mgmm"></acronym></center>

<center id="6mgmm"><acronym id="6mgmm"></acronym></center>

<abbr id="6mgmm"></abbr>