成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Devin退位!這家公司宣布打造了世界上最強編程 Agents:Genie!能模擬人類工程師思考和行動 原創

發布于 2024-8-13 16:06
瀏覽
0收藏

不久之前,初創公司Cognition憑借其產品Devin震撼了人們。

這是第一個AI軟件工程師,由OpenAI的GPT-4大語言模型驅動。Devin能夠在自然語言文本指令下自主編寫和編輯代碼。

不過,Devin是在2024年3月推出的 —— 五個月前 —— 這在快速發展的生成式AI領域可以說是一個漫長的季節。

現在,另一家以“C”命名的初創公司Cosine,通過著名的Y Combinator初創加速器在舊金山成立,宣布推出了他們自己的全新自主AI工程師Genie。據稱,Genie在第三方基準測試SWE-Bench上表現優異,得分30%,遠超過Devin的13.8%,甚至超過亞馬遜的Q和Factory的Code Droid的19%。

Devin退位!這家公司宣布打造了世界上最強編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區Devin退位!這家公司宣布打造了世界上最強編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區

上圖:Cosine 網站的截圖展示了 Genie 在 SWE-Bench 上與其他 AI 編碼工程師模型相比的表現。

“這個模型遠不止一個基準測試分數(所能概括的):它從一開始就被訓練得像一名人類軟件工程師(SWE)一樣思考和行為,”Cosine的聯合創始人兼CEO阿利斯泰爾·普倫在社交網絡X上發布的一篇帖子中寫道。

Devin退位!這家公司宣布打造了世界上最強編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區Devin退位!這家公司宣布打造了世界上最強編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區

1.Genie 是什么?它能做什么?

Genie是一種先進的AI軟件工程模型,旨在自主處理各種編碼任務,從修復錯誤到構建功能,進行代碼重構和通過全面測試驗證,如同被人工程師或管理者指示的那樣。

它可以完全自主運行,也可以與用戶協作,旨在提供與熟練同事共事的體驗。

Genie能夠使用多種語言編寫軟件 —— 在其技術報告中列出了15種源數據語言,包括JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby等。

Cosine聲稱Genie能夠模擬人類工程師的認知過程。

“我的論點很簡單:讓它觀察人類工程師如何完成他們的工作,并模仿這個過程”,Pullen在博客文章中解釋道。

Genie生成的代碼存儲在用戶的GitHub存儲庫中,意味著Cosine不保留副本,也不涉及任何相關的安全風險。

此外,Cosine的軟件平臺已經與Slack和系統通知集成,可以使用這些工具來提醒用戶其狀態、提問或標記問題,就像一個好的人類同事一樣。

“Genie還可以向用戶詢問澄清問題,并回應其生成的PR(拉取請求)上的審查/評論”,Pullen在接受媒體VentureBeat采訪時寫道。“我們試圖讓Genie像一個同事一樣行事,因此讓模型使用同事通常會使用的通道是最合理的。”

2.長上下文能力成為 Genie 研發突破口

與許多依賴于基礎模型和少量工具的AI模型不同,Genie是通過OpenAI的長token輸出AI模型進行了專有過程開發的。

“就我們使用的模型而言,這是OpenAI允許我們在實驗性訪問計劃的一部分進行訓練的GPT-4o變種”,Pullen通過電子郵件告訴VentureBeat。“模型表現出色,我們已經與OpenAI的微調團隊和工程領導層分享了我們的經驗和技術領導地位。這對我們來說是一個真正的轉折點,因為它說服他們投入資源和注意力來支持我們的新技術。”

Cosine 的技術報告中寫到了模型的長上下文能力對產品的支持:“我們剛開始開發 Genie 時,只能對 16-32k 范圍內相對較短的上下文窗口模型進行微調。我們對這些模型進行了大量的早期探索,在超過 1 億個標記的大型數據集上對其進行了訓練,并很快意識到我們提出的架構有其優點,但在根本上受到了模型在任何給定時刻可表示的信息量的限制。在嘗試了各種壓縮/分塊方法后,我們得出結論:唯一的辦法就是使用更大的上下文模型,盡管當時還沒有可用的模型可供訓練。幸運的是,不久之后,我們獲得了訓練長語境 OpenAI 模型的能力,這正是我們真正了解 Genie 能力所需的突破口。”

雖然 Cosine 沒有明確具體使用的模型,但OpenAI 最近宣布了新的 GPT-4o 長輸出上下文模型的有限可用版,該模型可以輸出多達 64,000 個 token,而不是 GPT-4o 最初的 4,000 個,增加了 16 倍。

Devin退位!這家公司宣布打造了世界上最強編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區Devin退位!這家公司宣布打造了世界上最強編程 Agents:Genie!能模擬人類工程師思考和行動-AI.x社區

3.數十億訓練數據的千錘百煉

Pullen 在 Cosine 的代理技術報告中寫道:“在最近的訓練中,Genie 接受了數十億個數據標記的訓練,這些數據的組合選擇是為了讓模型盡可能地勝任我們用戶當前最關心的語言。”

Genie 憑借其廣泛的上下文窗口和持續的改進循環,不斷迭代和改進其解決方案,直到達到預期的結果。

Genie的訓練數據至關重要,Cosine表示他們花費了近一年時間篩選數據集,包括從真實工程師那里收集的各種軟件開發活動。

“在實踐中,獲取這樣的數據并有效利用它是非常困難的,因為本質上它并不存在”,Pullen在博客文章中詳細解釋道。“我們的數據管道使用了工件、靜態分析、自我對弈、逐步驗證和在大量標記數據上訓練的微調AI模型的組合,以推導出必須到達最終輸出的詳細過程。標記數據的影響不容小覷,從有能力的軟件工程師那里獲得高質量數據是困難的,但結果是值得的,因為它提供了開發人員如何隱式思考解決問題的深刻洞察。”

此數據集不僅代表了完美的信息來源和增量知識發現,還捕捉了人類工程師的逐步決策過程。

“通過實際訓練我們的模型,而不僅僅是提示基礎模型,這是其他人正在做的事情,我們已經看到我們不再僅僅是生成隨機代碼直到某些代碼有效,而是像人類一樣解決問題”,Pullen強調道。

4.Genie的價格方案

至于Genie的定價結構,Pullen在后續電子郵件中解釋了如何工作。

他說將最初分為兩個層次:

1.一個價格競爭力強的可訪問選項,大約在20美元左右。這個層次將有一些功能和使用限制,但將展示Genie的能力,適合個人和小團隊使用。

2.一個企業級的選擇,具有擴展功能,幾乎無限使用的能力,并且能夠創建一個完美的AI同事,精通內部編寫的每一行代碼。這個層次將更顯貴,反映其作為完整AI工程同事的價值。

5.寫在最后

Genie的推出對軟件開發團隊有廣泛的影響,特別是那些希望提高生產力并減少在常規任務上花費時間的團隊。憑借其處理復雜編程挑戰的自主能力,Genie可能會徹底改變工程資源分配的方式,讓團隊能夠集中精力處理更戰略性的事務。

Cosine對Genie未來發展有著宏大的計劃,他們打算擴展其模型組合,包括用于簡單任務的較小模型以及處理更復雜挑戰的更大模型。此外,Cosine計劃通過擴展一個領先的開源模型和在廣泛數據集上進行預訓練,進一步拓展他們的工作領域到開源社區。

感興趣的朋友可以移步Cosine網站申請測試訪問,在項目中嘗試使用Genie:https://cosine.sh/register

參考鏈接:https://venturebeat.com/programming-development/move-over-devin-cosines-genie-takes-the-ai-coding-crown/

本文轉載自??51CTO技術棧??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产在线一区二区 | 中文在线一区二区 | 怡红院免费的全部视频 | 中文字幕国产在线 | 国产一区二区三区在线看 | 午夜精品久久 | 91视频免费在观看 | 久久机热 | 日韩精品一区二区三区老鸭窝 | 精品国产乱码久久久久久影片 | 精品粉嫩aⅴ一区二区三区四区 | 网络毛片| 亚洲成人三级 | 国产精品欧美一区喷水 | 999精品网| 欧美一区二区三区在线观看 | 久久亚洲一区二区三 | 国产精品一区二区在线播放 | 少妇性l交大片免费一 | 懂色av一区二区三区在线播放 | 日韩中文电影 | 性生生活大片免费看视频 | 天天视频成人 | 美女艹b| 啪啪综合网| 亚洲综合国产 | 亚洲视频 欧美视频 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 91社影院在线观看 | 自拍第1页| 日韩欧美二区 | 日韩有码一区二区三区 | 91资源在线 | 免费日本视频 | 亚洲精品黄色 | 天堂一区二区三区四区 | 国产精品成人国产乱 | 伊人精品在线视频 | 一区二区三区国产 | 欧美天堂在线观看 | 国产精品久久777777 |