世界首個「AI CUDA工程師」誕生！AI自己寫代碼優化CUDA內核，性能狂飆100倍

作者：新智元 2025-02-21 09:00:00

Transformer論文八位作者之一Llion Jones創立的Sakana AI發布重磅成果——全球首個「AI CUDA工程師」！它能將PyTorch代碼自動轉換為高度優化的CUDA內核，速度比PyTorch原生實現快10-100倍。

就在剛剛，由Transformer八大金剛之一Llion Jones創辦的Sakana AI，推出了世界上首個「AI CUDA工程師」——The AI CUDA Engineer。

同時，還發布了一個由「AI CUDA工程師」生成的，包含17,000多個已驗證CUDA內核的數據集。

論文地址：https://pub.sakana.ai/static/paper.pdf

項目主頁：https://pub.sakana.ai/ai-cuda-engineer

自從去年提出了世界上首個「AI科學家」之后，一個疑問一直縈繞在團隊心頭：如果可以使用AI來進行AI研究，是不是也能用AI來研究如何讓AI運行得更快？

團隊認為，AI系統也應該像人腦一樣高效地利用資源。而實現的最佳途徑，就是利用AI來讓AI更高效！

于是，「AI CUDA工程師」就這樣誕生了。

這位AI工程師，能自動生成高度優化的CUDA內核，不僅比PyTorch中常見的機器學習操作快10-100倍，而且也比生產中廣泛使用的CUDA內核快最高5倍。

通過LLM驅動的進化代碼優化技術，「AI CUDA工程師」能將PyTorch代碼轉換為CUDA內核，并通過進化算法優化 CUDA內核的執行效率，實現多個運算操作的融合。

更重要的是，它能夠通過學習歷史創新成果，發現編寫高效CUDA運算的全新方法。

最終，開啟一個AI驅動加速AI的新紀元，實現自動化推理時優化。

英偉達高級研究科學家Jim Fan表示：「干得漂亮，Sakana AI！這是我最近看到的最酷的自主編程AI智能體。AutoML王者歸來！」

對計算資源最有價值的使用方式，就是提高相同計算資源的未來生產力。它具備了所有超越人類表現的關鍵要素：

而且，「創新檔案」這個概念也很有趣，跟英偉達「我的世界」Voyage智能體中使用的「技能庫」非常相似。

本質上，這是一個完全由LLM在探索CUDA設計空間時編寫的代碼倉庫，還保存了最佳代碼片段。這是進化搜索過程中產生的學習成果，無需更新參數權重。

Jim Fan順便推薦了一下，英偉達最近也在展開的一項相關研究，同樣也是用強大了的LLM推理來改進CUDA內核。

CUDA是一個底層軟件層，能夠直接訪問英偉達GPU的硬件指令集來進行并行計算。CUDA內核，則是使用CUDA語言編寫的、在GPU上運行的函數。

通過在CUDA內核層面直接編寫指令，我們能夠顯著提升AI算法的性能。

然而，使用CUDA需要扎實的GPU專業知識，而在實踐中，大多數機器學習算法都是在PyTorch或JAX等更高層次的抽象層中編寫的。

「AI CUDA工程師」是一個基于前沿LLM的AI智能體框架，目的是將標準PyTorch代碼自動轉換為高度優化的CUDA內核。

通過運用進化優化技術，并借鑒進化計算中的「交叉」操作和「創新檔案」等概念來發現具有潛力的過渡性內核，研究人員提出的框架不僅能夠自動將PyTorch模塊轉換為CUDA內核，而且他們的高度優化的CUDA內核通常能夠實現顯著的性能提升。

研究團隊相信這項技術能夠帶來性能加速，從而加快LLM或其他生成式AI模型等基礎大模型的訓練和運行（推理）速度，最終讓AI模型在英偉達GPU上運行得更快。

第1和第2階段（轉換和翻譯）：「AI CUDA工程師」首先將PyTorch代碼轉換為可運行的CUDA內核。即便在沒有專門優化的情況下，它們就已經觀察到初步的性能提升。
第3階段（進化優化）：借鑒生物進化中的適者生存法則，框架采用進化的方法來確保只保留最優秀的CUDA內核。同時，團隊創新性地提出了內核交叉提示策略，能夠將多個優化后的內核進行有效組合。
第4階段（創新檔案）：正如文化通過千年的文明傳承來塑造人類智慧一樣，「AI CUDA工程師」也會利用在過往創新和發現中積累的經驗，構建一個由高性能CUDA內核構成的創新檔案庫，并以這些積累的優化經驗為基礎，實現更進一步的轉換和性能突破。