DeepSeek-R1 用來優化GPU 內核?代碼自動生成還比人寫得好!
英偉達工程師最近用 DeepSeek-R1 模型加上“推理時擴展”技術,讓 AI 自動生成 GPU 核心代碼,也就是 GPU 內核。更讓人驚訝的是,有些 AI 生成的代碼甚至比工程師寫的還要好!
隨著 AI 模型處理越來越復雜的任務,它們對計算資源的需求也在不斷增長。 GPU 內核作為執行計算任務的關鍵部分,其優化程度直接關系到模型的性能。然而,傳統的內核優化需要大量時間和專業知識,效率低下。
NVIDIA 工程師們采用了 DeepSeek-R1 模型,這是一種開源的 AI 模型,能夠根據給定的任務自動生成代碼。結合推理時間擴展技術,工程師們讓模型在推理過程中分配額外的計算資源,以評估多種可能的內核實現,并選擇最優的一個。
實驗中,DeepSeek-R1 模型首先根據手動輸入的提示生成 GPU 內核代碼。然后,這些代碼在一個特殊的驗證器上運行,驗證器會分析生成的內核并創建新的提示,再輸入給 DeepSeek-R1 模型。這個過程在閉環中不斷迭代,直到生成最優的內核。
實驗結果顯示,這種方法產生了 100%的 Level-1 問題和 96%的 Level-2 問題的數值正確內核。利用 DeepSeek-R1 模型和推理時間擴展技術生成的優化 GPU 內核,在性能上有了顯著提升。
與傳統的 PyTorch API 相比,NVIDIA 工程師們的方法在某些內核類型上實現了 1.1 倍至 2.1 倍的速度提升。這一創新方法在處理某些復雜問題時,甚至超過了經驗豐富的工程師手工優化的內核。
這一技術的成功應用,為 AI 模型在 GPU 編程領域的自動化和智能化提供了新的思路。未來,隨著 DeepSeek-R1 模型的進一步發展和推理時間擴展技術的優化,我們有理由相信,AI 將在更多領域創造奇跡。
參考來源:https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/
本文轉載自 ??AI工程化??,作者: ully
