Scaling Law被證偽,谷歌研究人員實錘研究力挺小模型更高效,不局限于特定采樣技術!
出品 | 51CTO技術棧(微信號:blog51cto)
“模型越大,效果越好”,Scaling Law再次被OpenAI帶火了,但谷歌的研究人員的最新研究證偽了這一觀點。
在周一發表的一項研究中,谷歌研究院和約翰霍普金斯大學的研究人員對人工智能 (AI) 模型在圖像生成任務中的效率有了新的認識。這些發現挑戰了“越大越好”的普遍信念,可能對開發更高效的人工智能系統產生重大影響。
1.模型大小與性能之間的較量
這項研究由研究人員Kangfu Mei 和Zhengzhong Tu 來主導,重點關注潛在擴散模型(LDM)的縮放特性及其采樣效率。LDM 是一種人工智能模型,用于根據文本描述生成高質量圖像。
為了研究模型大小和性能之間的關系,研究人員訓練了一套 12 個文本到圖像 LDM,其參數數量從 3900 萬到驚人的 50 億不等。然后,這些模型在各種任務上進行了評估,包括文本到圖像的生成、超分辨率和主題驅動的合成。
論文中寫到,“雖然改進的網絡架構和推理算法已被證明可以有效提高擴散模型的采樣效率,但模型大?。ú蓸有实年P鍵決定因素)的作用尚未得到徹底檢驗。“
圖片
令人驚訝的是,研究表明,在給定的推理預算下(相同的采樣成本)運行時,較小的模型可以勝過較大的模型。換句話說,當計算資源有限時,更緊湊的模型可能比較大、資源密集的模型能夠生成更高質量的圖像。這為在模型規模上加速LDMs提供了一個有前景的方向。
圖片
論文還進一步表明,采樣效率在多個維度上是一致的。研究人員有一個重要發現,較小模型的采樣效率在各種擴散采樣器(隨機和確定性)中都是保持一致,甚至在蒸餾模型(原始模型的壓縮版本)中也是如此。這表明較小模型的優勢并不限于特定的采樣技術或模型壓縮方法。
研究者認為,這種對縮放采樣效率的分析將對指導LDMs的未來發展起到關鍵作用,特別是在廣泛的實際應用中平衡模型規模與性能和效率方面。
圖片
圖片
然而,該研究還指出,當計算約束放松時,較大的模型仍然擅長生成細粒度的細節。這表明雖然較小的模型可能更有效,但在某些情況下仍然需要使用較大的模型。
2.寫在最后
這項研究的影響是深遠的,因為它為開發更高效的圖像生成人工智能系統開辟了新的可能性。通過了解 LDM 的擴展特性以及模型大小和性能之間的權衡,研究人員和開發人員可以創建在效率和質量之間取得平衡的 AI 模型。
這些發現符合人工智能社區的最新趨勢,即 LLaMa 和 Falcon 等小型語言模型在各種任務中的表現都優于大型語言模型。推動構建開源、更小、更高效的模型的目的是使人工智能領域民主化,讓開發人員能夠構建自己的人工智能系統,這些系統可以在單個設備上運行,而不需要大量的計算資源。
不得不說,在 GenAI 領域,有那么一點“大行不顧細謹,大禮不辭小讓”的感覺。
