Meta 重磅發布 DyT 函數:Transformer 無需歸一化層,性能反超傳統方案!
1. Transformers without Normalization
在現代深度學習模型中,歸一化層幾乎成了標配,大家普遍認為不可或缺。但我們的研究發現,其實不用歸一化層也能讓Transformer模型表現優異——只需要一個簡單的小技巧就夠了。我們提出的動態雙曲正切函數(DyT),本質上就是通過調整參數α來控制tanh函數的形狀(DyT(x)=tanh(αx)),這個方法能完美替代歸一化層的功能。這靈感來自于Transformer中常用的層歸一化,它其實和tanh函數的S型曲線很像。而通過引入DyT,即使去掉歸一化層,Transformer在大多數任務上的表現也能和傳統方法持平甚至更好。
我們在各種實驗中驗證了這一點,無論是圖像識別還是文本生成,從有監督學習到自監督學習,這個方法都表現穩定。這似乎顛覆了我們對歸一化層必須存在的傳統認知,說明深度網絡的訓練機制可能還有更多未被發現的特性。有趣的是,這個簡單方法甚至能幫助模型在某些場景下取得更好的效果,說明傳統設計可能還存在優化空間。
論文: ??https://arxiv.org/pdf/2503.10622??
2. Charting and Navigating Hugging Face's Model Atlas
現在網上公開的神經網絡模型多如繁星,要在這么多模型里找合適的用起來可不太容易。想象一下,要是有一張導航地圖該多好——但現實是大部分模型連說明書都懶得寫,畫地圖就成了一件挺頭疼的事。為了探索這些模型的潛力,我們先試著畫了一張初步的地圖,主要參考了Hugging Face平臺上那些有詳細說明的模型。這張地圖不僅讓人一眼看懂模型家族的分布和演化路徑,還能直觀感受技術發展的脈絡。
我們試著用這個地圖做了些有意思的事,比如預測模型的性能表現,分析視覺模型的發展趨勢等等。不過現在這個地圖還不夠完整,特別是那些沒寫文檔的'隱秘角落'。為此我們想了個辦法:根據實際訓練模型的經驗總結出一些常見規律(比如大家訓練模型時常用的結構設計),把這些規律作為參考依據,就能推測出那些沒被記錄的區域大概長啥樣。
論文: ??https://arxiv.org/pdf/2503.10??633
3. World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
最近這些能同時處理圖像和文字的大模型(比如Qwen2-VL、LLaVA這些)雖然在規劃任務上有了新突破,但它們總在一些基本問題上卡殼——比如如何高效執行任務,或者在復雜約束下做出合理選擇。仔細看現有的解決方案會發現,要么只顧著優化動作選擇,要么依賴模擬環境預測,但都沒把'理解環境'和'做決策'這兩個關鍵點結合起來。
我們這次想了個新方法,叫雙重偏好優化(D2PO)。簡單來說,就是讓模型一邊學習'預測環境變化',一邊優化'下一步該做什么',就像同時培養它的'預判能力'和'行動力'。為了訓練這個模型,我們設計了一個智能搜索機制:讓模型自己通過試錯積累經驗,自動收集訓練數據,而且完全不用人工標注。這樣既省時又省力。
在真實任務測試中(比如讓模型完成需要多步驟的視覺任務),這個方法表現特別好。比如用在Qwen2-VL、LLaVA這些70億參數的模型上時,任務成功率比之前的方法高很多,甚至超過了GPT-4o這樣的大模型。更厲害的是,它找到的解決路徑還更簡潔高效,說明模型真的學會了'聰明規劃'
論文: ??https://arxiv.org/pdf/2503.10480??
4. CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
現在文本生成圖像(比如讓AI畫圖)的技術發展很快,但一直有個兩難問題:要么追求畫質就得等很久,想快速出圖又總覺得效果差點意思。更麻煩的是,之前的方法要么只對擴散模型(比如Stable Diffusion)有效,要么只能用在自回歸模型(比如LlamaGen)上,很少有通用方案能同時兼顧速度和質量。
我們團隊這次開發了一個叫CoRe2的'加速神器',它像搭積木一樣分三步走:
收集:先讓模型自由發揮,不加限制地生成圖像軌跡
反思:用這些素材訓練個'小助手',專門記住容易生成的部分,這樣計算量直接砍半
精修:最后用'小助手'和原模型配合,重點強化那些原模型總畫不好的細節(比如復雜紋理或真實感)
實測發現這個方法特別實用!它在Stable Diffusion XL、LlamaGen等主流模型上都表現穩定,生成的圖像在清晰度和創意度上都比之前的方法強。比如用Stable Diffusion 3.5時,不僅比Z-Sampling快了6秒,畫作質量評分還分別高了0.3和0.16分。更厲害的是,它能無縫對接現有的加速方案,相當于給模型裝了個'渦輪增壓器'。
論文: ???https://arxiv.org/pdf/2503.09662??
本文轉載自??AI-PaperDaily??
