語言與擴散模型的精準控制
筆者近日在朋友圈發了如下感慨:
“現在太多科幻敘事下的公司AI戰略,看了讓人觸目驚心,可以判斷這些做AI戰略的人幾乎不看paper的。
現在的大模型做個六七十分的demo非常擅長,對企業生產場景卻缺乏精準控制的手段。
再強大的工具也有能力的邊界,研究數理原理可以推演出這些邊界:?大模型的數理認知框架v2”。
問題
這并非刻意標新立異或危言聳聽:
隨著大型生成模型能力的不斷提升及日益廣泛應用,人們對其可靠性、安全性及潛在濫用風險的擔憂也與日俱增。
然而讓這些模型精準輸出預期內容十分挑戰,而精準恰恰是眾多領域特別是toB企業場景的核心訴求。
一個典型有趣的例子,當要求文生圖模型"不包含某元素",例如“不要生成粉色大象”時,模型仍然非常執著的輸出:
SDXL和FLUX-1.dev等文生圖模型在被明確要求"不要生成粉色大象"時。左圖提示詞:"空間站里的宇航員,不要出現粉色大象";右圖提示詞:"沙灘上奔跑濺起水花的狗,不要出現粉色大象"。
原理
傳統方式,人們依賴提示詞、思維鏈、RLHF或指令微調等校準生成模型的輸出,但資源消耗大,可行性日益降低,還可能影響模型泛化能力。
Apple ML研究團隊開發了模態無關的創新技術AcT(Activation Transport)【文獻1】,以微不足道的計算開銷,實現了精細化的模型行為控制。
AcT基于最優傳輸理論,統一了之前多數激活調控方法,其研究成果被選為ICLR 2025的焦點報告。
“世界的不斷演進,都是冥冥中遵循最小化各種代價或成本的方式進行,最優輸運某種意義上是自然演化的必然方向和準則。”
清熙讀者都熟悉筆者關于生成式大模型的數理原理的框架:重整化提取出范疇,持續重整化驅動范疇相變,然后采樣做變分推理。
圖片
重整化中尺度變換的每一步,都將沿著最優輸運的方向進行,也就是尺度變換前后的概率分布之間距離最近的方向,Wasserstein 距離決定的方向。
如何看待伯克利馬毅教授團隊白盒Transformer文中,筆者也講到擴散模型的生成時采樣:
“擴散模型是學習到了圖像的底片,類似膠片相機的時代,生成就是洗照片,不過加了隨機采樣。
擴散模型若用于處理文字生成將更隨機,變智障的可能性不是沒有,而且計算效率預計也不會太好。
‘范疇采樣做變分推理’某種意義上說,具備因果屬性,擴散模型是沒有的。”
Apple AcT放棄了隨機采樣,轉為學習源與目標激活分布之間的最優傳輸(OT)映射,在推理階段動態引導輸出朝向OT方向。
AcT不修改模型參數,是推理采樣增強技術,基于對模型運作機制的理解,這與筆者整理的大模型數理原理完全吻合。
方法
RLHF或微調需高昂計算成本,卻無法保證精細控制的需求,因而業界轉向針對模型激活值進行定向干預,細粒度方式修正特定行為。
"激活導向"技術的主要優勢在于:無需反向傳播,不修改模型參數,通常也可直接融入模型權重。
此前的激活導向方法多采用基于向量的干預機制:提取專家神經元的源激活值,將其朝學習目標方向偏移,存在兩大局限:
- 激活值偏移由超參數(λ)控制,難以解釋
- 偏移后的激活值可能超出訓練分布,引發異常行為
AcT則通過統籌考慮源/目標激活值的分布特性,采用可解釋、可操作化的強度參數實現精細化控制。
核心在于通過少量示例學習源與目標激活分布之間的OT映射,以確保傳輸后的激活值始終符合目標分布特征,并最大程度減少對模型原生動態的影響。
考慮到多維非線性OT映射存在數據需求量大和推理延遲高兩大瓶頸,學者們通過線性獨立傳輸(Linear-ActT)做了簡化,做到LLM和文生圖多模態開箱即用:
- 基于神經元獨立性假設,為每個神經元單獨估計一維映射
- 保留線性映射約束,降低內存占用,保障推理速度
效果
論文做了兩項關鍵任務基準測試:毒性和真實性,并通過困惑度(PPL)和MMLU指標監測對其他性能指標的影響。
毒性,使用RealToxicityPrompts數據集評估:Gemma-2-2b、Llama-3-8b模型毒性輸出分別降低7.5倍和4.3倍。
真實性,使用 TruthfulQA 數據集:Gemma-2-2b、Llama-3-8b模型分別增加了 4.9 倍和 7.5 倍。
自然,上文的“不要生成粉色大象”問題也得到了妥善解決:
"一位老人正在斜坡上進行滑雪運動。畫面中不出現{大猩猩、粉紅色大象、白熊}"。研究展示了當明確要求排除特定概念時,SDXL-Lightning模型對"大猩猩"(上)、"粉紅色大象"(中)和"白熊"(下)三個概念的有效消除效果。各列圖像展示了不同傳輸強度(λ)下的生成結果,最右側為不產生噪點的最高可接受強度閾值(線性AcT方法λ=1,ITI方法λ=4)。
文獻1, Controlling Language and Diffusion Models by Transporting Activations,https://arxiv.org/abs/2410.23054
本文轉載自??????清熙??,作者:王慶法
