大模型“自學”后能力反下降,Llama/Mistral都沒逃過
AI經過多輪“自我提升”,能力不增反降?
上海交通大學GAIR團隊最新研究表明,在常識理解、數學推理和代碼生成等復雜任務中,AI經過多輪“自我提升”后,可能會出現一種稱為“自我提升逆轉”(self-improvement reversal)的現象。
LLaMA-2-7B、Mistral-7B、LLaMA-8B都沒逃過。
這就像一個學生刷題刷到”走火入魔”——雖然考試成績提高了,但實際解決問題的能力反而可能下降!
更值得警惕的是,這種訓練還可能導致AI的回答變得千篇一律,失去了原有的創造力和適應新情況的能力。好比一個學生只會應付考試,遇到真實世界的問題就束手無策。
要知道,OpenAI最近被曝光的項目“草莓”,據說還在使用post-training階段的自我提升來提升模型復雜推理能力……
目前該研究《Progress or Regress?Self-Improvement Reversal in Post-training》已獲得了 ICML 2024 (AI for Math Workshop) 的Honorable Mention Award。
刷分更高但是能力下降
具體說來,該工作將”迭代后訓練”(Iterative post-training)分成三個主要步驟:
- 答案采樣:讓AI回答一系列問題,每個問題回答多次。
- 訓練集構建:從AI的回答中挑選出好的答案。
- 模型后訓練:用這些好答案來”教”AI,讓它學會更好的回答方式。
研究人員嘗試了不同的”教學”方法:
- 迭代SFT:直接告訴AI哪些答案是對的。
- 迭代DPO:讓AI學會比較不同答案的好壞。
- 迭代SFT-DPO:將上面兩種方法結合起來。
他們還研究了影響AI學習效果的幾個關鍵因素(如圖1所示):
- 訓練次數:一般來說,多訓練幾次,AI的表現會更好。但訓練4-5次后,進步就不明顯了。
- AI的基礎能力:有趣的是,最聰明的AI并不一定學得最快,但最后表現通常最好。
- 問題類型:有些類型的問題(如常識問答和簡單數學)AI學得比較快,而復雜的數學問題和編程任務就比較困難。
- 訓練方法:不同的問題可能需要不同的訓練方法。研究者發現,如果AI一開始就表現不錯,用DPO或SFT-DPO方法效果更好。
圖1:三種迭代后訓練范式在多個任務求解上的Pass@1性能(從常識知識、數學推理、代碼生成方向選擇了四個聚焦復雜問題求解能力的數據集:CSQA,GSM8k,MATH,MBPP以及三種不同的基座模型LLaMA-2-7B,Mistral-7B,LLaMA-8B。所有實驗的迭代次數$$$$設置為5。評估時使用貪婪解碼,并且選擇Pass@1作為性能評價指標。)
起初,結果看起來很令人興奮。AI在測試中的分數確實提高了!但研究團隊深入觀察后,發現了一些“出人意料”的現象:
1、能力幻覺:
研究者發現,AI并沒有真正學會解決更難的問題。相反,它只是變得更擅長在已知的答案中挑選正確的那個。他們用”正確答案覆蓋率”這個指標來衡量這一現象。結果顯示,即使是未經過多輪訓練的AI,只要給它足夠多的嘗試機會,也能在那些看似”學會”的問題上得到正確答案。這就像一個學生通過背答案提高了考試分數,但實際解決問題的能力并沒有提升。
2、多樣性喪失:
隨著訓練次數增加,AI的回答變得越來越“千篇一律”。研究者從三個方面測量了這種變化:
- 語法多樣性:使用”Distinct N-gram”指標。
- 語義多樣性:使用句子嵌入的余弦相似度。
- 邏輯多樣性:在數學問題中計算不同方程的數量。結果顯示,無論哪種訓練方法,AI的回答都變得越來越相似,失去了原有的創意和多樣性。
3、泛化能力下降:
研究者還測試了AI面對全新類型問題時的表現。他們先讓AI在一個簡單的數學問題集(GSM8K)上訓練,然后用一個更難的數學問題集(MATH)來測試它。結果發現,經過多輪”自學”的AI在面對這些新問題時,表現反而更差。而且,AI在簡單問題和困難問題上的表現差距越來越大,這說明它可能只是在”死記硬背”,而不是真正理解和學習。
毫無疑問,post-training階段的”自我提升“仍然是一個充滿潛力的研究方向,”讓AI自我提升”也是一個很酷的想法。但GAIR團隊的發現表明,AI的進化之路可能比想象中更加復雜和充滿挑戰。在追求AI性能提升的同時,也需要更全面地考慮:
- AI真正的問題解決能力是否提升了?
- AI是否保持了創造力和多樣性?
- AI能否靈活應對新的、未知的情況?
人工智能的未來令人期待,但同時也需要以更加審慎和全面的視角來看待其發展。只有這樣,才能真正實現AI的潛力,創造出既智能又可靠的系統,為人類社會帶來真正的價值。
實驗室介紹:
生成式人工智能研究實驗室(GAIR,主頁:https://plms.ai/)由上海交通大學劉鵬飛副教授2023年4月回國創建,是國內首個聚焦于生成式人工智能的高校研究組。匯聚了來自于CMU、復旦、交大(ACM班、IEEE試點班等)等頂尖高校的年輕本碩博人才。實驗室專注于三大核心領域:大模型基礎研究、對齊系統和社會影響,致力于培養頂尖人工智能人才(具有原創、批判精神等)、開發尖端的生成式人工智能技術,賦能人類解決復雜問題,提升人類生活質量。
論文地址:https://arxiv.org/pdf/2407.05013
項目主頁:https://gair-nlp.github.io/self-improvement-reversal/