預訓練還沒終結!港中文清華等提出「三位一體」框架,持續自我進化
當前(多模態)大模型正深陷「數據饑渴」困境:其性能高度依賴預訓練階段大量高質量(圖文對齊)數據的支撐。
然而,現實世界中這類高價值數據資源正在迅速耗盡,傳統依賴真實數據驅動模型能力增長的路徑已難以為繼。
在NeurIPS 2024會議上,OpenAI聯合創始人Ilya Sutskever明確指出:「Pre-training as we know it will end」, 這一判斷是對傳統預范式極限的清晰警示。
為延續性能提升,主流研究方向開始轉向推理優化與后訓練微調(如強化學習)。
然而,最新研究表明:此類改進極其依賴模型在預訓練中所奠定的能力基礎:如果模型在早期未能系統性地習得相關能力,后續優化就如同在沙地上建高樓——進展有限,風險頗高。
不同模型在「自我進化」能力上的表現也存在巨大差異,其實質仍是「題海戰術」的延伸:缺乏方法論支撐的訓練,難以應對真實世界中的復雜和變化。
面對這一瓶頸,大模型的未來路在何方?
微軟研究院科學家 Shital Shah 在社交媒體上指出:合成數據(synthetic data)或許是打破當前能力天花板的關鍵。
近日,港中文聯合清華等高校提出:未來大模型性能的持續提升,需依賴「預訓練、推理階段的計算擴展、后訓練優化」三者的深度協同。這一觀點打破了傳統依賴單一預訓練路徑的范式,為下一代多模態基礎大模型(Foundation MLLMs)的構建提供了全新思路。
論文鏈接:https://arxiv.org/html/2503.12303v5
在此基礎上,研究團隊提出了創新性框架——SICOG(Structured In-Context Optimization and Generation),旨在重塑大模型的進化路徑。SICOG引入了獨創的「鏈式描述」技術,通過五步漸進式視覺解析引擎,實現模型從顯著內容捕捉到細粒度關聯推理的全面感知躍升。
該框架同時采用了「結構化思維鏈」機制,有效增強模型對多模態信息的融合處理與復雜推理能力。更具突破性的是,SICOG通過自生成數據閉環+語義一致性篩選機制,使模型在零人工標注的條件下實現認知能力的持續進化,真正邁向高效、自主的學習范式。
SICOG的提出,不僅打破了當前模型在數據、算力與微調優化三者割裂發展的瓶頸,也為未來通用人工智能(AGI)模型的構建提供了可擴展、可遷移的新路徑。
SICOG:三位一體協同框架,讓模型學會「自我進化」
傳統多模態大模型(MLLMs)依賴海量標注數據與靜態預訓練范式,面臨數據稀缺與能力增長受限的雙重瓶頸。為突破這一困境,本文提出全新框架 SICOG(Self-Improving Systematic Cognition),首次構建了涵蓋「后訓練增強—推理優化—再預訓練強化」的三位一體自進化機制,重新定義了預訓練邊界,為下一代MLLMs注入動態認知與持續學習能力。
SICOG的三階段協同機制包括:
- 后訓練增強:利用少量高質量標注數據,提升模型的系統性認知與基礎推理能力;
- 推理優化:在大規模無標簽多模態數據上進行自主推理,通過「自我一致性投票機制」篩選出高置信度答案,自動生成偽標簽;
- 再預訓練強化:將篩選后的高質量偽標注數據反饋用于預訓練,實現模型能力的持續進化。
SICOG的關鍵創新在于實現了模型的「學中實踐、實踐中進化」:從少量種子數據出發,模型通過「看圖總結+解題推理」主動構建多任務樣本,實現數據生成與學習閉環。無需大規模人工標注,即可高效擴展預訓練數據,根本性緩解當前高質量多模態數據稀缺的問題。
描述鏈(Chain-of-Description, CoD)
讓模型「看圖像像人一樣」
CoD(描述鏈)是一種結構化分步感知方法,使模型像偵探一樣逐層觀察圖像,從主體到細節、從關系到背景,構建出完整、邏輯嚴密的圖像理解過程。
以「一位女孩彈吉他」的圖像為例,傳統模型可能僅生成「女生在彈吉他」的粗略描述,而CoD會分為五個有序階段,逐步深化理解:
- 提取主體內容:首先識別圖像的核心語義元素,如:「一位紅發女性坐在床上,懷中抱著一把木吉他」,確保模型對主要對象有清晰把握,為后續分析打下基礎。
- 分析細節信息:進一步觀察細節屬性,如「吉他為淺色指板的經典木制款式,光線柔和,渲染出溫暖氛圍」,捕捉紋理、顏色、光影等低層信息,增強描述的豐富性與精度。
- 考慮關系屬性:描述圖像中元素之間的交互關系,如:「她坐在床上,筆記本放在小桌上,燈串和掛飾點綴背景」,強化對空間布局與語義結構的建模。
- 檢查邊緣/背景內容:不忽略次要信息,如:「房間內有梳妝臺、墻面裝飾等背景元素」,補充場景語義,完善整體理解。
- 整合為連貫描述:將上述觀察統一組織為一段完整、邏輯清晰的自然語言描述。
通過CoD,模型能夠逐步「構建圖像語義結構」,實現從感知到理解的飛躍,顯著提升圖文對齊的質量與邏輯性。
結構化解題思路(Structured Chain-of-Thought, CoT)
讓模型「解題像學霸一樣」
CoT(結構化思維鏈)是一種任務驅動的推理框架,支持模型在面對復雜問題時進行分步推理、信息整合與因果判斷,廣泛應用于數學計算、邏輯問答、跨模態推理等任務。
例如,在一道幾何題中,傳統模型可能直接嘗試「猜測答案」,而CoT的解題過程如下:
- 明確任務目標:識別問題類型,例如「求三角形某邊的長度」。
- 提取關鍵信息:從圖像中提取直角三角形、垂線、邊長等必要條件。
- 邏輯推理分析:判斷相似三角形關系,列出比例公式并代入數值。
- 總結計算得解:通過計算得出答案,例如「選項C」。
CoT讓模型具備類人的「解題能力」,不僅能處理復雜的數理任務,還能支持跨模態因果推斷,奠定模型認知系統化的基礎。
能力全面躍升:SICOG的三大關鍵優勢
借助CoD和CoT,SICOG不僅構建了結構化的感知與推理流程,更在訓練范式上實現了根本性突破,具備以下三大核心優勢:
- 顯著降低對高質量數據的依賴:僅需少量種子數據即可啟動,通過自生成數據循環優化,實現大規模多模態數據的「零標注」擴展。
- 實現動態認知進化:打破傳統「一訓定終身」的預訓練模式,支持模型在使用過程中持續學習、能力不斷升級,具備「終身學習」特征。
- 感知與推理一體優化:不再局限于感知能力的提升,SICOG在預訓練階段即融合「感知+推理」,模擬人類認知流程,使模型對圖文、圖問等復雜任務具備更強泛化與應變能力。
實驗驗證:SICOG實現模型能力全面提升
為了驗證SICOG框架的有效性,研究在12個主流多模態評測集上進行了系統性評估,涵蓋圖表理解、數學推理、抗幻覺能力等多個關鍵維度。實驗結果表明,SICOG能顯著提升模型的綜合表現,具體成果如下:
綜合性能穩步提升
- 在整體評測中,模型平均表現提升2%–4%;
- 尤其在依賴多步推理的任務中表現突出,如ScienceQA,展現出更強的邏輯推理與跨模態理解能力。
幻覺控制能力增強
- 在POPE等抗幻覺評測中,模型錯誤率下降了1%–2%
自生成數據推動持續進化
- 隨著自生成數據量從11.8萬條提升至21.3萬條,模型性能持續上升,呈現出良好的擴展性與學習能力;
- 表明SICOG的「自我進化機制」不僅可行,而且具備高度可擴展性。
超越主流預訓練方法
- SICOG在多個任務中表現甚至超過了主流的strong-to-weak distillation和multi-agent collaboration方法;
實驗還表明,基礎模型性能越強,其在自我進化過程中的能力提升也越顯著。例如,LLaVA-Qwen2-7B-UHD相較于LLaVA-Llama3.1-8B-UHD,性能提升幅度高出約50%。這表明:強大的基礎能力不僅決定模型的初始表現,更顯著增強其后續自學習與優化能力。
這一現象類似于人類學習中的「馬太效應」——「學霸更會自學」。具備更優初始結構與知識表示的模型,能夠更高效地利用數據、激發潛力,在持續進化中取得更大進步。
研究進一步表明,基于合成數據的預訓練顯著提升了模型的基礎認知能力,從而強化了后續微調效果。這一結果再次驗證了:預訓練、推理階段的計算擴展與后訓練優化三者之間存在高度協同關系。只有打通這三環節,才能實現模型能力的持續躍升與高效進化。
此外,研究發現,SICOG生成的合成數據同樣遵循規模法則(scaling law):模型能力隨著數據量的增加持續提升。這進一步證明了自生成數據在模型進化過程中的有效性與可擴展性。
研究人員提出了一種變體方法:在第一階段的后訓練增強中,以偏好學習(Preference Learning)替代傳統的監督微調(SFT),以進一步強化模型的基礎能力。
實驗結果表明,偏好學習在提升模型泛化能力方面優于SFT,尤其在處理復雜任務時表現更為穩健。這一結果從實證層面驗證了長期以來的觀點:強化學習范式在特定任務中相較于監督微調更具優勢。
細粒度圖像感知能力顯著增強,在細節識別與關系屬性捕捉方面表現出更高的準確性與魯棒性。
多模態理解與推理能力顯著提升。
展望:預訓練的新邊疆——從靜態訓練到動態進化
SICOG通過構建一個涵蓋「數據生成→模型訓練→能力進化」的閉環體系,突破了傳統預訓練對高質量人工標注數據的依賴,展現出類人認知發展的潛力。該框架不僅實現了模型的自我學習與持續優化,也為邁向真正自主學習型智能體奠定了堅實基礎。
在當前研究中,SICOG通過引入Chain-of-Description(CoD)并配合Chain-of-Thought(CoT)的推理機制,顯著增強了多模態模型的感知與推理能力。然而,這一進展仍只是通向完全自主學習的起點。
未來,若能進一步引入環境反饋機制(如具身智能場景)與持續優化機制,模型將有望具備終身學習的能力,實現從「被動學習」向「主動成長」的躍遷。在與環境的持續交互中,模型不僅可以利用自身生成的數據進行自我優化,更能夠主動識別知識盲區、動態調整學習策略,從而在復雜任務與多變環境中不斷進化、持續提升。