微調已死，強化微調萬歲

原創精選

作者：言征 2024-12-10 09:07:17

人工智能

與傳統的微調不同，RFT 側重于教模型思考和推理問題，正如 OpenAI 的研究主管?Mark Chen?所解釋的那樣：“這不是標準的微調......它利用強化學習算法，將我們從高級高中水平提升到專家級博士水平。

編輯 | 言征

出品 | 51CTO技術棧（微信號：blog51cto）

OpenAI第二天的直播，奧特曼沒有出鏡，幾位OpenAI的研究員帶了一場AI模型的定制魔法秀！

“這不是標準的微調......它利用強化學習算法，將我們從高級高中水平帶到專家級博士水平。”

1.12個樣本，就能讓定制o1超過滿血o1

標準的微調已經過時了，這次 OpenAI 打破了 AI 定制的界限。在其“OpenAI 12 天”直播系列的第二天首次為其 o1 模型提供強化微調（RFT）。這一新的突破標志著我們所知道的傳統微調的終結。使用 RFT，模型不僅可以復制，還可以進行推理。

通過采用強化學習，OpenAI 希望使組織能夠為法律、醫療保健、金融等領域的復雜任務構建專家級 AI。這種新方法使組織能夠使用強化學習來訓練模型，以最少的數據（有時只有 12 個示例）處理特定于領域的任務。

通過使用參考答案來評估和優化模型輸出，RFT 可以提高專家級任務的推理和準確性。OpenAI 通過微調 o1-mini 模型來演示這項技術，使其能夠比以前的版本更準確地預測遺傳疾病。

2.重新定義模型微調

與傳統的微調不同，RFT 側重于教模型思考和推理問題，正如 OpenAI 的研究主管 Mark Chen 所解釋的那樣：“這不是標準的微調......它利用強化學習算法，將我們從高級高中水平提升到專家級博士水平。

局限性：該方法并非沒有局限性。OpenAI 工程師 John Allard 解釋說，RFT 在結果“客觀正確且廣泛同意”的任務中表現出色，但在更難定義共識的主觀領域或創造性應用程序中可能會遇到困難。

然而，與傳統的完全微調相比，鋼筋微調（RFT）通常被認為在計算效率更高。批評者還指出，RFT 的性能在很大程度上取決于任務設計和訓練數據的質量。

有趣的是，使用 RFT，您只需幾十個示例即可實現顯著的性能改進，因為該模型從反饋中學習，而不需要查看所有可能的場景。

包括伯克利實驗室研究人員在內的早期采用者已經取得了顯著的成果。例如，微調的 o1-mini 模型在識別導致罕見疾病的基因突變方面優于其基礎版本。

圖片

OpenAI 已向選定的組織開放其 RFT alpha 計劃。參賽團隊將獲得 OpenAI 基礎設施的訪問權限，以訓練針對其獨特需求優化的模型。“開發人員現在可以利用我們在內部使用的相同工具來構建特定于領域的專家模型，”Allard 說。

計算生物學家 Justin Reese 強調了 RFT 在醫療保健領域的變革潛力，特別是對于影響數百萬人的罕見疾病——“將領域專業知識與生物醫學數據的系統推理相結合的能力正在改變游戲規則”。

同樣，OpenAI 與湯森路透的合作已經證明在微調法律模型方面取得了成功，為在法律和保險等高風險領域增強 AI 應用鋪平了道路。

3.AI 定制新時代

OpenAI 計劃于 2025 年公開發布，旨在根據早期參與者的反饋改進 RFT。除了最初的應用之外，OpenAI 還設想了 RFT 模型推動數學、研究和基于代理的決策等領域的發展。“這是關于為人類最復雜的挑戰創建高度專業化的工具，”Chen 說。

簡而言之，這項技術將 OpenAI 的 o1 系列模型轉變為特定領域的專家，使它們能夠以無與倫比的準確性進行推理，并在復雜、高風險的任務中超越其基本版本。

定期微調通常涉及使用監督學習在新數據集上訓練預訓練模型，其中模型根據數據集中提供的確切輸出或標簽調整其參數。

另一方面，RFT 使用強化學習，模型從對其性能的反饋中學習，而不僅僅是從直接示例中學習。

該模型不是從固定標簽中學習，而是根據預定義的評分量規或評分器根據它在任務中的表現進行評分。這使模型能夠探索不同的解決方案并從結果中學習，專注于提高推理能力。

4.用戶實測：ChatGPT o1 Pro 感覺就像買了一輛蘭博

在 OpenAI 12 Days 的第一天，該公司發布了完整版的 o1 和一款售價 200 美元的全新 ChatGPT Pro 機型。ChatGPT Pro 計劃包括 Plus 計劃的所有功能以及對附加 o1 Pro 模式的訪問，據說該模式使用“更多計算來最好地回答最難的問題”。此外，該計劃將提供對 o1、o1-mini 和 GPT-4o 的無限制訪問以及高級語音模式。

OpenAI 還宣布了該模型的以開發人員為中心的新功能。其中包括結構化輸出、函數調用、開發人員消息和 API 圖像理解。OpenAI 還表示，他們正在努力為 o1 模型提供 API 支持。

“為了更加明確：O1 在我們的 Plus 級別可用，每月 20 美元。使用新的 Pro Tier（每月 200 美元），它可以更努力地思考最困難的問題。大多數用戶會對 Plus Tier 中的 O1 感到非常滿意！“OpenAI 首席執行官 Sam Altman 在 X 上發帖。

社區中的許多人認為 200 美元對于 ChatGPT Pro 訂閱來說太貴了。“不要以為我需要每月 200 美元的 o1 Pro。o1 對我來說就足夠了。哎呀，對我來說就足夠了，“X 上的一位用戶發帖說。

“ChatGPT o1 Pro 感覺就像買了一輛蘭博基尼。”

沃頓商學院的副教授 Ethan Mollick 可以提前接觸 o1，他分享了他的經驗，并將其與 Claude Sonnet 3.5 和 Gemini 進行了比較。“它可以解決一些博士級別的問題，在科學、金融等高價值領域有明顯的應用。發現用途需要真正的研發努力“。

他解釋說，雖然 o1 在解決 Sonnet 難以解決的特定難題方面優于 Sonnet，但它并沒有在每個領域都超過 Sonnet。Sonnet 在其他領域仍然更強大。“作為作家而言，o1 表現得并沒有想象中地更好，不過它通常能夠比 Sonnet 更好地發展復雜的情節，因為它可以更好地提前計劃。”

一位 Reddit 用戶在花了 8 小時在實際應用程序中測試 OpenAI 的 o1 Pro（200 美元）與 Claude Sonnet 3.5（20 美元）后分享了他們的經驗。

對于復雜的推理，o1 Pro 是贏家，它提供的結果略好，但每個響應的時間多了 20-30 秒。Claude Sonnet 3.5 雖然更快，但在這些任務上達到了 90% 的準確率。在代碼生成方面，Claude Sonnet 3.5 的性能優于 o1 Pro，它生成的代碼更簡潔、更易于維護，文檔更好，而 o1 Pro 傾向于過度設計解決方案。

同樣，Abacus AI 首席執行官 Bindu Reddy 表示，Sonnet 3.5 在編碼方面仍然優于 o1，這是根據她進行的手動測試，因為 OpenAI 尚未發布 API。

“早期跡象表明，Sonnet 3.5 在編碼方面仍然占據主導地位。每當 OpenAI 選擇提供 API 時，我們都將能夠確認這一結果，“她說。

參考鏈接：https://analyticsindiamag.com/ai-origins-evolution/fine-tuning-is-dead-long-live-reinforcement-fine-tuning/

想了解更多AIGC的內容，請訪問：

51CTO AI.x社區

http://www.ekrvqnd.cn/aigc/

責任編輯：武曉燕來源： 51CTO技術棧