超越DPO，創新大模型優化算法SimPO

Aceryt

發布于 2024-6-7 11:02

瀏覽

0收藏

隨著ChatGPT等模型的影響力越來越大，如何根據人類反饋優化大模型的性能，實現超級對齊降低非法內容輸出變得非常重要。

傳統的DPO（直接偏好優化）是使用較多的離線偏好優化算法，主要通過重新參數化獎勵函數，從人類反饋中學習以優化大模型。但是DPO的獎勵函數依賴于一個參考模型，不僅會大幅度增加AI算力和內存需求，在訓練和推理過程中的度量會出現不一致等情況。

所以，弗吉尼亞大學和普林斯頓大學的研究人員推出了更好的優化方法SimPO。

論文地址：https://arxiv.org/abs/2405.14734

Github地址：https://github.com/princeton-nlp/SimPO

超越DPO，創新大模型優化算法SimPO-AI.x社區

SimPO是在DPO的基礎之上進行了創新，通過采用序列的平均對數概率作為隱式獎勵機制，這一巧妙的設計與模型生成過程緊密相連，同時消除了對參考模型的依賴，極大提升了了計算效率和內存使用率。

此外，SimPO還提出了一個“目標獎勵邊際”的概念，將其嵌入到布拉德利-特里比較模型中，這個邊際設定使得勝出的模型響應與失敗的響應之間形成更大的差距，可有效增強算法的區分度進一步優化分類效果，使得模型的輸出內容更加符合人類的偏好。

自由獎勵函數

DPO優化方法的獎勵函數的構建依賴于一個參考模型，通常是一個經過監督微調的模型。這也是致使其大幅度增加算力、內存的主要原因。SimPO通過自由獎勵函數可以有效解決這些難點。

自由獎勵函數不再依賴于任何外部的參考模型，而是直接使用策略模型本身來計算獎勵。SimPO將獎勵函數定義為序列中所有標記的對數概率的平均值，公式如下：

超越DPO，創新大模型優化算法SimPO-AI.x社區

這種設計使得獎勵函數與模型生成過程中使用的度量（即平均對數似然）直接對齊，從而確保了模型在生成響應時能夠更加精確地優化目標。

此外，SimPO的獎勵函數還引入了長度歸一化的技術概念。在生成任務中，序列的長度往往會對模型的生成質量產生影響。如果不對長度進行歸一化處理，模型可能會傾向于生成較短或較長的序列，不符合用戶對生成質量的期望。

超越DPO，創新大模型優化算法SimPO-AI.x社區

通過將獎勵函數除以序列長度，SimPO確保了獎勵與序列長度無關，避免了模型在生成過程中對長度的過度依賴。

SimPO實驗數據

為了評估、驗證SimPO的性能，研究團隊在多種模型的預訓練下進行了廣泛的比較實驗，涵蓋基礎模型和指令微調模型，例如，非常出名的Mistral系列和Llama3等。特別是在評估指標上，他們選取了AlpacaEval 2、MT-Bench以及最近推出的具有挑戰性的Arena-Hard基準測試。

結果顯示，無論是在哪項測試中，SimPO均展現出了優于DPO及同類技術的優化性能。在AlpacaEval 2上，SimPO的提升幅度最大可達6.4分，而在Arena-Hard上，這一數值更是達到了7.5分，充分證明算法的高效性。

超越DPO，創新大模型優化算法SimPO-AI.x社區

值得一提的是，基于Llama3-8B-Instruct構建的模型，在應用SimPO算法后，在AlpacaEval 2上的表現達到了驚人的44.7%的控制長度勝率，超越了排行榜上的Claude 3 Opus，同時在Arena-Hard上也取得了33.8%的勝率，成為高性能的80億參數開源大模型。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/pn9UQmdKWLWHszrfOUQW9w??

標簽

模型

算法

贊

回復

舉報

回復

相關推薦

今日arXiv最熱大模型論文：超越LoRA，北京大學提出預訓練模型非梯度優化法

pangguiyu ? 3327瀏覽 ? 0回復
直接偏好優化（DPO）簡介

AIGC最前線 ? 6828瀏覽 ? 0回復
LLM | SimPO：使用無參考獎勵的簡單偏好優化

sbf_2000 ? 5317瀏覽 ? 0回復
編碼大模型系列：Meta創新的“代碼編譯優化”的LLM

魯班模錘1 ? 4103瀏覽 ? 0回復
【創新一夏學習季】熱浪升溫，創新一夏，釋放開發潛能

AI.x社區官方賬號 ? 52.9w瀏覽 ? 39回復
大模型訓練核心算法之——反向傳播算法

AI探索時代 ? 3737瀏覽 ? 0回復
超越文本，GPT-4在虹膜生物識別的創新應用

Aceryt ? 2455瀏覽 ? 0回復
#AIGC創新先鋒者征文大賽# 部署 LLMs 前如何計算與優化 GPU 內存需求？

Baihai_IDP ? 2480瀏覽 ? 0回復
超越CLIP，視覺大模型訓練新范式？

kede96 ? 2371瀏覽 ? 0回復
ACL2024 |解釋引導的大語言模型主動蒸餾：一種優化知識轉移的創新框架 "ELAD"

arnoldzhw ? 3074瀏覽 ? 0回復
#AIGC創新先鋒者征文大賽# AIGC算法：自回歸神經網絡 (Autoregressive Networks)

魚弦CTO ? 2153瀏覽 ? 0回復
聊聊基于 Python 優化算法的創新預測模型

Tang_Lan ? 2058瀏覽 ? 0回復
當大模型也配備“秘書”：AssistRAG 的創新與應用

芝士AI吃魚 ? 2454瀏覽 ? 0回復
DeepSeek-V3 模型深度剖析：架構創新、訓練優化與性能卓越

AI論文解讀 ? 1.1w瀏覽 ? 0回復
從經典到創新，揭秘擴散模型的6大王牌與5大創新思路

智駐未來 ? 4289瀏覽 ? 0回復
機器學習|從0開始大模型之模型DPO訓練

周末程序猿 ? 2355瀏覽 ? 0回復
從大模型性能優化到DeepSeek部署

卓勝微wjp ? 5092瀏覽 ? 0回復
Muon優化器：AI模型訓練算法的下一個里程碑？| 目前還不是業界焦點，但有潛力是重大基礎創新

后向傳播 ? 1933瀏覽 ? 0回復
Muon優化器：AI模型訓練算法的下一個里程碑？| 目前還不是業界焦點，但有潛力是重大基礎創新

后向傳播 ? 1181瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

超越DPO，創新大模型優化算法SimPO

目錄