羊駝進化成鯨魚，Meta把對齊「自動化」，Humpback擊敗現有全部LLaMa模型

作者：機器之心 2023-08-15 14:05:27

本文來自 Meta AI 的研究者提出了一種可擴展的方法即指令回譯（instruction backtranslation），該方法通過自動注釋相應的指令來構建高質量的指令跟隨語言模型。

這一年來，以 ChatGPT 和 GPT-4 為代表的大語言模型（LLM）發展迅速，緊隨其后，Meta 開源的 LLaMa、Llama 2 系列模型在 AI 界也引起的了不小的轟動。但隨之而來的是爭議不斷，有人認為 LLM 存在一些不可控的風險，給人類生存構成一些潛在威脅。

為了應對這些挑戰，對 LLM 對齊的研究變得越來越重要，有研究者提出指令跟隨（instruction following），但這種方法需要大量的人工注釋。然而，注釋如此高質量的指令跟隨數據集耗費巨大。

本文來自 Meta AI 的研究者提出了一種可擴展的方法即指令回譯（instruction backtranslation），該方法通過自動注釋相應的指令來構建高質量的指令跟隨語言模型。

論文地址：https://arxiv.org/pdf/2308.06259.pdf

具體而言，該研究從一個語言模型開始，并作為種子模型，該模型在少量的種子數據以及 web 語料庫上進行了微調。種子模型的作用是用來構建訓練樣本，然后這些樣本中的一些高質量樣本將會被篩選出來，接著，這些數據被用來微調一個更強大的模型。

經過兩輪迭代的數據集對 LLaMa 進行微調，所產生的模型 Humpback 在 Alpaca 排行榜上優于其他現有的非蒸餾模型，如 LIMA、Claude、Guanaco 等。

Humpback 原意為座頭鯨，又名駝背鯨，Meta 將模型命名為 Humpback，也別有深意吧。

之所以稱為指令回譯，研究者表示這借鑒了機器翻譯中經典的反向翻譯方法，其中人類編寫的目標句子會自動用模型生成的另一種語言的源句子進行注釋。

圖靈獎得主 Yann LeCun 高度概括了這項研究的方法，并稱贊 Meta 這項工作為對齊研究做出重要貢獻：

還有網友對這項研究進行了很好的概括：數據質量對大模型來說確實很重要，研究過程中，他們使用不同級別的過濾數據，微調了一個模型，結果表明，只有最好的樣本才能得出比其他樣本表現更好的模型。

該論文提出了一種需要兩個步驟完成的新的數據增強范式。首先，必須擁有一組種子（指令、輸出）對和語料庫才能生成更多好的指令數據。

下圖比較了 Humpback 與一些開源模型和專有模型。

下表 4 表明，本文方法在 65B 和 33B 模型尺度上都是非蒸餾模型中表現最好的模型。

下面我們看看具體方法。

該研究提出了一種自訓練方法（self-training），該方法通常假定可以訪問基本語言模型、少量種子數據和未標記的樣本集（例如網絡語料庫）。未標記數據往往是一大堆形態各異的文檔，由人類編寫，其中包括人類感興趣的各種話題內容，但最重要的是沒有與指令進行配對。

這里還有兩個關鍵的假設，第一個假設是這個非常大的文本集（未標記樣本集）存在一些子集，適合作為某些用戶指令的生成樣本。第二個假設是可以預測這些候選答案的指令，這些指令可以用于形成高質量樣本對，以訓練指令遵循模型。

如下圖 1 所示，該研究提出指令回譯過程包含兩個核心步驟：

其中，自管理步驟采用的 prompt 如下表 1 所示：

本文的數據集主要包括種子數據和增強數據，具體信息如表 2 和圖 2 所示：

圖 3 表示盡管擴大了數據規模，但沒有自我管理（self-curation）的增強數據用來訓練模型并不能提高指令跟隨性能。

下圖比較了不同指令調優數據集的數據效率。

數據和模型的聯合擴展：該研究發現在 7B 模型中觀察到的數據擴展趨勢同樣也適用于更大的模型。例如對 65B 的種子模型增加高質量的增強數據會帶來進一步的改進。

常識推理：該研究在五個常識推理基準上進行了測試，SIQA 、PIQA、Arc-Easy、Arc-Challenge 和 Openbook QA （OBQA），結果總結于表 5 中。結果表明，與基礎模型相比，本文模型在社會推理等多個方面的表現有所提高。

MMLU：表 6 總結了不同模型在 MMLU（massive multitask language understanding）的結果。與基礎模型相比，本文微調模型提高了零樣本準確率，但在 5 個樣本上下文示例中表現不佳。

責任編輯：張燕妮來源：機器之心

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看