成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

羊駝進化成鯨魚,Meta把對齊「自動化」,Humpback擊敗現有全部LLaMa模型

人工智能 新聞
本文來自 Meta AI 的研究者提出了一種可擴展的方法即指令回譯(instruction backtranslation),該方法通過自動注釋相應的指令來構建高質量的指令跟隨語言模型。

這一年來,以 ChatGPT 和 GPT-4 為代表的大語言模型(LLM)發展迅速,緊隨其后,Meta 開源的 LLaMa、Llama 2 系列模型在 AI 界也引起的了不小的轟動。但隨之而來的是爭議不斷,有人認為 LLM 存在一些不可控的風險,給人類生存構成一些潛在威脅。

為了應對這些挑戰,對 LLM 對齊的研究變得越來越重要,有研究者提出指令跟隨(instruction following),但這種方法需要大量的人工注釋。然而,注釋如此高質量的指令跟隨數據集耗費巨大。

本文來自 Meta AI 的研究者提出了一種可擴展的方法即指令回譯(instruction backtranslation),該方法通過自動注釋相應的指令來構建高質量的指令跟隨語言模型。

圖片

論文地址:https://arxiv.org/pdf/2308.06259.pdf

具體而言,該研究從一個語言模型開始,并作為種子模型,該模型在少量的種子數據以及 web 語料庫上進行了微調。種子模型的作用是用來構建訓練樣本,然后這些樣本中的一些高質量樣本將會被篩選出來,接著,這些數據被用來微調一個更強大的模型。

經過兩輪迭代的數據集對 LLaMa 進行微調,所產生的模型 Humpback 在 Alpaca 排行榜上優于其他現有的非蒸餾模型,如 LIMA、Claude、Guanaco 等。

Humpback 原意為座頭鯨,又名駝背鯨,Meta 將模型命名為 Humpback,也別有深意吧。

圖片

之所以稱為指令回譯,研究者表示這借鑒了機器翻譯中經典的反向翻譯方法,其中人類編寫的目標句子會自動用模型生成的另一種語言的源句子進行注釋。

圖靈獎得主 Yann LeCun 高度概括了這項研究的方法,并稱贊 Meta 這項工作為對齊研究做出重要貢獻:

圖片

還有網友對這項研究進行了很好的概括:數據質量對大模型來說確實很重要,研究過程中,他們使用不同級別的過濾數據,微調了一個模型,結果表明,只有最好的樣本才能得出比其他樣本表現更好的模型。

該論文提出了一種需要兩個步驟完成的新的數據增強范式。首先,必須擁有一組種子(指令、輸出)對和語料庫才能生成更多好的指令數據。

圖片

下圖比較了 Humpback 與一些開源模型和專有模型。

圖片

下表 4 表明,本文方法在 65B 和 33B 模型尺度上都是非蒸餾模型中表現最好的模型。

圖片

下面我們看看具體方法。

方法簡介

該研究提出了一種自訓練方法(self-training),該方法通常假定可以訪問基本語言模型、少量種子數據和未標記的樣本集(例如網絡語料庫)。未標記數據往往是一大堆形態各異的文檔,由人類編寫,其中包括人類感興趣的各種話題內容,但最重要的是沒有與指令進行配對。

這里還有兩個關鍵的假設,第一個假設是這個非常大的文本集(未標記樣本集)存在一些子集,適合作為某些用戶指令的生成樣本。第二個假設是可以預測這些候選答案的指令,這些指令可以用于形成高質量樣本對,以訓練指令遵循模型。

如下圖 1 所示,該研究提出指令回譯過程包含兩個核心步驟: 

  • 自增強:為未標記的數據(即網絡語料庫)生成指令,以為指令調優產生訓練數據對(指令 - 輸出)。
  • 自管理:自主選擇高質量樣本數據作為訓練數據,以微調基礎模型來遵循指令,這種方法是迭代完成的。

圖片

其中,自管理步驟采用的 prompt 如下表 1 所示:

圖片

實驗及結果

本文的數據集主要包括種子數據和增強數據,具體信息如表 2 和圖 2 所示:

圖片

圖片

圖 3 表示盡管擴大了數據規模,但沒有自我管理(self-curation)的增強數據用來訓練模型并不能提高指令跟隨性能。

圖片

下圖比較了不同指令調優數據集的數據效率。

圖片

數據和模型的聯合擴展:該研究發現在 7B 模型中觀察到的數據擴展趨勢同樣也適用于更大的模型。例如對 65B 的種子模型增加高質量的增強數據會帶來進一步的改進。

圖片

常識推理:該研究在五個常識推理基準上進行了測試,SIQA 、PIQA、Arc-Easy、Arc-Challenge 和 Openbook QA (OBQA) , 結果總結于表 5 中。結果表明,與基礎模型相比,本文模型在社會推理等多個方面的表現有所提高。

圖片

MMLU:表 6 總結了不同模型在 MMLU(massive multitask language understanding)的結果。與基礎模型相比,本文微調模型提高了零樣本準確率,但在 5 個樣本上下文示例中表現不佳。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-21 11:29:50

智能數據

2023-07-25 14:08:41

羊駝模型

2023-08-24 15:57:41

模型文檔檢索

2023-05-22 09:28:30

模型AI

2024-09-26 14:40:45

2024-05-27 09:01:42

Llama 3大型語言模型人工智能

2023-04-21 10:14:22

開源AI

2024-01-02 06:30:58

ChatGPTGPT-3.5

2024-07-31 15:38:00

2023-12-03 08:46:20

模型開源

2023-10-09 12:36:58

2023-06-28 18:10:27

羊駝家族大模型集體進化

2024-01-22 08:50:00

AI訓練

2023-12-05 12:50:14

GPT-4DeepMind

2023-05-15 09:39:37

2017-12-17 21:58:18

2023-09-01 09:21:03

Python自動化測試

2009-12-23 16:27:49

WPF UI自動化模型

2013-06-17 14:46:09

2024-07-24 13:18:17

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品在线观看免费 | 欧美激情久久久 | 亚洲成人精品一区二区 | 亚州成人 | 免费观看一级毛片 | 成人一区二区三区在线观看 | 日韩成人一区 | 国产精品日本一区二区在线播放 | 国产精品成人一区二区三区 | 国产在线视频在线观看 | 精品日韩一区二区 | 国产一级电影在线观看 | 久久高清| 97在线观视频免费观看 | 黄色精品| 9久久精品 | 国产精品人人做人人爽 | 999热视频 | 成人在线视频一区 | 国产我和子的乱视频网站 | 国产女人叫床高潮大片免费 | 人人做人人澡人人爽欧美 | 成人午夜免费视频 | 婷婷在线视频 | 91伊人网 | 久在线观看| 亚洲精品一级 | 国产成人一区二区三区 | 欧美一级欧美一级在线播放 | 亚洲97| 一区二区在线观看免费视频 | 亚洲不卡在线观看 | 久久久妇女国产精品影视 | 97视频网站 | 天天天天天天天干 | 狠狠艹 | 91资源在线 | 国产激情 | 丝袜毛片 | 亚洲欧美一区二区三区视频 | 亚洲视频一区 |