成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="bz3pb"><dl id="bz3pb"></dl></button>

<abbr id="bz3pb"></abbr>

<bdo id="bz3pb"><source id="bz3pb"></source></bdo>

<rt id="bz3pb"><delect id="bz3pb"></delect></rt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LLM對齊數(shù)據(jù)全自動合成！UW華人博士生提出Magpie方法，Macbook Air即可運行

作者：機器之心 2024-07-26 11:45:35

人工智能新聞

華盛頓大學(xué)和Allen AI最近發(fā)表的論文提出了一種新穎有趣的數(shù)據(jù)合成方法。他們發(fā)現(xiàn)，充分利用LLM的自回歸特性，可以引導(dǎo)模型自動生成高質(zhì)量的指令微調(diào)數(shù)據(jù)。

數(shù)據(jù)對LLM訓(xùn)練而言是至關(guān)重要的存在，但我們的關(guān)注點往往放在訓(xùn)練和評估數(shù)據(jù)，而會忽略微調(diào)數(shù)據(jù)。

比如Llama系列模型，雖然開放了權(quán)重（如Llama-3-Instruct），但微調(diào)數(shù)據(jù)集依舊是私有的。

LLM的成功有很大一部分取決于指令微調(diào)（instruction fine-tuning），這個過程能讓模型更好地泛化到訓(xùn)練過程中沒有接觸過的任務(wù)。

正如訓(xùn)練的有效性依賴于訓(xùn)練語料的質(zhì)量，指令微調(diào)的有效性也取決于能否獲得高質(zhì)量的指令數(shù)據(jù)集。

然而，相比于無標注的自監(jiān)督訓(xùn)練語料，高質(zhì)量微調(diào)和對齊數(shù)據(jù)集更加難以構(gòu)建、擴展，因為需要更多人工標注，而且存在預(yù)先定義的提示范圍。

就連專門為AI科技巨頭提供數(shù)據(jù)的公司Scale AI，在目前階段都無法實現(xiàn)自動化標注，甚至得高薪聘請專業(yè)人士參與微調(diào)和對齊數(shù)據(jù)集的構(gòu)建。

Scale AI的CEO Alexandr Wang曾表示，LLM合成數(shù)據(jù)是一個很有前景的解決方案。

最近，華盛頓大學(xué)和研究機構(gòu)Allen AI聯(lián)合發(fā)表的一篇論文就專注于如何讓對齊過的LLM合成高質(zhì)量的微調(diào)數(shù)據(jù)。

論文地址：https://arxiv.org/abs/2406.08464

論文提出的方法實現(xiàn)了全流程的自動化，不需要任何種子問題。更為驚艷的是，代碼不僅能在本地運行，而且用LLM自動生成了非常可靠的高質(zhì)量數(shù)據(jù)。

他們用Llama-3-8B的Base模型在自己生成的SFT數(shù)據(jù)集上微調(diào)后，得到了比官方微調(diào)版本Llama-3-Instruct性能更強的模型。

論文得到了AI圈大佬Sebastian Raschka的轉(zhuǎn)發(fā)背書。

起初，他也不相信這種方法真的能夠在MacBook Air上本地運行，但親自嘗試后驚喜地發(fā)現(xiàn)，真的可以。

Raschka是多本技術(shù)暢銷書的作者，包括《從頭開始構(gòu)建大語言模型》、《Python機器學(xué)習(xí)》等，他目前擔(dān)任Lightning AI的研究工程師。

論文的第一作者Zhangchen Xu是華盛頓大學(xué)網(wǎng)絡(luò)安全實驗室的二年級博士生，師從Radha Poovendran教授，研究興趣是機器學(xué)習(xí)的安全性、隱私性和公平性，目前關(guān)注如何構(gòu)建可信LLM。

那就讓我們仔細探究一下，這種高效的數(shù)據(jù)合成方法究竟如何實現(xiàn)。

方法概述

典型的LLM輸入一般由3個部分組成：

- 查詢前模版（pre-query template）

- 查詢內(nèi)容（query）

- 查詢后模版（post-query template）

其中的兩個模版一般由模型開發(fā)者預(yù)先定義，以保證正確地提示模型。

比如Llama-2-chat的輸入形式就是:

[INST] Hi! [/INST]

在之前的研究中，通常有兩種方法構(gòu)建微調(diào)數(shù)據(jù)集。一是直接讓人類手動制作，顯然既耗時間又耗資源。二是從少量人工注釋的種子指令開始，通過提示調(diào)用LLM以合成更多指令。

第二種方法雖然節(jié)省人力，但非?？简炋崾竟こ痰乃?，以及對初始種子問題的選擇。換言之，很難實現(xiàn)可控的大規(guī)模擴展。

更為致命的問題是，合成的指令往往與種子指令十分接近，這會嚴重影響大規(guī)模數(shù)據(jù)集的多樣性。用可擴展的方式，創(chuàng)建高質(zhì)量且多樣化的指令數(shù)據(jù)集，依舊是LLM領(lǐng)域具有挑戰(zhàn)性的問題。

但作者在早期實驗中的有一個有趣的發(fā)現(xiàn)：由于LLM的自回歸特性，只輸入查詢前模版時，模型會自動合成查詢，而且從內(nèi)容來看，似乎有不錯的質(zhì)量和多樣性。這表明它能夠有效利用對齊過程中學(xué)習(xí)到的能力。

以此為啟發(fā)，作者提出如下思路構(gòu)建指令數(shù)據(jù)集：使用查詢前模版作為提示，輸入給對齊過的LLM，自動生成指令數(shù)據(jù)。

如下圖所示，每個指令數(shù)據(jù)實例包含一個或多個指令-響應(yīng)對（instructon-response pair），且會規(guī)定指令提供者（provider）與遵循者（follower）的角色。

圖1描述了整個數(shù)據(jù)自動生成的pipeline，大體分為兩個步驟。

首先是指令生成。MAGPIE方法將查詢內(nèi)容構(gòu)建為LLM預(yù)定義指令模版的格式，但只包含指令提供者（如user），不包含具體的指令內(nèi)容。

以此作為LLM輸入，模型就會以自回歸的方式生成指令。由于不需要特定的提示工程技巧，也沒有使用任何種子問題，這個流程確保了生成指令的多樣性。

第二步驟中，MAGPIE將之前生成的指令再輸入給LLM，得到響應(yīng)內(nèi)容。

將以上兩個步驟進行重復(fù)迭代，就能夠得到多輪的指令數(shù)據(jù)。如果想針對某個特定領(lǐng)域生成數(shù)據(jù)，加上相應(yīng)的提示即可實現(xiàn)。

得到原始的生成結(jié)果后，作者還根據(jù)文本長度、任務(wù)類別、輸入質(zhì)量、輸入難度等指標進行了過濾。

論文分別使用Llama-3-8B-Instruct和Llama-3-70B-Instruct兩個模型，構(gòu)建了兩個數(shù)據(jù)集MAGPIE-Air和MAGPIE-Pro，并在附錄中給出了生成指令的示例：

可以看到，文本質(zhì)量的確不錯，完全可以與人類撰寫的指令水平相當。

然而，想評估如此龐大規(guī)模數(shù)據(jù)的質(zhì)量不能只依靠主觀感受，于是作者對生成的指令數(shù)據(jù)集MAGPIE-Pro進行了定量分析。

數(shù)據(jù)集分析

覆蓋度

要考量指令文本的多樣化程度，一個有效指標是文本嵌入的在語義空間中的覆蓋范圍。

作者從MAGPIE-Pro中隨機采樣指令文本，編碼為嵌入向量并用t-SNE方法投影到二維空間，同時采用三個基線數(shù)據(jù)集作為對比，包括Alpaca、Evol Instruct和UltraChat。

下圖中的每個t-SNE投影點都代表隨機抽取的1萬條指令?？梢钥吹?，MAGPIE-Pro的投影基本將其他三個數(shù)據(jù)集的范圍囊括在內(nèi)，這表明它提供了更廣泛、多樣化的主題。

指令屬性

論文使用Llama-3-8B-Instruct模型評估MAGPIE指令數(shù)據(jù)的各種屬性，比如指令的任務(wù)類別、質(zhì)量、難度、相似性和響應(yīng)質(zhì)量。

生成指令的任務(wù)類別主要是信息檢索，占比超過一半，也包括創(chuàng)意性寫作、尋求建議、規(guī)劃、數(shù)學(xué)、推理、頭腦風(fēng)暴編輯等等，與人類用戶的主流需求基本一致。

指令的質(zhì)量和難度同樣使用Llama-3-8B-Instruct模型進行自動評估。

可以看到兩個數(shù)據(jù)集中，大部分實例都被判定為平均水平及以上，MAGPIE-Pro的總體質(zhì)量優(yōu)于MAGPIE-Air。

數(shù)據(jù)集指令難度的分布基本類似，超過60%集中在「簡單」級別，且Pro數(shù)據(jù)集比Air略具挑戰(zhàn)性。

通過計算指令相似度，可以從另一個側(cè)面評估多樣化程度。論文使用FAISS搜索每個文本嵌入的最近鄰居并計算二者間距離，來衡量相似程度。

響應(yīng)質(zhì)量方面，采用FsfairX-LLaMA3-RM-v0.1作為獎勵評估模型，同時以URIAL作為對比的基線模型。獎勵差異為正值表示質(zhì)量較高，有利于指令微調(diào)過程。

圖5b可以看到，MAGPIE的數(shù)據(jù)分布相比基線模型整體右移且峰值更低，表明整體上響應(yīng)質(zhì)量更好。

安全性

此外，在指令安全性方面，作者采用Llama-guard-2進行自動評估，發(fā)現(xiàn)MAGPIE的數(shù)據(jù)集絕大部分是安全的，但仍然包含了不到1%的有害指令或響應(yīng)結(jié)果。

結(jié)果評估

這項研究最大的亮點之一在于高效的運行成本，以及完全自動化、無需任何人工干預(yù)的pipeline。

在創(chuàng)建3M MAGPIE-Air數(shù)據(jù)集時，用4塊A100 GPU運行1.55小時/50小時即可完成指令/響應(yīng)的生成。生成1M MAGPIE-Pro數(shù)據(jù)集則分別需要3.5小時/150小時。

如果在云服務(wù)器上運行，成本也非常可觀。每生成1k個實例花費為0.12美元或1.10美元，具體取決于是Air或Pro數(shù)據(jù)集。

為了真正體現(xiàn)MAGPIE方法的優(yōu)勢，論文將數(shù)據(jù)集真正運用到基座模型的微調(diào)中，與官方發(fā)布的微調(diào)版本進行對比。

作者選擇了ShareGPT、Evol Instruct等6個最先進的開源指令微調(diào)數(shù)據(jù)集作為基線。其中ShareGPT和WildChat由人類撰寫，Evol Instruct和UltraChat為合成數(shù)據(jù)集。

微調(diào)的基座模型包括Llama-3和Qwen-1.5，并選取AlpacaEval和Arena-Hard兩個廣泛采用的指標評估性能。

從兩個表格的詳細數(shù)據(jù)對比中可以發(fā)現(xiàn)，無論在哪個基座模型上，MAGPIE方法生成的數(shù)據(jù)集都有更高質(zhì)量，優(yōu)于所有的基線數(shù)據(jù)集，并且在絕大部分指標上優(yōu)于官方發(fā)布的微調(diào)模型。

在LLM的scaling law逐漸觸摸到數(shù)據(jù)墻時，這篇論文的方法為合成數(shù)據(jù)又打開了一扇希望之門?；蛟S使用精心設(shè)計的算法與技巧，LLM合成數(shù)據(jù)能逐漸成為公開數(shù)據(jù)集的「中流砥柱」。

責(zé)任編輯：張燕妮來源：機器之心

AI 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：国产极品车模吞精高潮呻吟 | 国产精品久久久久久久7电影 | 懂色中文一区二区三区在线视频 | 一级欧美日韩 | 亚洲视频在线观看 | 亚洲一二三在线观看 | 久久综合欧美 | jlzzjlzz国产精品久久 | 99re在线视频观看 | 色999视频| 日韩在线免费视频 | 日本一道本 | 97色伦网| 精品欧美一区二区三区久久久 | 日本一卡精品视频免费 | 国产网站久久 | 中文字幕在线观看av | 黄色在线观看国产 | 天堂资源最新在线 | 亚洲第一天堂无码专区 | 男人阁久久 | 七七婷婷婷婷精品国产 | 色婷婷影院 | 99精品视频一区二区三区 | 成人在线视频免费观看 | 国产精品日女人 | 龙珠z在线观看 | 国产精品视频不卡 | 午夜精品在线观看 | 亚洲视频在线免费观看 | 色妞av| 国产成人精品一区二 | 国产一级一片免费播放 | avmans最新导航地址 | 81精品国产乱码久久久久久 | 国产精品a久久久久 | 日韩在线一区二区三区 | 精品人伦一区二区三区蜜桃网站 | 欧美一区成人 | 成人精品在线视频 | 亚洲精品色 |

<abbr id="ayokc"></abbr>

<bdo id="ayokc"><source id="ayokc"></source></bdo>

<rt id="ayokc"><tr id="ayokc"></tr></rt>

<rt id="ayokc"></rt>

<rt id="ayokc"></rt>

<tfoot id="ayokc"><delect id="ayokc"></delect></tfoot>

<rt id="ayokc"><delect id="ayokc"></delect></rt>

<li id="ayokc"><source id="ayokc"></source></li>