AI界的新寵:揭秘Llama 3.1如何革新AI合成技術 精華
合成數據技術并不是創造全新的信息,而是通過轉換現有信息來生成不同的變體。在過去的十多年里,合成數據技術已被廣泛應用于提升各類模型的精確度——無論是通過變換圖像來優化物體檢測模型,還是加強信用卡欺詐檢測,亦或是提升BERT模型在自動問答方面的表現。
隨著大型語言模型(LLMs)的出現,生成合成數據的動力和技術都得到了極大的加強。各行各業的企業正在利用合成數據來微調基礎LLMs,以滿足各種應用場景的需求,比如:
- 金融領域改善風險評估
- 優化零售供應鏈
- 在電信領域提升客戶服務
- 在醫療保健領域提高病人護理水平。
編輯注:本文經翻譯并二次整理自Creating Synthetic Data Using Llama 3.1 405B一文。
利用LLM生成的合成數據來提升語言模型
在調整模型時,業界主要有兩種廣泛采用的方法——知識蒸餾和自我提升。
- 知識蒸餾是將一個大型模型的能力轉移到一個小型模型的過程。這不僅僅是讓兩個模型在相同的數據集上訓練,因為小型模型可能無法學習到底層數據最準確的表示。在這種情況下,我們可以使用大型模型來解決問題,然后用這些數據讓小型模型模仿大型模型的行為。
- 自我提升則是利用同一個模型來評估和改進自己的推理過程,這種方法通常用于進一步提升模型的能力。這兩種方法都可以利用Llama 405B模型來優化更小型的LLMs。
接下來,讓我們看看如何實現這一過程。訓練一個LLM通常包括三個步驟:預訓練、微調和校準。
- 預訓練:這一步驟涉及使用一個龐大的信息庫來訓練模型,使其了解語言的通用結構是如何組織的。對于通用的LLM,這通常是通過互聯網規模的數據來完成的;而對于特定領域的LLM,我們需要將該領域的具體情況融入其中(例如,針對幾何學、放射學或電信的LLM)。這被稱為領域自適應預訓練(DAPT)。在預訓練階段應用合成數據的另一個例子是Phi-1.5模型,該模型使用大型模型來合成數據,以便在預訓練階段培養邏輯推理能力。
- 微調:一旦模型經過通用語言結構的訓練,下一步就是對其進行微調,使其能夠遵循特定的指令。例如,提高模型在閱讀理解型問題、邏輯推理、代碼生成和函數調用方面的表現,都屬于這一類。Self-Instruct、WizardCoder、Alpaca等技術利用這些方法來創建特定任務的微調數據。你可以通過這個示例來了解更多關于策劃特定領域數據的信息。
- 校準:最后,我們需要確保LLM的響應風格和語調符合用戶的期望,比如聽起來更會話化,具有適當的詳細程度、復雜性、連貫性和其他用戶定義的屬性。這可以通過使用一個包含指令模型和獎勵模型的流程來實現。聊天模型會創建多個響應,然后獎勵模型會就響應的質量給出反饋。這種技術屬于人工智能反饋的強化學習(RLAIF)范疇。這個筆記本將指導你如何使用新的Llama 405B模型和NVIDIA 340B獎勵模型生成模型校準的合成數據。
合成數據評估RAG
由于合成數據的應用范圍非常廣泛,本文將以合成RAG檢索生成評估數據進行具體的案例說明。
檢索增強生成(RAG)結合了嵌入模型來檢索相關信息和LLM來生成答案。嵌入模型為文本的語義生成數學表示。我們可以使用LLMs來分析底層文檔并合成數據,用于評估和微調嵌入模型。
與RAG類似,任何代理流程都可以被評估,其組件模型也可以被微調。這可以通過構建LLM驅動的代理來進行模擬來實現。這些模擬還可以用來研究行為模式。此外,可以將角色引入LLMs以大規模生成特定任務的數據。
為了具體化上述討論,讓我們思考一下上述用例之一的基本流程——為檢索生成評估數據。跟隨這個筆記本。
策劃評估檢索流程的數據的主要挑戰包括:
- 多樣性:問題不應只關注信息的單一方面,或者只有提取性問題。
- 復雜性:生成的問題應該需要一些推理或多個證據片段來回答。
我們將專注于多樣性,但要探索復雜性——關鍵是找到有重疊信息的信息塊。找到重疊信息的幾種方法是計算句子級語義的Jaccard相似度和利用長上下文模型在來自同一文檔的塊之間繪制相關性。
多樣性來自于不同的觀點。例如,考慮以下段落:
GreenTech Inc.被SolarPower Corporation提議收購,是今年可再生能源領域最引人注目的交易之一。交易價值高達30億美元,旨在將GreenTech的尖端電池技術與SolarPower廣泛的太陽能電池板制造和分銷網絡相結合。預計的運營協同效應將在未來兩年內使生產成本降低20%,收入增加15%。然而,這筆交易因潛在的反壟斷問題而受到監管機構的嚴格審查。聯邦貿易委員會(FTC)已表示,這一合并可能會在可再生能源存儲市場形成壟斷,可能會抑制競爭和創新。
SolarPower已承諾保持GreenTech的研發中心作為一個獨立實體,以維護其創新文化,該中心擁有超過500名科學家和工程師。此外,所有現有雇傭合同都將得到尊重,從而緩解了潛在裁員的擔憂。合并協議還包括一項1.5億美元的分手費,如果SolarPower未能獲得必要的監管批準,將支付給GreenTech,從而減輕了交易失敗時GreenTech的財務風險。
協議還包括了詳細的陳述和保證,確保了財務報表的準確性、未披露負債的缺失以及遵守適用法律。它還包括一個全面的賠償流程,以保護雙方免受這些陳述和保證的潛在違反。SolarPower和GreenTech已同意在交易關閉前,未經SolarPower同意,GreenTech不得產生新債務、發行額外股份或大幅改變業務運營。這些承諾旨在保護GreenTech的價值,并確保交易完成后的平穩過渡。協議還概述了一個全面的盡職調查流程,包括對GreenTech知識產權組合的環境評估和審計,以確保在交易最終確定之前所有資產和負債都被準確核算。
歐盟委員會也在審查這一合并,以評估其對歐盟市場的影響,特別是關于競爭和市場主導地位。這一評估包括提交詳細的文件,包括市場分析、競爭影響評估和合并的經濟理由。審查過程要求兩家公司迅速回應詢問并提供全面文件。此外,為獲得批準,SolarPower和GreenTech可能需要做出讓步,例如剝離某些業務單位或資產,以減輕對競爭減少的擔憂。確保遵守歐盟合并法規不僅涉及解決競爭問題,還要確保合并符合歐盟關于市場公平和消費者保護的更廣泛政策。
一個金融分析師可能對這兩家公司合并前后的財務表現感興趣。法律專家可能對公司面臨FTC、歐盟和其他方面的法律審查感興趣。而記者可能想要理解主要的觀點。
所有這些都是有效的視角和用戶角色,由于他們用不同的觀點來處理相同的信息,評估流程也需要適應這些不同的觀點。因此,讓我們設計一個流程,它接受文檔和角色,然后以角色會問的語調輸出問題。
生成合成數據
圖1. 一個高層次的三步流程,用于為檢索評估生成合成數據的概述
從概念上講,這個流程包含三個主要步驟,如圖1所示。
- 第一步:為角色生成所有可能感興趣的問題。
- 第二步:過濾所有生成的問題。
- 第三步:引入角色的寫作風格。
第一步:問題生成
在深入探討問題生成之前,我們首先要閱讀文檔并從中提煉出關鍵信息。在接下來的討論中,我們將以圖1作為參考文本。
探討生成問題第一步的深入分析
用戶畫像是對可能提出問題的用戶特征的描述。以下是一些示例:
- 用戶畫像1Joan是一位資深的金融分析師,擅長運用計量經濟學來提出投資策略。他通常有一支分析師團隊提供信息支持,因此可能對細節不太熟悉,可能會提出一些含糊的問題。但他對相關主題有深入的了解。
- 用戶畫像2Padma是一位經驗豐富的企業訴訟律師,擅長處理大型公司的復雜法律案件。她以直接、細致的方式處理問題,以敏銳的分析能力和對細節的關注而聞名。
- 用戶畫像3Aaron是一位新聞專業的學生,對英語不夠熟練,可能不會深入挖掘材料的深層含義。他有時會夸大事實以吸引注意。
在理解了文檔內容后,大型語言模型(LLM)會根據每個用戶畫像從文本中提取關鍵點。不同的用戶畫像可能對相同的信息點感興趣,因此我們使用嵌入模型進行語義去重,以找出文本中不同的有趣信息。
多樣性的另一個方面是問題的類型。我們需要提出包括提取性、抽象性、比較性等不同類型的問題,而不僅僅是簡單的“如何/什么”問題。為此,下一步是確定每種信息點適用的問題類型。
最后,基于文本塊、興趣點和問題類型,我們生成所有可能的問題。通過使用用戶畫像和問題類型來指導問題生成,開發人員可以引導生成的問題更貼近用戶實際會問的問題。
示例興趣點和問題類型:
- 反壟斷法規審查:抽象性、診斷性問題
- 運營協同效應:提取性、抽象性問題
- 創新保護:提取性、抽象性、診斷性問題
- 歐盟并購法規:抽象性、診斷性、提取性、聚合性問題
示例問題:
- SolarPower公司和GreenTech公司的合并可能帶來哪些潛在風險,他們打算如何應對?
- 歐盟委員會審查合并時會關注哪些條款,兩家公司可能需要做出哪些調整以獲得批準?
- 通過合并,SolarPower和GreenTech希望實現哪些戰略目標,他們計劃如何整合業務以實現這些目標?
- SolarPower公司收購GreenTech公司的三大好處是什么,它們與公司的運營和財務有何關聯?
- 目前有多少監管機構在審查這次合并,他們主要關注哪些問題?
- 為了獲得歐盟委員會對合并的批準,SolarPower公司和GreenTech公司可能需要做出哪些讓步,這些讓步會如何影響公司的運營和市場地位?
- FTC對SolarPower公司收購GreenTech公司的主要擔憂是什么,這可能對可再生能源存儲市場產生什么影響?
第二步:問題篩選
生成問題后,我們需要篩選出最有價值的問題子集。首先是去重,因為不同的信息點可能會產生相似的問題。
然后,我們用LLM作為評判標準,確定問題與原文的相關性,確保問題可以根據文中信息得到完整回答。接下來,我們將所有相關的問題改寫成對話式的語氣。最后,我們還會篩選掉那些可能過于籠統的問題。
深入分析第二步:問題篩選
第三步:賦予用戶畫像風格
在前兩步中,我們已經創建并篩選了多樣化的問題。最后一步是將問題改寫成符合各個用戶畫像的風格。
深入分析第二步的一部分:生成句法變體
使用LLM,我們首先根據用戶畫像描述確定他們的寫作風格。然后,根據這些風格,對問題進行重寫。
寫作風格示例:
Padma的風格清晰、精確,正式而直接。她用簡單明了的語言傳達復雜概念,句子結構嚴謹,邏輯清晰,反映出她細致的分析能力和對細節的關注。她避免使用情感化的語言、個人意見或修辭手法,專注于以清晰客觀的方式呈現事實和論據。她的文字明確無誤,每個論點都有充分的證據和邏輯支持。整體語調專業權威,能夠贏得讀者的尊重和注意。雖然她的寫作可能不具備創意上的吸引力或說服力,但在企業訴訟領域傳達信息和實現目標方面非常有效。
Aaron的風格通常較為膚淺,缺乏深度和分析,句子簡短,反映出他對英語的掌握有限。盡管他努力避免錯誤,但語法、句法和詞匯選擇上的錯誤仍然常見。為了彌補自信不足,Aaron經常夸大事實,以吸引注意。他的語調猶豫不決,給人一種不確定的感覺??偟膩碚f,Aaron的寫作風格更像是小報記者,而不是嚴肅的新聞記者。
通過這個三步流程,我們得到了如下問題:
- 在當前的監管框架下,提議的合并可能需要遵循哪些額外的政策指令以獲得相關當局的批準?
- 目前,SolarPower和GreenTech的合并有哪些具體方面正在接受監管當局的審查?
- 如果研發中心在大型收購后保持獨立,GreenTech的專家們是否會被解雇?
這些問題都有針對其特定文本塊的隱含真實標簽,因此可以用于評估各種檢索管道。如果您對細節感興趣或想了解如何改進和定制此管道以適應您的用例,請參閱這個Jupyter Notebook。
要點
合成數據生成是企業為其特定領域的生成性AI應用程序提供動力的關鍵工作流程。新的Llama 3.1 405B模型與NVIDIA Nemotron-4 340B獎勵模型結合使用,生成合成數據,幫助企業構建更準確、特定領域的定制模型。
RAG管道對于LLM生成基于最新信息的有根據的響應至關重要,這些響應的準確性取決于管道的質量。上述描述的合成數據生成工作流程可以幫助企業評估RAG。
本文轉載自??AI小智??,作者: AI小智
