成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<code id="geqsw"></code><ul id="geqsw"><abbr id="geqsw"></abbr></ul><sup id="geqsw"><delect id="geqsw"></delect></sup>

<code id="geqsw"><source id="geqsw"></source></code>

<bdo id="geqsw"></bdo>

<button id="geqsw"><menu id="geqsw"></menu></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

關于生成式人工智能訓練的綜合指南原創

51CTO內容精選

發布于 2025-2-28 08:27

瀏覽

0收藏

本文講述LLM開發生命周期的詳細技術指南，涉及原始文本預訓練、指令調整及人類校準。

大語言模型（LLM）通過引入文本生成、摘要和會話式人工智能等高級應用程序，對自然語言處理（NLP）產生了影響。像ChatGPT這樣的模型使用一種叫做“Transformer”的特定神經結構來預測序列中的下一個單詞，通過自注意（Self-attention）機制從大量的文本數據集中學習。

本指南分解了訓練生成式人工智能模型的逐步建立過程，包括預訓練，微調，對齊和實際考慮因素。

訓練管道概述

關于生成式人工智能訓練的綜合指南-AI.x社區

圖1：LLM訓練管道概述

LLM的訓練管道是一個結構化的、多階段的過程，旨在提高語言理解、執行特定任務的能力，并與人類偏好保持一致。

數據收集和預處理。收集、清理、標記和規范化來自不同來源的大量文本數據，以確保質量。高質量、特定領域的數據提高了事實的準確性，減少了幻覺。
預訓練（Pre-training）。這是模型通過自監督學習——一種模型在不需要標記示例的情況下自學文本模式的技術——學習通用語言模式的基礎階段。以下一個令牌預測為例，這一階段依賴于大量數據集和Transformer架構來構建廣泛的語言能力。
指令微調。該模型在較小的、高質量的輸入-輸出數據集上進行訓練，以專注于特定的任務或領域。此指令調優步驟可確保輸出更準確且符合上下文。
模型對齊。基于人類反饋的強化學習（RLHF）改進了模型的行為：

a. 獎勵模型訓練。人類評估人員對輸出進行排序以訓練獎勵模型。

b. 策略優化。LLM需要迭代優化，以配合人類的偏好，道德考慮和用戶的期望。

評估和迭代微調。該模型在未見過的數據上進行測試，以評估準確性和一致性等指標。隨后可能會進一步微調，以調整超參數或合并新數據。
下游應用程序適應。通過額外的微調或與特定任務框架的集成，訓練有素的LLM可以適應現實世界的應用（例如，聊天機器人，內容生成）。

該管道將LLM從通用模型轉換為能夠有效處理各種任務的專用工具。

1.預訓練

預訓練是LLM開發的基礎階段，在這個階段，模型從大量的文本數據中學習通用的語言模式和表示。此階段教授模型語法規則、上下文單詞關系和基本邏輯模式（例如，文本中的因果關系），從而形成其執行各種下游任務的能力的基礎。

如何進行預訓練

關于生成式人工智能訓練的綜合指南-AI.x社區

圖2：預訓練階段的高級概述

目標

預訓練的主要目標是使模型能夠預測序列中的下一個標記。這是通過因果語言建模（CLM）實現的，這是一種教授模型預測句子中接下來會出現什么的方法。在這一步中，模型學習僅通過查看過去的標記來生成連貫且與上下文相關的文本。

數據集

預訓練需要大量不同的數據集，這些數據集來自書籍、文章、網站和其他公開可用的內容。流行的數據集包括Common Crawl、Wikipedia、The Pile和BookCorpus。這些數據集經常被清理和規范化，以確保在預處理期間使用重復數據刪除和標記化等技術進行高質量的輸入。長上下文數據被整理以增加模型的上下文長度。

預訓練過程

該模型通過因果語言建模來學習預測序列中的下一個標記。
使用交叉熵損失函數（Cross-entropy Loss Function）將模型預測與實際的下一個單詞進行比較。
模型參數不斷調整，以盡量減少預測誤差或損失，直到模型達到可接受的精度水平。
預訓練階段需要大量的計算資源，通常在分布式系統中使用數千小時的GPU來處理有效訓練所需的大量數據集。

這是一種自監督學習方法，模型直接從原始文本中學習模式，而不需要手動標記。因此，通過讓模型預測下一個標記來消除昂貴的人工注釋。

在下面的例子中，我們使用了一個GPT 2模型，該模型以一種自監督的方式在一個非常大的英語數據語料庫上進行了預訓練，沒有人以任何方式對它們進行標記。

Python 
1 import torch
2 from transformers import AutoModelForCausalLM, AutoTokenizer
3
4 # Load the model and tokenizer
5 model = AutoModelForCausalLM.from_pretrained("gpt2")
6 tokenizer = AutoTokenizer.from_pretrained("gpt2")
7
8 input_text = "The capital of France is"
9
10 # Tokenize the input text
11 model_inputs = tokenizer([input_text], return_tensors="pt")
12
13 # Run inference on the pretrained model and decode the output
14 generated_ids = model.generate(**model_inputs, max_new_tokens=25, do_sample=True)
15 print(tokenizer.batch_decode(generated_ids)[0])

正如預期的那樣，該模型能夠根據其預訓練迭代預測下一個標記來完成句子“法國首都是……”。

輸出：

The capital of France is the city of Paris which is more prosperous than the other capitals in .（法國的首都是巴黎，它比世界其他首都都繁華。）

然而，當以問題的形式表達時，例如，“法國的首都是什么？”模型無法產生正確的結果，因為在訓練的這個階段，它還不能遵循指令。

Python 
1 text2 = "What is the capital of France?"
2 
3 model_inputs = tokenizer([text2], return_tensors="pt")
4 generated_ids = model.generate(**model_inputs, max_new_tokens=25, do_sample=True)
5 print(tokenizer.batch_decode(generated_ids)[0])

輸出：

What is the capital of France? In our opinion we should be able to count the number of people in France today. The government has made this a big priority（法國的首都是哪里？在我們看來，我們應該能夠計算出今天法國的人數。政府已將此作為重中之重。）

預訓練的好處

廣泛的語言理解能力。通過在不同的數據上進行訓練，預訓練的模型可以全面掌握語言結構和模式，使它們能夠在各種任務中進行推廣。
效率。預訓練的模型可以用更小的標記數據集對特定任務進行微調，與為每個任務從頭開始訓練模型相比，節省了時間和資源。
性能。由于能夠利用大規模數據集的知識，經過預訓練然后進行微調的模型始終優于僅在特定任務數據上訓練的模型。

2. 指令微調

指令微調是一種專門的訓練技術，可將通用LLM轉換為響應靈敏的指令遵循系統。在這里，模型在特定的任務上訓練，比如回答問題或總結文本。通過在精心挑選的對（指令、輸出）上訓練模型，該方法將LLM的文本生成能力與人類定義的任務和會話模式相結合。

訓練（指令，輸出）樣本看起來像這樣：

Instruction: What is the capital of Germany?（指令：德國的首都是哪里？）

Response: The capital of Germany is Berlin.（輸出：德國的首都是柏林。）

關于生成式人工智能訓練的綜合指南-AI.x社區

圖3：指令微調階段概述

在下面的示例中，我們從谷歌加載Gemma 2 LLM模型，該模型針對各種文本生成任務（包括問答、摘要和推理）進行指令調優。

Python 
1 from transformers import AutoTokenizer, AutoModelForCausalLM
2 import torch
3
4 # Load Gemma 2 2b instruct model
5 tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b-it")
6 model = AutoModelForCausalLM.from_pretrained("google/gemma-2-2b-it")
7
8 # Tokenize input
9 input_text = "What is the capital of France?"
10 input_ids = tokenizer(input_text, return_tensors="pt")
11
12 # Run model inference and decode output
13 outputs = model.generate(**input_ids, max_new_tokens=25, do_sample=True)
14 print(tokenizer.decode(outputs[0]))

這個經過微調的模型能夠遵循以下指令：

What is the capital of France? The capital of France is Paris.（法國的首都是哪里？法國的首都是巴黎。）

如何進行指令微調

目標

指令微調通過教學模型來理解和遵循自然語言指令，彌合了LLM基本的下一個單詞預測能力和實際任務執行之間的關鍵缺口。這個過程將通用LLM轉換為響應式的、遵循指令的系統，這些系統始終遵循用戶命令，如“總結本文”或“為x編寫Python函數”。

監督式學習

與預訓練不同，預訓練在未標記的數據上使用自監督學習，而指令微調則使用帶有標記的指令輸出對進行監督學習。這個過程包括：

使用明確的指令-反應對進行訓練；
更新模型權重以優化后續指令；
在調整響應模式的同時維護模型的基礎知識。

數據集

該指令數據集由三個關鍵部分組成：

指令——自然語言命令或請求。
上下文——可選的上下文或示例。
輸出——顯示正確執行任務的期望響應。

Instruction: Find the solution to the quadratic equation.（指令：求二次方程的解。）

Context: 3x2 + 7x - 4 = 0（上下文：3x2+ 7x - 4 = 0）

Response: The solution of the quadratic equation is x = -4 and x = 1/3.（輸出：二次方程的解為x = -4, x = 1/3。）

這些數據集可以通過領域專家的手動管理、使用其他LLM的合成生成或將現有標記數據集轉換為指令格式來創建。

微調技術

以下兩種主要方法主導著指令微調：

全模型微調更新所有模型參數，以更高的計算要求為代價，為特定任務提供更好的性能。
輕量級適應方法（如LoRA）修改模型的一小部分，而不是重新訓練所有內容，從而顯著降低內存需求。

指令微調的好處

增強任務泛化。模型開發了元學習（Meta-learning）能力，在沒有特定訓練的情況下提高新任務的表現。
減少提示工程。經過微調的模型需要更少的提示示例，從而提高部署效率。
控制輸出：允許精確定制響應格式和樣式。
更好的指令遵循。在模型功能和用戶期望之間架起橋梁。

3. 對齊調優

對齊（Alignment）或偏好調優是訓練大語言模型（LLM）的關鍵階段，以確保模型避免有害或有偏差的響應。這一步超越了提高特定任務的性能——它的重點是通過結合人類反饋或預定義的指導方針，使模型更安全、更有幫助，并與用戶保持一致。

為什么對齊很重要

預訓練的LLM是在來自互聯網的大量數據集上進行訓練的，這些數據集可能包含偏見、有害內容或相互矛盾的信息。如果缺乏一致性，這些模型可能會給出令人反感和誤導的答案。對齊調優使用人工反饋來過濾有害輸出（例如，有偏見或危險的內容），以確保響應符合安全準則。

以下是OpenAI的GPT-4 系統卡（System Card）的一個示例，展示了未對齊的“GPT-4（早期）”模型所帶來的安全挑戰。

關于生成式人工智能訓練的綜合指南-AI.x社區

圖4：“GPT-4早期”模型的預校準版本的安全風險

GPT-4系統卡強調了使用RLHF對模型進行微調的重要性，以使模型響應與人類對有益和無害的偏好保持一致。它緩解了不安全的行為，并防止模型產生有害的內容和偏見。

對齊的關鍵方法

DPO論文中的下圖說明了最常用的對齊方法：

關于生成式人工智能訓練的綜合指南-AI.x社區

圖5:（左）RLHF工作流顯示了人類反饋集成。（右）DPO跳過獎勵建模來直接調整響應

基于人類反饋的強化學習（RLHF）

RLHF是一種機器學習技術，旨在使LLM與人類的價值觀、偏好和期望保持一致。通過將人類反饋納入訓練過程，RLHF增強了模型產生連貫、有用、合乎道德并與用戶意圖一致的輸出的能力。這種方法有助于ChatGPT和谷歌Gemini等生成模型更安全、更可靠。

RLHF過程包括三個主要步驟：

步驟?	描述?	結果?
人類反饋	注釋者根據相關性/倫理對輸出進行排序	偏好數據集創建
獎勵模型	被訓練來預測人類的偏好	質量評分系統
策略優化	通過強化學習進行微調的LLM（例如，PPO）	對齊響應生成

收集人類反饋。人類注釋者通過基于相關性、一致性和準確性等標準對模型生成的輸出進行排名或評分來評估它們。通常使用兩兩比較，注釋者在兩個選項中選擇更好的響應。這些反饋形成了反映人類判斷的“偏好數據集”。
訓練獎勵模型。使用偏好數據集訓練獎勵模型，以預測給定反應與人類偏好的一致程度。獎勵模型根據人類偏好為輸出分配一個標量獎勵分數（比如0到10），以訓練LLM優先考慮得分高的響應。
通過強化學習進行微調。LLM使用諸如近端策略優化（PPO）之類的強化學習算法進行微調，該算法教導人工智能逐步改進，而不是一次做出巨大的改變。獎勵模型通過對生成的輸出提供反饋來指導這一過程，使LLM能夠優化其策略，以產生高回報的響應。

直接偏好優化（DPO）

直接偏好優化（DPO）是一種新興的訓練方法，旨在使LLM與人類偏好保持一致。它是RLHF的一種更簡單、更有效的替代方案，繞過了復雜的強化學習算法，如近端策略優化（PPO）。相反，DPO通過直接訓練LLM對人類排名的反應來跳過獎勵建模。

首選項數據生成過程保持不變，如上面的RLHF方法所強調的那樣。DPO流程包括：

直接優化。與RLHF不同，RLHF訓練獎勵模型并使用強化學習，DPO直接微調LLM以產生與排名偏好最大一致的輸出。這是通過直接訓練模型來支持高排名的響應并避免低排名的響應來實現的。
模型訓練。優化過程調整模型的參數，以優先生成符合人類偏好的響應，而不需要像RLHF那樣迭代更新策略。

模型對齊已經成功地應用于下述領域：

會話式AI。使聊天機器人符合用戶對語氣、相關性和道德標準的期望。
內容生成?；谟脩舳x的質量指標，為諸如總結或創造性寫作之類的任務優化模型。
倫理人工智能發展。確保模型遵循公平性、安全性和包容性的指導方針，而不會產生大量的計算成本。

結語

本指南向你展示了LLM訓練的具體細節。你準備好開始了嗎？許多開源模型和數據集正在等待你進行實驗并調整它們以解決你的特定問題。

原文標題：??A Comprehensive Guide to Generative AI Training???，作者：??Vashishtha Patil??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

大語言模型

已于2025-2-28 08:32:41修改

贊

收藏

回復

舉報

回復

相關推薦

生成型人工智能優化框架研究

51CTO內容精選 ? 2817瀏覽 ? 0回復
守護生成式人工智能之門，規避人工智能進化中的安全挑戰

51CTO內容精選 ? 3116瀏覽 ? 0回復
打破壁壘：生成式人工智能如何重塑數據分析場景

51CTO內容精選 ? 2836瀏覽 ? 0回復
探索生成式人工智能的版權清算問題

51CTO內容精選 ? 2882瀏覽 ? 0回復
詳解生成式人工智能的開發過程

51CTO內容精選 ? 2735瀏覽 ? 0回復
Spring?AI：如何采用Java編寫生成式人工智能應用程序

51CTO內容精選 ? 3133瀏覽 ? 0回復
關于人工智能(大模型)泡沫即將破裂言論分析

AI探索時代 ? 2932瀏覽 ? 0回復
采用代碼聊天：理解代碼庫的對話式人工智能

51CTO內容精選 ? 2753瀏覽 ? 0回復
記一次關于人工智能應用方向的面試以及帶來的思考

AI探索時代 ? 2534瀏覽 ? 0回復
【值得收藏】生成式人工智能在搜索引擎優化（SEO）中的應用

Halo咯咯 ? 2533瀏覽 ? 0回復
關于戰略人工智能的深度綜述

51CTO內容精選 ? 2507瀏覽 ? 0回復
生成式人工智能如何改變軟件開發

51CTO內容精選 ? 2149瀏覽 ? 0回復
解釋生成式人工智能

lintoms ? 2007瀏覽 ? 0回復
生成式人工智能：2024年全面指南

sword_hero ? 8855瀏覽 ? 0回復
微軟研究人員發布 AIOpsLab：面向 AIOps 代理的開源綜合人工智能框架

Halo咯咯 ? 2316瀏覽 ? 0回復
如何為生成式人工智能應用構建堅實的數據基礎

51CTO內容精選 ? 2320瀏覽 ? 0回復
面向疾病管理的對話式人工智能 - Google研究院&DeepMind

知識圖譜科技 ? 1838瀏覽 ? 0回復
多模態生成式人工智能（Generative AI）：現狀、應用與未來！

Halo咯咯 ? 3190瀏覽 ? 0回復
關于工作流在人工智能領域內的應用分析

AI探索時代 ? 1186瀏覽 ? 0回復

51CTO內容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： 2025年2月五大優秀大語言模型

下一篇：如何安全地使用第三方應用程序訪問DeepSeek

社區精華內容

目錄

主站蜘蛛池模板：久久精品一区二区三区四区 | 激情久久网| 国产1区2区3区| 欧美日韩在线成人 | 精品欧美激情在线观看 | 国产区视频在线观看 | 国产黄色av网站 | 日本黄色一级片视频 | av影音资源 | 国产午夜在线 | 久久久国产精品网站 | 国产一区二区久久久 | 欧美一级电影免费 | 色视频网站免费 | 久久亚洲春色中文字幕久久久 | 黄色网址免费看 | 欧美日韩中文字幕在线 | 亚洲精品乱码久久久久久按摩观 | 亚洲成人av一区二区 | 精品久久久一区二区 | 中文成人在线 | 国产精品视频一区二区三区不卡 | 亚洲精品一二三区 | 国产一区二 | 亚洲成人一区二区三区 | 亚洲一区二区av | 亚洲精品99 | 狠狠干狠狠操 | 亚洲精品一区二区三区中文字幕 | 欧美日韩亚洲三区 | 国产精品视频久久久 | av天空 | 免费骚视频 | 国产精品一码二码三码在线 | 午夜在线 | 日韩在线精品 | www.久久久.com | 国产999精品久久久久久 | 日韩欧美国产一区二区 | 中文字幕欧美日韩 | 99精品视频免费观看 |

<s id="u6soy"></s>

<s id="u6soy"><tbody id="u6soy"></tbody></s>

<li id="u6soy"><menu id="u6soy"></menu></li><li id="u6soy"><menu id="u6soy"></menu></li>

<li id="u6soy"><optgroup id="u6soy"></optgroup></li>