成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

入門與 Follow GPT 的路徑分析：LLM 道阻且長，行則將至

作者：李俊毅 2023-05-12 14:36:35

本文試圖從技術角度，借助 GPT 的公開資料，解讀如何入門 GPT 以及相關大語言模型，形成自己對問題的認知體系，加速對新知識的吸收和理解；并基于此討論 LLM 的使用，以及帶來的在產學研以及個人上帶來的影響；最后提出需要關注的幾個要點。

作為 CEO，Sam 將 OpenAI 的內部氛圍組織的很好，有位 OpenAI 的前員工告訴拾象團隊，當 2018 年 GPT-2 的論文被駁回時，Sam 在團隊周會上將拒信的內容朗讀給所有員工，并告訴大家在通往成功的路上總會有阻礙，但是大家一定要有信念。
本文試圖從技術角度，借助 GPT 的公開資料，解讀如何入門 GPT 以及相關大語言模型，形成自己對問題的認知體系，加速對新知識的吸收和理解； 并基于此討論 LLM 的使用，以及帶來的在產學研以及個人上帶來的影響；最后提出需要關注的幾個要點。

前言

基于當前 GPT-4 的已公開能力，以及 OpenAI 內部的一些消息，GPT-5 的能力會更加強大，但考慮到后續其他生態的配套等發展，下次發布可能會等生態的逐步完善和發展，而這個時候有可能會像 iphone4 一樣經典。

最近這幾個月，大家都感覺各個研究機構的人都不睡覺，你追我趕在瘋狂發 paper，arxiv 這個平臺的出現滿足了他們的高產訴求。除了 paper，現在新的 git 項目，甚至新的公司都在層出不窮。奈何，他們前進的步伐不受狙擊，所以如何才能更好更快的不被他們牽著鼻子走呢？

嗯，合理的方式，是將主要的脈絡抓清楚，對問題有自己的框架認識。論文并非都需要讀，抓到關鍵 paper，合理利用大佬發布的博客，加速對問題的理解。在基礎了解之后，再閱讀最新的 paper。很快，就會發現，emm 大部分論文……讀起來變順暢了。

在這個基礎上，找到自己想要深入的點，再深入研究即可。

在 LLM 發展日新月異的今天，如何快速 follow，事半功倍，無論是針對技術還是非技術同學，都是一個需要思考的問題。

本文分為五個方面來切入，首先進行基礎論文的分享和串講，這些是從技術上了解當前 LLM 的基礎，有了他們才有可能可以快速 follow 新的知識；第二部分重點講復現和追趕，進行這個工作重點需要考慮哪些方面；第三部分基于 LLM 理解它會帶來怎么樣的變革和影響；第四部分是幾個值得關注和討論的要點；最后一部分是 take away，總結要點。

本文適合讀者：想要 follow 新技術的技術/非技術從業者；想要檢驗一個人是否在不懂裝懂……可以作為參考；作為建立對 LLM 認知體系的基礎，這樣每次看到新的知識是可以直接疊加進去的。

基礎論文閱讀

首先我們要明白一個事情。論文，一般都是針對某幾個 SOTA 問題，甚至是一個 SOTA 問題的針對性討論，其中附帶了這個問題的前因后果，對其的實驗論證和分析，以及給他人挖的坑，所以它天然就不是給初學者寫的東西啊。

在讀論文之前，先搞明白基礎，然后再有順序的，有根據，【有選擇】的讀論文，就不會出現理解上的困難。特意強調有選擇，是有一些論文已經過時了，不用看了。除非要做相關問題研究，需要對比，或者了解前人做過的實驗，否則，想學會怎么開汽車，或者學會怎么改裝汽車輪胎，確實不需要知道怎么養馬。

首先需要了解 LLM 的一些基礎知識，入門一定要從語言模型入門，這個只要是個學過數學的學生就能看懂的，而且是要了解 LLM 的基礎。

ChatGPT 原理介紹：

從語言模型走近 ChatGPT：https://zhuanlan.zhihu.com/p/608047052

網絡上有很整理的論文大集合，但這不是學習路線！https://github.com/Mooler0410/LLMsPracticalGuide

后面我將論文分為三大類，一類是與 ChatGPT 最相關的論文；一類則是與 OpenAI 有競爭相關的論文；最后一類則是基于這些論文的基礎上，應該關心的其他相關研究。

這里僅放最重要的與 ChatGPT 相關的論文，其他內容放在最后的附錄中。

GPT 系列

【GPT-1】Improving Language Understanding by Generative Pre-Training.

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 2018.6

【GPT-2】Language Models are Unsupervised Multitask Learners.

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2019.2

【GPT-3】Language Models are Few-Shot Learners.

https://arxiv.org/abs/2005.14165 2020.5

【CodeX】Evaluating Large Language Models Trained on Code.

https://arxiv.org/abs/2107.03374 2021.7

【WebGPT】WebGPT: Browser-assisted question-answering with human feedback.

https://arxiv.org/abs/2112.09332 2021.11

【InstructGPT】Training language models to follow instructions with human feedback.

https://arxiv.org/pdf/2203.02155.pdf 2022.3

【ChatGPT】

blog: https://openai.com/blog/chatgpt 2022.11.30

【GPT-4】

https://arxiv.org/pdf/2303.08774.pdf 2023.3R

重要支持論文

【RLHF】Augmenting Reinforcement Learning with Human Feedback.

https://www.cs.utexas.edu/~ai-lab/pubs/ICML_IL11-knox.pdf 2011.7

【PPO】Proximal Policy Optimization Algorithms.

https://arxiv.org/abs/1707.06347 2017.7

ChatGPT 的誕生

從時間上我們看一下，在 iGPT 出現之前，先后嘗試了 CodeX、WebGPT 兩個工作，然后在這個基礎上訓練了 iGPT 以及出圈的 cGPT。

下圖我們看到，自 2017 年 tranformer 這個特征提取器發表以來，基于它其實有三條經典路線，GPT、T5、Bert。用直白的話講，Decoder-only的是 GPT 系列，encoder-only 的是 bert 系列，而 T5 則是原本的 en-de，是在 transformer 的基礎上發展來的。在這些信息的基礎上，我們可以看到 gpt、t5 和 bert 本身是三條不同的技術路線，自然他們在擅長的任務，各自的特點上也有所不同。

GPT：自回歸，適合做生成；由于其特點，為了在理解任務上達到和bert相同的效果，成本較高。
T5：en-de，理論上是結合了 GPT 和 BERT 的優點，但會帶來參數的暴漲，訓練成本很高，google 提出后并未過多發展，性價比相比 GPT 暫時未知（但我覺得潛力很大）；T5 統一了 NLP 任務的形式，一切都可以是 Text2Text 的形式，與 GPT 解決問題的思路是一致的。
Bert：自編碼，不適合做生成，在理解任務上 finetune 形式性價比很高。

當前我們來核心看看 cGPT 是怎么誕生的，其他就先不管了。

GPT1 到 GPT3，CodeX、WebGPT、InstructGPT 是關鍵的幾個論文，也是我們能夠最直接了解到 OpenAI 當前工作進展的幾個開源工作，而 RLHF 與 PPO 則是訓練方法相關的論文，為了達到 cGPT 的效果，這些訓練方法起到了重要的作用。

GPT（GPT-1）：這是 GPT 系列的第一個模型，發布于 2018 年。GPT-1 擁有 1.17 億參數，其突破性之處在于引入了單向上下文建模，通過預測下一個詞來生成連貫文本。

從此時起，讓 NLP 進入了預訓練大語言模型+finetune 的時代。

GPT-2：發布于 2019 年，GPT-2 具有 15 億參數，相較于 GPT-1 有很大的改進。它使用了更大的訓練數據集，提升了模型在處理不同語言任務和生成連貫文本方面的能力。當時，GPT-2 因其生成能力強大而引起關注，甚至引發了有關潛在濫用風險的討論。
開放了 API，開源了一個相對小的模型，沒有開源論文中的所有模型
論證了 zero-shot 的效果和 promising 的前景
開始了大數據，大模型的演進之路
GPT-3：發布于 2020 年，GPT-3 是當時最大、最強大的自然語言處理模型之一。它擁有 1750 億參數，對比 GPT-2 有很大的擴展。GPT-3 在多種任務中表現出色，如代碼生成、文本生成、問答等，甚至可以在未經微調的情況下完成某些任務。盡管 GPT-3 取得了顯著的進步，但仍存在一些問題，如偶爾產生有害或不相關的內容。（開始 close AI）
提出了 in-context learning，避免 fintune 會將模型的信息遺忘，導致能力下降。泛化性變弱。
帶領了 Prompt 的興起（其實 GPT/bert 的時候就已經有了初步的 prompt，當時為了構建一些任務或者訓練樣本，會對數據做一些小改動）。
CodeX：發布于 2021，基于 GPT-3 finetune 得來，專門用于提高軟件開發和編程的效率和質量，也是 Copilot 背后的技術支持。相關研究發現，在大量科學文獻 / 代碼上進行訓練可以顯著提高基礎模型的推理/編碼能力。
在給定數據集 HumanEval 上論證了 LLM 在解決代碼編寫問題上的可能性，在 repeated sampling 機制下 Codex 能解決大部分的編程問題。
引起廣泛關注和討論：CodeX 的發布引起了廣泛的關注和討論，認為它將極大地改變軟件開發和編程的方式。但同時也引發了一些擔憂和問題。
這個工作的誕生為后續 ChatGPT 強大的代碼能力埋下了伏筆（我理解也是堅定了 OpenAI 的信心）。
代碼的強邏輯性和規范性，猜測有利于 LLM 的能力優化。
WebGPT：同樣在 2021 年，基于 GPT-3 finetune 得來，是一次與 Bing 的強聯合，利用 Bing API 創建了一個模型和交互的搜索瀏覽環境，先利用 Bing API 進行信息檢索，然后將檢索的結果+問題交給 LLM 進行解答（這個過程會重復進行，由模型決策，pre-autogpt）。
收集了用戶行為數據，用來教模型決策（嗅到了 autogpt 的味道）。
這里和后續的 cGPT 其實很像，都是對問題的回答，但用了 Bing 的檢索結果作為 LLM 的 Prompt。
這篇論文的訓練方法中用到了基于 BC 的 SFT（這里的 BC 就是用戶行為數據 Behavior cloning），基于 BC 模型訓練了一個RM模型，從而將 RM 輸出的獎勵（懲罰）使用 PPO 算法在對 BC 模型進行微調，以進一步提高模型的學習效果。
這篇工作就是 iGPT 的前序工作，只是在 iGPT 中將對齊的內容/目標做了改動，里面暴露了很多數據收集分析上的細節，同時也是LLM和搜索的一個結合的重要工作。
果然是微軟的一個研究院。
InstructGPT：較為詳細的介紹了 iGPT，大家也是認為這個工作是 cGPT 的重點暴露，因為 cGPT 號稱和 iGPT 的技術點幾乎一模一樣。而iGPT的核心主要有三點：
Alignment：與用戶對齊的理念，好的技術方案設計和執行導致了其良好的效果。這一點非常關鍵
SFT 訓練(supervised fine-tuning)：收集prompt&Answer pair（對于 cGPT 來說，prompt&answer 的格式是 dialogue format 的），基于這些數據對 LM 進行 SFT 訓練(supervised fine-tuning)
RLHF：

RM：獎勵模型的訓練(reward model training)。基于收集好的 prompt，讓 SFT 好的模型輸出結果，然后人工標注好，讓 RM 學習哪些標注好的數據是正確的
PPO：近端策略優化模型( reinforcement learning via proximal policy optimization)：基于上面訓練好的兩個模型，讓 SFT 對 prompt 進行輸出，然后基于 RM 給出的分數作為模型自我迭代的依據，從而不斷優化模型。

cGPT：理論上和 instructGPT 是并行關系，只是在數據格式上有所不同：We mixed this new dialogue dataset with the InstructGPT dataset, which we transformed into a dialogue format.

從上面的工作我們可以看到，18 年開始，確定一個技術方向，在這個過程中不斷的嘗試，不斷基于之前的工作進行修正，探索，一步一步前進，這個過程很有趣，最終得到了 cGPT。

技術點概括

我們瀏覽一下以上的論文，可以總結出其取得當前成績的關鍵點：

infra：需要提前建設

算力：硬件（錢和基礎設施支持。
工程：隨著數據上升，工程與算法的互相匹配實現就很重要。

數據：決定了上限：公開數據有很多，但具體如何收集，如何處理、分析應用是關鍵。
從論文中，我們看到即便是公開數據，也花了很大的功夫去分析比如 train/test 之間的覆蓋，benchmark 對模型的評估與模型訓練數據之間的關系等要素影響。
訓練數據的選擇清洗很細節。
收集用戶標注數據的時候，有很細節的設計，包括但不限于 gui，數據可靠性機制設計等。
決定了應用效果。
算法：模型設計決定了能多逼近上限。
評估標準：（量化）評估模型性能。論文中雖然沒有提出一個評估標準，但是我們看到 OpenAI 做了大量的工作來分析模型性能，以及數據對模型性能的影響。有評估，才能知道模型當前的進展以及新的工作怎么發展。（參見 GLUE or CLUE）
Wrapper for 應用：
技術應用：Prompt-engineer；梳子模型（梳子的齒是prompts，橫著的齒根是 LLM 底座）。
業務應用：ChatGPT 等。
商業化方式：除了產品使用會員制外，暫無明確路徑。
團隊構建：有動力，有靈魂人物拍板，合理的商業化運作（做事情是需要正反饋的）。

模型	介紹
GPT4	預計參數量 1-1.7w 億，支持文本和圖像，輸出文本（但是可以支持編程繪圖），在各項任務上表現更好
GPT3.5（instructGPT和chatGPT）	1750 億參數，文字輸入輸出；規范了 Alignment 這個概念，規范了訓練流程：SFT、RLHF（RW+PPO）；基于上文，我們看到這里集合了 WebGPT 和 CodeX 的優點。
GPT3	1750 億參數，文字輸入輸出。提出 in-context learning（0/few-shot）
GPT2	15 億參數，文字輸入輸出。弱化版 GPT3，也是大家摸索 GPT3 的重要參考
GPT1	1.17 億參數，文字輸入輸出，無監督預訓練，task oriented finetuning->下游任務上需要 finetune，沒有足夠泛化性，同時 finetune 需要數據

復現與追趕

在當前有一個真理可以記住，只要有人說：“論文都是公開的，技術都是現成的，只要有錢，給一定的時間，大家訓練個大預言模型不是分分鐘的事情?！本鸵欢ㄊ峭庑小?/p>

ChatGPT 的工程、模型和算法細節沒有公開，數據處理細節沒有公開；當前openAI已經將相關技術作為商業機密進行保留，從 GPT-3 就開始保密，至今已經有三年。

當前大模型調研

由于我們是想要跟進最新的內容，所以自然可以放棄很多過程指標。之前講到，整體其實有兩條路線可以走，T5 和 GPT。我們以這樣的方式列出來。

對于應用和學術，要以兩種視角來看待。應用方，當前一定關心的是ChatLLM，因為這是一個可以在淘金時代賣水以及最快測試應用場景的基礎應用；而技術視角，除了關心 chatLLM，還應該關注其底層的 LLM 是什么，這才是基礎。

以下是截止成文的時候比較流行的工作，從開源程度，學習上手以及運行的成本看，推薦學校出得，ChatGLM 和 Moss 或許會友好一點。

名稱	介紹	地址
Moss	復旦大學邱老師組發布的語言模型，支持對話，全部開源，推薦了解和學習。	https://github.com/OpenLMLab/MOSS
ChatYuan	元語智能發布，孵化于中文 NLP 開源社區 CLUE。CLUE 整合大量中文資源，均由 NLP 自由開發/愛好者推動，推薦了解。	https://github.com/clue-ai/ChatYuan
ChatGLM	清華大學發布。ChatGLM 版本多，效果好，可以在自己電腦上運行，因此十分受歡迎。十分值得大家嘗試！中英雙語。另，推薦了解 GLM，chatGLM 的基座，yangzhilin（XLNet 作者）參與的工作https://arxiv.org/abs/2103.10360	https://github.com/THUDM/ChatGLM-6B/blob/main/README_en.md
OPT	MetaAI 發布，175B 模型，模型結構與 GPT-3 基本一致，推薦了解，可以幫助理解 GPT-3。單語言。	https://github.com/facebookresearch/metaseq/tree/main/projects/OPT
Bloom	多語言， Bigscience 發布，與 GPT-3 基本一致，全部開源，訓練框架使用 Megatron-DeepSpeed，效果也很好，推薦了解和試用	https://github.com/huggingface/transformers-bloom-inference
LamDA	137B 參數，google 發布。decoder-only，理論上與 ChatGPT 架構相似。	https://github.com/conceptofmind/LaMDA-rlhf-pytorch
LLaMA	LLaMA 是著名的 MetaAI 開源的大語言預訓練模型，也因為它的開源以及斯坦福發布的 Alpaca 工作，讓 LLaMA 成為最近這些天發布的模型的基礎（也就是說最近很多模型都是用 LLaMA 微調的）。而這個是 Decapoda Research 在 HuggingFace 上部署的。是將原始的預訓練結果轉換成與 Transformers/HuggingFace 兼容的文件。	https://github.com/juncongmoo/pyllama
百度、阿里、訊飛等	當前國內的公司在不斷的發展和推進，無論從使用上還是從底層技術上都推薦 follow。

大語言模型發展歷程：https://briefgpt.xyz/lm

如何復現

既然在開頭已經吐槽過，那么我們這里直接說復現思路——當一個強大的工程師，不需要思考，照著開源抄，就領先了 99% 的人。

從 GPT 已經公開的資料來看，LM 這個模型基底結構其實并不是最重要的，當前我們已經有的結構，只要包括了 decoder，其實都可以做到文本生成，在很多細節上，也有多種優化點。但當前能讓 OpenAI 破局的，核心是如何構建數據，如何收集數據，如何將這些數據用來做模型訓練，才是關鍵和核心。這些是需要格外注意的。

From Scratch

從 0 開始，有兩種思路

一種是基于 GPT-2 或者 Bloom 等 GPT 系列的 LM，參考其發展路線，自行實現；
另一種則是基于當前已經摸索清楚路線，且開源的 Moss、LLama 等，依據實現。

聽起來比較簡單，需要重點解決的依然是上面提到過的一些要點：

數據：數據收集、數據清洗、數據標注等細節問題，包括成本與標準流程。
老師（算法細節）決定上限：當前無開源模型解決 GPT-4，且 GPT4 并非 OpenAI 內部最強的進展。這部分的差異需要自行推導摸索。LLM 時代，暴力窮舉可能性，大力出奇跡來追趕 SOTA，特別算力受限，可能性不高。
工程：如何快速進行訓練和推理，是一個好問題。
其他：很重要，但在解決上面的問題才會出現的，比如安全、評估、成本優化、效率等方面。

From a strong baseline

From scratch，講的是技術路線甚至代碼都已經 ready，但是模型是需要自己重新訓練的，里面會有很多細節操作。

而從一個強有力的 baseline 開始，那么就是在一個已經有的模型的基礎上進行改良。

需要關注和解決的問題是：

同樣，上面提到的幾項也很關鍵，對每一項的理解都很重要，但對實現的全面性和細節都要求更低。
要往哪個方向 fine-tining。
未開源部分依然需要自行摸索。

相信的力量

最近聽一些分享/講座等，有說到想象力、愿力、心力。都差不多。本質是需要有堅定的信念才可以。

OpenAI 在 GPT-2 被退稿的時候依然能夠堅持這個方向（其實GPT系列被退也沒錯，Roberta 當年也沒過，原因大差不差）。

有一些玄學，本質是需要有靈魂人物來帶領。

評估的重要性

前面我們講到了評估，這一點很重要，直接決定了這些追趕和復現的團隊是否有足夠明晰的目標和標尺來衡量自己的工作進展，而這一點當前很困難。

舉個 ??

如果我們認為高考可以反映一切，那么高考分數高的，就應該在一切上表現更好。那么我們干什么都可以直接用高考分數來衡量了。

顯然，已知用人單位會從多個角度來考慮，高考分數高，等于適應環境，可以吃高考的苦，有較好的學習理解能力，在大學受到了較好的培養。更進一步，會考慮到在哪個省份高考，從而更進一步考慮其綜合能力，潛力，高考難度等……多種因素。所以說明高考分數只能反映一部分能力。

所以當模型僅被用于執行單一任務的時候，我們可以出考題（benchmark）來評估其能力；
但當 LLM 成為一個綜合模型，我們想要將其應用于多類型任務時候，就意味著需要進行多維度考察；
而當其成為一個對話應用的時候，那么我們更希望可以對其進行擬人化的考察，除了硬性能力，還希望可以 check 其是否更像人。

……所以就很麻煩。

可以參見以下報道，UCB 在引入 Elo 進行評估，愛丁堡大學的 Fuyao 在研究從推理上評價模型能力，CLUE發布SuperCLUE進行中文通用大模型綜合性評測基準。

https://36kr.com/p/2243109425885057
https://github.com/FranxYao/chain-of-thought-hub
https://mp.weixin.qq.com/s/6CDnyvMsEXtmsJ9CEUn2Vw

LLM帶來的影響

LLM 的出現，給產學界帶來了沖擊，此時思考它的出現到底帶來了什么樣的影響。由于每個人所處情況不同，我們可以從不同的視角來看待這個問題。

首先，得用，這樣才能獲取第一手感知；其次思考這個的出現給學術界帶來了什么；接下來考慮它會對整個產學界帶來什么影響；然后考慮給個人帶來的影響；最后基于這些因素，考慮基于 LLM 的公司或者產品會是怎么樣的。

如何使用模型

這里講如何使用模型，核心是如何按照自己的想法激活其能力，這里就需要了解 in-context learning，了解 Pormpt。

In-Context Learning 是機器學習領域的一個概念，指不調整模型自身參數，而是在 Prompt 上下文中包含特定問題相關的信息，就可以賦予模型解決新問題能力的一種方式。這個主要是在 few/one-shot 的情況下，給定的示例。所以我認為叫做 ICL 不夠貼切，應該叫做 In Context Inference。

Prompt：Prompt（引導詞），是一段自然語言描述的文本，它作為AI模型的重要輸入來指導模型生成內容。Prompt 的質量對于模型生成效果有較大影響。（本質上 prompt 和 instruct 是一種東西，一個概念，主要是看如何構造 prompt）。

有了這兩個基礎概念之后，我們就發現，其核心要做的是設計 Prompt 來讓LLM（包括 chatLLM）發揮出我們想要其發揮的能力。市場上有很多資料，同樣我們抓主要矛盾：

一條 prompt 的組成要素：

Instruction：一個特定的任務或者指令
context：示例、上下文、甚至知識（庫）
Input data：就是提問，比如搜索一些東西的時候，輸入的問題（有時候和instruction重疊）
Output Indicator：輸出格式

prompt 的編寫技巧：精準，正面輸出信息，不要使用反問等手法；嘗試使用 COT-step by step。
多輪 prompt refine：這里要表達的是，基于第一次的prompt以及對應的結果，重新設計第二輪 prompt，通過多輪 refine 來獲取更加符合預期的結果。
APE(Automatic Prompt Engineer)：自動 prompt 生成。
注意：一條 prompt 在不同的 LLM 上的表現是可以不同的

推薦吳恩達的課程：https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/

給學術界帶來了什么

研究方向的變化：大模型 LLM 領域，有哪些可以作為學術研究方向? - 知乎(https://www.zhihu.com/question/595298808/answer/2982013608)
由于當前 LLM 對資金以及數據的訴求，大學這樣的學術場所未來是否依然適合作為相關研究的孵化地，要打一個問號；是否工業實驗室更適合。
LLM 只是一個縮影，LLM 可能會應用到很多領域；也可能會有很多與LLM類似的領域，或許未來這些都不適合在高校進行研究。
給國內學術界：當新的技術爆發越來越多呈現在各個領域散點出現，如何給大眾以良好的土壤并激發他們的創新熱情將會是一個很值得研究的命題。

給整體的產學界/工業界帶來了什么

簡單來說，分為三大類影響：

從事 LLM 底層技術開發：需要快速 follow 技術，盡快建立生態，獲取生態主導權的 LLM 將會建立壁壘。
從事基于 LLM 的應用開發：理解業務，理解用戶，并將這部分理解以及用戶反饋數據用于對自己應用的優化，形成閉環飛輪（已有模糊技術路線但尚待驗證），這將會是自己的壁壘。
在這個環境下，“賣水賣鏟子”的市場會異常活躍。

在這個三類影響下，借助陸奇分享的 ppt，用下圖來看看全面形態。左下角就是 LLM 底層技術，在他的基礎上無論是 ChatGPT 還是相應的 playground 等，都屬于應用，盡管有應用內應用（比如 chatgpt-plugin），而在往上一層走，就到了 copilot 等產品層面。

從這圖上看，這個 OpenAI 的生態當前已經初步形成，也就是說它的競爭壁壘已經初步建立。如果說這真的是一個操作系統級別的革命的話，那么未來市場上一定只會存在有限家公司有各自的生態，比如蘋果和安卓。

可以說，在新的時代下，公司之間競爭的依然是用戶。LLM 競爭開發者，應用競爭下游用戶，賣水賣鏟子的競爭前兩個的淘金者。這些用戶會產生數據，而如何將這些數據用在模型上，是一個依然值得研究的問題。

結合 LLM 進行的服務，當前思路主要有兩種：

一種是以 LLM 作為 backbone，對其生產的結果進行后處理以確保符合預期；
一種是當前的主流系統作為 backbone，利用 LLM 做優化（即將前者輸出作為 prompt 構成）。

基于這樣的思路，也就能看到，將數據融合進去的思路，要么融合到LLM中去，要么融合到確定性結果中去（知識庫）。

第二種思路，就是深度學習當前掛靠到各個業務的方式。但若說LLM是一個操作系統級別的變化，那一定不會止步于此，未來會是什么樣子的呢？還需要思考。

個人從業者的影響

對于個人來說，快速了解相關技術，建立自己的認知體系，加快對新知識的 follow 最關鍵。
在這個基礎上，選定自己的定位和角色，快速出擊。明顯看到生態壁壘、用戶和業務壁壘依然可行，要快速找到建立的方向并貫徹執行。

對傳統的互聯網技術同學來說，以下是可以參考的技術棧。對于非技術同學來說，則是要好好感受和使用大模型的能力。這是一個需要技術和非技術同學一起探索新需求和應用的時代，都需要對新的技術進行理解和把握，才能提出有價值的應用。

未來基于 LLM 的公司/產品會是什么樣子的

上圖是一個比較粗糙的示意圖。在新的浪潮下，要找到自己的公司的定位在哪里。從之前陸奇分享的 OpenAI 的生態中，我們可以看到很多東西，將其整合抽象簡化，那么在當前的時代，我們的工作有上圖中描述的：

APP：應用層。除了應用外，由于 cGPT 的出現，那么在 UI 上會有很大變化，除了語言外，要留意語音巨大的潛力。
Inspire Ability：能力激發層。由于我們基于 Maas 進行上層開發設計，那么如何能夠激發模型的能力，放大模型的能力（plugin），對模型能力進行補充（事實性等 KB），則是這一層重點要做的工作。
MaaS：除了模型本身能力的優化，訓練/推理的速度和成本，上層開發者生態友好性等都是重點問題。簡單的衡量標準，就是別人是否愿意在你的 MaaS 上進行后續開發。
DATA 層：這一層很關鍵，因為它關系到了能力是否可以長期迭代，某種意義上也是壁壘是否可以形成的關鍵要素。

應該關注的幾個要點

如何理解推理能力

重點參考 or 復制：

https://yaofu.notion.site/6dafe3f8d11445ca9dcf8a2ca1c5b199

本文是 fuyao 分享的關于復雜推理相關的分析，其認為這是 GPT 這樣的 LLM 成為下一代計算平臺 / 操作系統的關鍵能力。其中關于 Code/Math 等相關的分析特別有趣，推薦閱讀。

在科學文獻/代碼上進行訓練可能會提高推理能力，這部分的討論很有趣，也很符合直覺。

Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models

在來自 Arxiv 論文的 38.5B 的 token 上繼續訓練 PaLM 540B。
在 MATH （一個需要使用 LaTeX 格式回答問題的困難數據集），上的得分為 33.6（GPT-4 的得分是 42.5）。

Taylor et. al. 2022. Galactica: A Large Language Model for Science
在包含論文、代碼、參考資料、知識庫和其他內容的 106B token 上預訓練一個 120B 語言模型。
在 MATH 上的表現為 20.4（Minerva 33.6，GPT-4 42.5）。
Chen et. al. 2021. Codex: Evaluating Large Language Models Trained on Code
在 159GB 代碼數據上繼續訓練 12B GPT-3 模型，提高了 HumanEval 數據集上的代碼性能。

LLM 作為下一代操作系統是什么意思

首先，雖然炒的沸沸揚揚，如果真的類比操作系統，當前新的 os 的具體形態并不清晰，承載物究竟是什么樣子，看起來在高速發展，但如果停滯不前的話（假設當前技術發展中遇到了不可預知的難題）也很難承載操作系統這樣的重任。

但是我們可以看到，在當前 LLM 遠超過歷史模型能力的加持下，在當前已經給交互帶來事實性沖擊的基礎上，未來一定有大的變化。只是這個變化大概率還會有一次大的技術升級或者融合，畢竟 GPT-4 才剛發布，從這個角度看，已公開技術上還有肉眼可見的發展空間。

最后，我們將其認定為操作系統，那么最后一定只有有限家，大家分別在不同領域各領風騷。走得早和走的好都很重要。

從這一點上看，所謂生態先行就顯得尤為重要，誰能先把生態搭建，搶占用戶心智，自然就可以建立一種無形的壁壘。就好比安卓和蘋果，tensorflow 和 pytorch。這一點對于國內的同行來說應該是當前最為緊急的。

學習社區的緊迫性

當前以 fuyao 為代表的 notion 交互，國外流行的 twitter 交互加劇了當前在專業領域內的小范圍通過文本交互和討論的氛圍。
陸奇的每一次演講都在瘋狂更新資料，組建大模型日報團隊專門分享日報以跟進前沿信息
各路大佬每隔一段時間就會出來一次，每天都有新的 blog、新的論文、新的產品甚至公司出現
大家對學習社區的渴求程度，對溝通和思維碰撞的渴求越來越高；但由于個人的實際知識背景不同，導致同頻討論越發困難，如何能夠有同時具備以下特點的學習社區，是一個很好的問題：

如何建立小型、敏捷的互動學習
大型、專業的分享社區

如何找到 MaaS 擅長的應用

以自然語言為先來設計產品。在新的時代，一定有其擅長的產品或者領域。上面講到了基于 LLM 的公司/產品會對既有產品生態形成降維打擊，那么如何才能找到擅長的部分呢？陸奇在5月7日北京的分享上給出了他的認識。

首先基于傳統認識，應用一定是技術推動+需求拉動發展的，且要利用好大模型的優勢。從三個維度分析，信息、模型以及行動。信息一定是基礎，而模型（知識+思考整合+輸出）影響越大的部分，大模型的優勢就越明顯。而行動，當前僅在數字化系統內部是 ok 的，譬如 autoGPT。
第二點則是應用上的壁壘，要將對數據使用的結果能夠反饋到使用的各個環節，才能夠形成正向飛輪從而不斷迭代優化。
能夠做到有多好，核心在于認知能力和對工具的使用能力。

OpenAI 的發展歷史

陸奇分享了自己的一個認識，OpenAI 有自己的思想體系，所以現在必須要能自己做科研，自己寫代碼，自己做平臺和商業化。

商業化

本文沒有討論商業模式，這是一個很重要的點，在這個時代，誰先探索出合適的商業模式，就可以形成利潤閉環，從而快速迭代自身業務。

一些思考可以參見：https://zhuanlan.zhihu.com/p/611867921

Take away

當前 LLM 進展迅速，首先搞清楚 LLM 是大預言模型，chatgpt 是基于 LLM 做的一個應用導向的產品。抓住基礎，然后 follow sota，才能看懂聽懂
搞清楚核心競爭力：

做 LLM 的：技術可以領先，但無法成為壁壘。但是生態可以成為壁壘，讓用戶靠你來養活自己。這是競爭的核心要素。
做 LLM 上的應用：需要將用戶數據和業務數據進行閉環，加速模型在業務上的表現，這個是存在壁壘的，如何可以很好的閉環，是一件值得研究的事情。
研究者：從業者和研究者。獨到的見解（有點虛）。換句話說應該更加強調認知能力和執行力，對于很多知識的學習可以放下，工具性質的使用能力需要很強。

由于數據的重要性，所以如何形成自己好的數據處理 framework or pipeline 是一個關鍵問題。
aiot 未來一定有大機會，當信息獲取與理解，模型思考與決策這樣的能力都具備的時候，那么切入到實際的 action 中就顯得十分重要而合理。
當前 ChatGPT 的出現，其實很像一個咨詢的角色，究竟是提升咨詢的效率還是替換咨詢的角色，是一個很好的問題。
人嘛，最重要的是開心

附錄：

論文合集

OpenAI系列

重點

[1]【GPT-1】Improving Language Understanding by Generative Pre-Training.

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 2018.6

[2]【GPT-2】Language Models are Unsupervised Multitask Learners.

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 2019.2

[3]【GPT-3】Language Models are Few-Shot Learners.

https://arxiv.org/abs/2005.14165 2020.5

[4]【CodeX】Evaluating Large Language Models Trained on Code
https://arxiv.org/abs/2107.03374 2021.7

[5]【WebGPT】WebGPT: Browser-assisted question-answering with human feedback.

https://arxiv.org/abs/2112.09332 2021.11

[6]【InstructGPT】Training language models to follow instructions with human feedback.

https://arxiv.org/pdf/2203.02155.pdf 2022.3

[7]【ChatGPT】 blog: https://openai.com/blog/chatgpt 2022.11.30

[8]【GPT-4】https://arxiv.org/pdf/2303.08774.pdf 2023.3R

[9]【RLHF】Augmenting Reinforcement Learning with Human Feedback.

https://www.cs.utexas.edu/~ai-lab/pubs/ICML_IL11-knox.pdf 2011.7

[10]【PPO】Proximal Policy Optimization Algorithms.

https://arxiv.org/abs/1707.06347 2017.7

其他可關注論文

[1] Fine-tuning language models from human preferences.

pdf(https://arxiv.org/abs/1909.08593)

code(https://github.com/openai/lm-human-preferences) 2019.9

[2] Learning to summarize from human feedback.

pdf(https://arxiv.org/abs/2009.01325)

code(https://github.com/openai/summarize-from-feedback) 2020.9

[3] Text and Code Embeddings by Contrastive Pre-Training

pdf(https://arxiv.org/abs/2201.10005) 2022.1

[4] Efficient Training of Language Models to Fill in the Middle

pdf(https://arxiv.org/abs/2207.14255) 2022.7

[5] Training Verifiers to Solve Math Word Problems

pdf(https://arxiv.org/abs/2110.14168) 2021.10

[6] Recursively Summarizing Books with Human Feedback

pdf(https://arxiv.org/abs/2109.10862) 2021.9

[7] Generating Long Sequences with Sparse Transformers

pdf(https://arxiv.org/abs/1904.10509) 2019.4

可關注工作

[1] GPT-3: Its Nature, Scope, Limits, and Consequences

https://link.springer.com/article/10.1007/s11023-020-09548-1?trk=public_post_comment-text

[2] Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models

https://arxiv.org/abs/2102.02503 2021.2

[3] Generative Language Modeling for Automated Theorem Proving

https://arxiv.org/abs/2009.03393 2020.9

[4] Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets

https://cdn.openai.com/palms.pdf 2022.6

[5] Scaling Laws for Neural Language Models

https://arxiv.org/abs/2001.08361 2020.1

[6] ChatGPT is not all you need. A State of the Art Review of large Generative AI models

https://arxiv.org/abs/2301.04655 【說你行很麻煩，不行卻很容易】

[7] In context learning survey

pdf https://arxiv.org/abs/2301.00234 2022.11

[8] Reasoning with Language Model Prompting- A Survey

https://arxiv.org/abs/2212.09597

竟對模型：介紹了其他流行的語言模型，如 BERT、XLNet、RoBERTa、ELECTRA、Sparrow等

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(https://arxiv.org/pdf/1810.04805.pdf)

【LaMda】 LaMDA: Language Models for Dialog Applications.
pdf(https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2201.08239) 2022.1
【Sparrow】 Improving alignment of dialogue agents via targeted human judgements. pdf(https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2209.14375) 2022.9
【T5】Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer https://arxiv.org/pdf/1910.10683.pdf
DeepSpeed-Chat. Blog(https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed-Chat)
GPT4All. Repo(https://github.com/nomic-ai/gpt4all)
OpenAssitant. Repo(https://github.com/LAION-AI/Open-Assistant)
ChatGLM. Repo(https://github.com/THUDM/ChatGLM-6B)
MOSS. Repo(https://github.com/OpenLMLab/MOSS)
Lamini. Repo(https://github.com/lamini-ai/lamini/) Blog (https://lamini.ai/blog/introducing-lamini)
Finetuned language models are zero-shot learners pdf(https://arxiv.org/abs/2109.01652) 2021.9
Scaling Instruction-Finetuned Language Models. pdf(https://arxiv.org/abs/2210.11416) 2022.10
XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa: A Robustly Optimized BERT Pretraining Approach
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
Longformer: The Long-Document Transformer
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
Reformer: The Efficient Transformer
Attention Is All You Need(https://arxiv.org/abs/1706.03762.pdf)：Transformer (Google AI blog post)(https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)
Music Transformer: Generating music with long-term structure(https://arxiv.org/pdf/1809.04281.pdf)
https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(https://arxiv.org/abs/2201.11903)
PaLM: Scaling Language Modeling with Pathways
OPT: Open Pre-trained Transformer Language Models
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
LaMDA "LaMDA: Language Models for Dialog Applications" . 2021. Paper(https://arxiv.org/abs/2201.08239)
LLaMA "LLaMA: Open and Efficient Foundation Language Models" . 2023. Paper(https://arxiv.org/abs/2302.13971v1)
GPT-4 "GPT-4 Technical Report" . 2023. Paper(http://arxiv.org/abs/2303.08774v2)
BloombergGPT BloombergGPT: A Large Language Model for Finance, 2023, Paper(https://arxiv.org/abs/2303.17564)
GPT-NeoX-20B: "GPT-NeoX-20B: An Open-Source Autoregressive Language Model" . 2022. Paper(https://arxiv.org/abs/2204.06745)

責任編輯：龐桂玉來源：字節跳動技術團隊

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：亚洲一区二区三区四区av | 精品自拍视频在线观看 | 九九九视频精品 | 婷婷五月色综合 | 天天插天天操 | 精品国产一区二区久久 | 久久久久久久久综合 | 久久精品国产免费看久久精品 | 久久国内精品 | 久久精品欧美电影 | 国产精品久久久久久久久免费桃花 | 国产精品国产精品国产专区不卡 | 国产中文字幕网 | 一级毛毛片 | 日本不卡一区 | 一级黄色毛片 | 日本精品视频一区二区三区四区 | 97caoporn国产免费人人 | 97色综合| 亚洲精品久 | 亚洲永久在线 | 久久99精品久久久久久琪琪 | 亚洲一区综合 | 99福利 | 91精品国产综合久久久久久丝袜 | 日韩在线不卡视频 | 欧美a在线 | 91大片 | 国产精品免费一区二区三区 | 一区二区日韩精品 | 99tv成人影院 | 久久草视频 | 天天躁日日躁狠狠躁2018小说 | 99精品在线 | 精品欧美一区二区三区久久久 | 久久亚洲一区 | 亚洲国产一区二区三区 | 亚洲毛片在线观看 | 国产成人亚洲精品 | 91av在线免费看 | 日韩高清在线 |