生成式人工智能演變:生成式人工智能簡史
從 Transformers(2017 年)到 DeepSeek-R1(2025 年)
2025年初,我國推出突破性且經濟高效的大型語言模型(LLM)DeepSeek-R1,引發了人工智能的巨變。本文追溯了LLM的演變歷程,始于2017年革命性的Transformer架構,該架構通過自注意力機制重塑了自然語言處理(NLP)。到2018年,首批基于Transformer的兩款LLM,GPT和BERT相繼發布,顯著增強了語境理解和文本生成能力,為未來的創新奠定了堅實的基礎。2020年,擁有1750億個參數的GPT-3展現了卓越的少樣本和零樣本學習能力。然而,“幻覺”問題即生成與事實不符的內容成為了關鍵挑戰。2022年,OpenAI通過采用“監督微調”(SFT)和“基于人類反饋的強化學習”(RLHF)技術來應對這一挑戰,并由此開發了對話模型ChatGPT。這一突破引發了全球對人工智能的廣泛關注。到2023年和2024年,GPT-4和GPT-4o等多模態模型將不斷發展,無縫集成文本、圖像和音頻處理,使其能夠展現出更接近人類的能力,例如“聽”、“說”和“看”。與此同時,OpenAI的o1和DeepSeek的R1推進了復雜推理能力,使大型語言模型(LLM)更接近類人“系統2思維”。此外,DeepSeek-R1模型的超高成本效率和開源設計挑戰了人工智能規范,使高級大型語言模型(LLM)的獲取更加民主化,并推動了各行各業的創新。
1.什么是語言模型(LM)
語言模型 (LM) 是人工智能 (AI) 系統,旨在處理、理解和生成類似人類的語言。它們從大型數據集中學習模式和結構,從而能夠生成連貫且與上下文相關的文本,并廣泛應用于翻譯、摘要、聊天機器人和內容生成。
1.1 大型語言模型(LLM)
“語言模型”(LM)和“大型語言模型”(LLM)這兩個術語經常互換使用,但 LLM 特指具有數百萬甚至數十億個參數的語言模型。LLM 這一術語出現于 2018-2019 年左右,恰逢 BERT(包含 3.4 億個參數)和 GPT-2(包含 15 億個參數)等模型的推出。然而,這一術語在 2020 年 GPT-3 發布后才得到廣泛認可,GPT-3 以其前所未有的 1750 億個參數展示了其變革性的擴展潛力。
1.2 自回歸語言模型
大多數 LLM 以自回歸的方式運行,這意味著它們根據前面的標記序列預測下一個標記(或子詞)的概率分布。這種自回歸特性使模型能夠捕捉復雜的語言模式和依賴關系,從而使其在文本生成等任務中非常有效。
從數學角度來看,LLM 就像一個概率模型,給定一個前面的 token 序列(w? ,w? ,…,w?),估計下一個 token w??? 的條件概率分布。這可以正式表示為:
P(w?? ? | w ?,w ?,…,w? )
在文本生成過程中,LLM 使用解碼算法確定下一個輸出標記。這些算法可以采用不同的策略:
貪婪搜索:模型在每一步中選擇概率最高的標記。
采樣:模型從預測的概率分布中隨機抽取一個 token。這種方法為生成的文本引入了可變性,模仿了人類語言的多樣性和不可預測性。
1.3 生成能力
LLM 的自回歸特性使其能夠利用先前單詞所建立的上下文,按順序(一次一個標記)生成文本。從初始標記或提示開始,該模型迭代地預測下一個標記,直到形成完整序列或滿足預定義的停止條件。
這種順序生成過程使 LLM 能夠生成高度連貫且與上下文相關的文本,使其成為創意寫作、對話生成甚至代碼補全的強大工具。能夠生成多樣化輸出的能力也使 LLM 非常適合需要靈活性和適應性的任務,例如講故事或對話式 AI。
2.《變壓器革命》(2017)
2017 年,Vaswani 等人在其開創性論文《Attention is All You Need》中提出了 Transformer 架構,這標志著 NLP 領域的一個分水嶺。它解決了循環神經網絡 (RNN) 和長短期記憶網絡 (LSTM) 等早期模型的關鍵局限性,這些模型難以處理長距離依賴關系和順序處理。這些挑戰使得使用 RNN 或 LSTM 實現有效的語言模型變得困難,因為它們計算效率低下,并且容易出現梯度消失等問題。而 Transformer 克服了這些障礙,徹底改變了該領域,并為現代大型語言模型奠定了基礎。
自注意力機制和 Transformer 架構
2.1 Transformer 架構的關鍵創新
1. 自注意力機制:與按順序處理 token 的傳統 RNN 不同,Transformer 引入了自注意力機制,使模型能夠動態地權衡每個 token 相對于其他 token 的重要性。該機制使模型能夠專注于輸入中與當前任務最相關的部分,從而更好地捕捉全局上下文信息。從數學上講,自注意力機制的計算公式如下:
這里,Q、K、V分別是查詢、鍵和值矩陣,d?是鍵維度。自注意力機制能夠實現并行計算,加快訓練速度,同時提升全局上下文理解能力。
2. 多頭注意力機制:多頭注意力機制并行操作多個獨立的注意力頭,每個注意力頭關注輸入的不同方面。這些注意力頭的輸出被連接起來,并通過一個線性變換層,從而產生更豐富、更全面的上下文表示。這種設計使模型能夠從多個角度捕捉復雜的語義關系。
3. 前饋網絡 (FFN) 和層歸一化:每個 Transformer 層都包含一個應用于每個 token 的前饋網絡 (FFN),以及層歸一化和殘差連接。FFN 由兩個全連接層組成,通常使用 GELU(高斯誤差線性單元)激活函數。層歸一化和殘差連接的設計有效地穩定了訓練過程,并支持構建更深的網絡架構,從而增強了模型的表達能力。
4. 位置編碼:由于 Transformer 本身并不編碼標記順序,因此添加位置編碼(位置和頻率的正弦函數)來表示詞序,從而在不犧牲并行化的情況下保留順序信息。
2.2 對語言建模的影響
可擴展性:Transformer 支持完全并行計算,從而可以在大型數據集上訓練大量模型。
情境理解:自我注意力捕捉局部和全局依賴關系,提高連貫性和情境意識。
Transformer 的提出不僅是 NLP 領域的重大突破,更是人工智能發展史上的重要里程碑。它通過自注意力機制、多頭注意力機制、位置編碼等創新設計,解決了傳統模型的諸多局限性,為未來的語言建模和深度學習研究開辟了新的可能性。
3. 預訓練 Transformer 模型時代(2018-2020)
2017 年 Transformer 架構的推出,為 NLP 的新時代奠定了基礎,其特點是預訓練模型的興起以及對擴展能力前所未有的重視。這一時期出現了兩個頗具影響力的模型系列:BERT 和 GPT,它們展現了大規模預訓練和微調范式的威力。
3.1 BERT:雙向語境理解(2018)
2018 年,谷歌推出了BERT(基于 Transformer 的雙向編碼器表征),這是一個突破性的模型,它利用Transformer 的編碼器在眾多自然語言處理 (NLP) 任務中實現了卓越的性能。與之前以單向方式(從左到右或從右到左)處理文本的模型不同,BERT 采用了雙向訓練方法,使其能夠同時從兩個方向捕捉上下文。通過生成深度、上下文豐富的文本表征,BERT 在文本分類、名稱實體識別 (NER)、情感分析等語言理解任務中表現出色。
BERT 是第一個僅使用編碼器的 Transformer 模型
BERT 的關鍵創新在于:
掩碼語言模型 (MLM):BERT 并非預測序列中的下一個單詞,而是被訓練預測句子中隨機掩碼的詞條。這迫使模型在進行預測時考慮句子的整體上下文——包括前后單詞。例如,給定句子“The cat sat on the [MASK] mat”,BERT 會學習根據周圍上下文預測“soft”。
下一句預測 (NSP):除了 MLM 之外,BERT 還接受了名為“下一句預測”的輔助任務訓練,該模型學習預測文檔中的兩個句子是否連續。這有助于 BERT 在需要理解句子之間關系的任務(例如問答和自然語言推理)中表現出色。
BERT 的影響: BERT 的雙向訓練使其在 GLUE(通用語言理解評估)和 SQuAD(斯坦福問答數據集)等基準測試中取得了突破性的表現。它的成功證明了上下文嵌入(根據周圍詞匯動態變化的表示)的重要性,并為新一代預訓練模型鋪平了道路。
3.2 GPT:生成式預訓練 Transformer(2018-2020)
BERT 優先考慮雙向上下文理解,而 OpenAI 的 GPT 系列則采用了獨特的策略,專注于通過自回歸預訓練實現生成能力。通過利用Transformer 的解碼器,GPT 模型在文本生成任務中表現出色。
GPT(生成式預訓練 Transformer)是第一個僅解碼器的 Transformer 模型。
GPT(2018):單向解碼器專用 Transformer 建模
GPT 系列的首個版本于 2018 年 6 月發布,引入了僅用于解碼器的 Transformer 架構,該架構擁有1.17 億個參數,標志著自然語言處理 (NLP) 領域的一個重要里程碑。該架構使用單向自回歸方法對4.6GB 高質量文本數據進行訓練,僅根據之前的標記預測下一個標記。該設計通過捕捉自然語言中的序列依賴關系,在文本補全、摘要和對話生成等生成任務中表現出色。然而,GPT 的設計初衷主要是為了利用監督微調 (SFT) 來適應各種目標任務。
總體而言,GPT 的自回歸特性通過捕捉自然語言中的序列依賴關系,實現了令人印象深刻的文本生成。該設計展現了僅使用解碼器的 Transformer 的潛力,為 GPT 系列奠定了基礎,并為具有復雜生成和泛化能力的高級 LLM 鋪平了道路。
GPT-2(2019):擴展廣義零樣本學習的語言模型
GPT-2 于 2019 年 2 月發布,較其前身有了重大改進,擁有15 億個參數,并在40GB 的多樣化互聯網文本上進行了訓練。它引入了突破性的零樣本學習能力,無需針對特定任務進行微調即可執行論文寫作、問答、摘要和翻譯等任務。
GPT-2 展現了擴展模型規模和訓練數據的強大能力,能夠生成高質量、類人文本,同時展現出其新興的多任務處理能力。然而,其先進的生成能力也引發了倫理方面的擔憂,導致在完整模型公開之前,GPT-2 曾分階段發布多個較小版本。GPT-2 為語言模型樹立了新標準,凸顯了大規模預訓練系統在泛化應用方面的潛力。
GPT-3(2020):大規模大型語言模型的曙光
GPT-3 于 2020 年 6 月發布,其擁有1750 億個參數,是當時規模最大的語言模型,徹底革新了人工智能。該模型基于龐大而多樣化的文本語料庫進行訓練,在少樣本學習和零樣本學習方面表現出色,能夠執行諸如撰寫論文、生成代碼、解決推理問題,甚至在極少或沒有示例的情況下進行創意寫作等任務。
GPT-3 能夠跨領域泛化——從編碼到對話代理——展現了大規模預訓練模型的新興能力。其類人輸出雖然為生成式人工智能樹立了新的標準,但也引發了關于偏見、虛假信息和濫用的倫理擔憂。通過突破規模和泛化的極限,GPT-3 重新定義了語言模型的可能性,并為高級廣義人工智能鋪平了道路。
3.3 GPT 的影響和擴展的作用
GPT 模型(尤其是 GPT-3)的推出標志著人工智能的變革時代,展現了自回歸架構和生成能力的強大力量。這些模型為內容創作、對話代理和自動推理等應用開辟了新的可能性,并在各種任務中實現了接近人類的性能。GPT -3 擁有 1750 億個參數,展現了規模的深遠影響,證明了在海量數據集上訓練的大型模型可以為人工智能能力樹立新的標桿。
隨著模型大小、數據集大小和用于訓練的計算量的增加,語言建模性能會平穩提升。
2018 年至 2020 年期間,人工智能研究的重點是擴展模型規模。隨著模型參數從數百萬個增長到數十億個,它們在捕捉復雜模式和泛化到新任務方面也變得更加出色。這種“擴展效應”由三個關鍵因素支撐:
數據集大小:較大的模型需要海量數據集進行預訓練。例如,GPT-3 就基于海量互聯網文本進行訓練,使其能夠學習各種語言模式和知識。
參數數量:增加參數數量使得模型能夠表示更復雜的關系,從而提高各種任務的性能。
計算能力:訓練如此大的模型需要大量的計算資源,硬件和分布式計算的進步使得大規模高效訓練成為可能。
這個擴展時代不僅提高了語言模型的性能,而且為人工智能的未來突破奠定了基礎,強調了規模、數據和計算對于實現最先進成果的重要性。
4.訓練后協調:彌合人工智能與人類價值觀之間的差距(2021-2022)
GPT-3 是一款擁有 1750 億個參數、使用自監督學習進行預訓練的 LLM ,其非凡能力能夠生成與人類書寫極為相似的文本,這引發了人們對人工智能生成內容真實性和可信度的擔憂。雖然這一成就標志著人工智能發展的一個重要里程碑,但它也凸顯了確保這些模型符合人類價值觀、偏好和期望的關鍵挑戰。關鍵問題包括指令遵循不一致(例如忽略特定準則或偏離用戶意圖),以及幻覺(即模型生成與事實不符或無意義的內容)。
為了應對這些挑戰,我們引入了兩種關鍵的訓練后方法:監督微調 (SFT)用于增強指令對齊,該方法涉及在精心挑選的數據集上訓練模型,以提高精度并確保符合指導原則。此外,他們利用人類反饋強化學習 (RLHF)進行偏好對齊,利用人類排序的響應來引導模型生成更有利的輸出。這些方法有效地減少了幻覺的發生,提高了模型遵循指令的能力,并使 GPT-3 的行為更接近人類價值觀。
4.1 監督微調(SFT)
增強 GPT-3 對齊能力的第一步是監督微調 (SFT),它是 RLHF 框架的基礎組件。SFT 與指令調優類似,涉及在高質量的輸入輸出對或演示上訓練模型,以教會它如何遵循指令并生成所需的輸出。
指令遵循數據的示例。
這些演示經過精心策劃,以反映預期的行為和結果,確保模型學會產生準確且適合上下文的反應。
然而,單靠 SFT 有其局限性:
可擴展性:收集人工演示需要耗費大量勞動力和時間,尤其是對于復雜或小眾的任務。
性能:簡單地模仿人類行為并不能保證模型會超越人類的表現或很好地推廣到看不見的任務。
為了克服這些挑戰,需要一種更具可擴展性和效率的方法,為下一步鋪平道路:從人類反饋中進行強化學習(RLHF)。
4.2 基于人類反饋的強化學習(RLHF)
RLHF由 OpenAI 于 2022 年推出,旨在解決 SFT 的可擴展性和性能限制。與需要人工編寫完整輸出的 SFT 不同,RLHF 會根據質量對多個模型生成的輸出進行排序。這種方法可以更高效地收集和標記數據,從而顯著提升可擴展性。
RLHF 流程包括兩個關鍵階段:
訓練獎勵模型:人工注釋者對模型生成的多個輸出進行排序,從而創建一個偏好數據集。這些數據用于訓練獎勵模型,該模型學習根據人工反饋評估輸出的質量。
使用強化學習對 LLM 進行微調:獎勵模型使用強化學習算法近端策略優化 (PPO)來指導 LLM 的微調。通過迭代更新,該模型學習生成更符合人類偏好和期望的輸出。
這個兩階段流程——結合 SFT 和 RLHF——使模型不僅能夠準確地遵循指令,還能適應新任務并持續改進。通過將人工反饋融入訓練循環,RLHF 顯著增強了模型生成可靠、與人類一致的輸出的能力,為 AI 的一致性和性能樹立了新的標桿。
4.3 ChatGPT:推進對話式人工智能(2022 年)
2022 年 3 月,OpenAI 發布了GPT-3.5,這是 GPT-3 的升級版,架構相同,但訓練和微調功能有所改進。主要改進包括:通過精煉數據實現更好的指令執行,減少幻覺(但并未完全消除),以及更多樣化、更新的數據集,從而實現更相關、更情境感知的響應。
ChatGPT
OpenAI 在 GPT-3.5 和 InstructGPT 的基礎上,于 2022 年 11 月推出了ChatGPT,這是一個突破性的對話式 AI 模型,專門針對自然的多輪對話進行了微調。ChatGPT 的主要改進包括:
以對話為中心的微調:經過大量對話數據集的訓練,ChatGPT 擅長在對話中保持上下文和連續性,從而實現更具吸引力和更人性化的互動。
RLHF:通過整合 RLHF,ChatGPT 學會了生成不僅實用,而且誠實無害的回復。人類訓練員會根據回復質量對其進行排序,從而使模型能夠不斷改進其性能。
ChatGPT 的推出標志著人工智能的一個關鍵時刻,通常被稱為“ ChatGPT 時刻”,因為它展示了對話式人工智能改變人機交互的潛力。
5. 多模態模型:連接文本、圖像及其他領域(2023-2024)
2023 年至 2024 年間, GPT-4、GPT-4V 和 GPT-4o 等多模態大型語言模型 (MLLM)通過將文本、圖像、音頻和視頻集成到統一系統中,重新定義了人工智能。這些模型擴展了傳統語言模型的功能,實現了更豐富的交互和更復雜的問題解決。
5.1 GPT-4V:視覺與語言的結合
2023 年,OpenAI 推出了 GPT-4V,將 GPT-4 的語言能力與先進的計算機視覺技術相結合。它可以解讀圖像、生成字幕、回答視覺問題,并推斷視覺圖像中的上下文關系。其跨模態注意力機制實現了文本和圖像數據的無縫集成,使其在醫療保健(例如分析醫學圖像)和教育(例如交互式學習工具)等領域具有巨大的應用價值。
5.2 GPT-4o:全模態前沿
到 2024 年初,GPT-4o 通過整合音頻和視頻輸入,進一步提升了多模態性。它在統一的表征空間中運行,可以轉錄語音、描述視頻或將文本合成音頻。實時交互和增強的創造力(例如生成多媒體內容)使其成為娛樂和設計等行業的多功能工具。
向 GPT-4o 問好
現實世界的影響
MLLM 徹底改變了醫療保健(診斷)、教育(互動學習)和創意產業(多媒體制作)等領域。它們處理多種模式的能力為創新開啟了新的可能性。
6.開源和開放權重模型(2023-2024)
2023 年至 2024 年間,開源和開放權重的人工智能模型發展勢頭強勁,使先進人工智能技術的獲取變得民主化。
開放權重 LLM提供公開可訪問的模型權重,且限制極少。這使得模型能夠進行微調和自適應調整,同時保持訓練架構和訓練數據的封閉性。它們適合快速部署。示例:Meta AI 的 LLaMA 系列以及 Mistral AI 的 Mistral 7B / Mixtral 8x7B
開源 LLM公開底層代碼和結構。這使得模型能夠被全面理解、修改和定制,從而促進創新和適應性。例如:OPT 和 BERT。
社區驅動的創新:像 Hugging Face 這樣的平臺促進了協作,并借助 LoRA 和 PEFT 等工具實現了高效的微調。社區開發了針對醫療保健、法律和創意領域的專用模型,同時優先考慮符合倫理道德的 AI 實踐。
得益于尖端比對技術的出現,開源社區目前正處于一個激動人心的階段。這一進展催生了越來越多卓越的開放權重模型的發布。因此,閉源模型與開放權重模型之間的差距正在穩步縮小。LLaMA3.1-405B 模型開創了歷史性的先河,它彌合了與閉源模型之間的差距。
7. 推理模型:從系統1到系統2思維的轉變(2024)
2024年,人工智能發展開始強調增強推理能力,從簡單的模式識別發展到更具邏輯性和結構化的思維過程。這種轉變受到認知心理學雙過程理論的影響,該理論區分了系統1(快速、直覺)和系統2(慢速、分析)思維。雖然之前的模型(例如GPT-3和GPT-4)能夠熟練地完成系統1的任務(例如文本生成),但它們缺乏更深層次的推理和解決問題的能力。
系統 1 與系統 2 思維
7.1 OpenAI-o1:推理能力的飛躍
從OpenAI 于 2024 年 9 月 12 日發布的 o1-preview開始,推理模型的發布標志著人工智能能力的重大飛躍,尤其是在解決數學和編程等復雜推理任務方面。與傳統的 LLM 不同,推理模型采用長鏈思維(Long CoT)——一種內部推理軌跡,允許模型通過分解問題、批判自身解決方案和探索替代方案來“思考”問題。這些 CoT 對用戶隱藏,用戶只能看到匯總的輸出。
推理模型的主要特征包括:
- Long CoT:使模型能夠將復雜問題分解為更小的部分,批判其解決方案,并探索多種方法,類似于搜索算法。
- 推理時間計算控制:可以為更復雜的問題生成更長的 CoT,而更短的 CoT 可以為更簡單的任務節省計算。
- 增強的推理能力:雖然像 o1-preview 這樣的初始推理模型在某些方面能力不如標準大型語言模型 (LLM),但它們在推理任務中的表現卻遠超后者,甚至經常能與人類專家相媲美。例如,o1-preview 在數學 (AIME 2024)、編碼 (CodeForces) 和博士級科學問題方面均超越了 GPT-4o。
GPT-4o與o1-preview與o1與人類專家。
OpenAI-o1:
2024年12月5日,OpenAI的完整版o1模型進一步提升性能,在2024年AIME數學考試中躋身全美前500名,并顯著超越GPT-4o(解決了74%-93%的AIME問題,而GPT-4o僅為12%)。此外,更便宜、更快速的o1-mini版本,盡管比完整版o1便宜80%,但仍保留了強大的推理能力,尤其是在編碼方面。
OpenAI-o3:
2025年1月,OpenAI發布了o3模型,這是其推理模型系列的最新突破,該模型基于o1模型的成功。盡管完整的o3模型尚未發布,但其在關鍵基準測試中的表現已被譽為突破性的。
ARC-AGI:準確率達到 87.5%,超越人類水平(85%),并遠遠超過 GPT-4o 的 5%。
編碼:在 SWE-Bench Verified 上獲得 71.7% 的得分,在 Codeforces 上獲得 2727 的 Elo 分數,躋身全球前 200 名競爭性程序員之列。
數學:在 EpochAI 的 FrontierMath 上實現了 25.2% 的準確率,比之前的最先進水平(2.0%)有了顯著的飛躍。
OpenAI-o1和OpenAI-o3推理模型的發布代表了人工智能的重大進步,通過結構化的內部推理過程提供了卓越的問題解決能力,并在數學和編碼等復雜任務中樹立了新的標桿。
8. 成本高效的推理模型:DeepSeek-R1(2025)
LLM 通常需要極其龐大的計算資源來進行訓練和推理。GPT-4o 和 OpenAI-o1 等最先進的 LLM 模型的閉源特性限制了尖端 AI 技術普及的普及。
8.1 DeepSeek-V3
2024年12月下旬,DeepSeek-V3 作為一款經濟高效的開放式大型語言模型 (LLM) 應運而生,為人工智能的可及性樹立了新的標桿。DeepSeek-V3 可與 OpenAI 的 ChatGPT 等頂級解決方案相媲美,但開發成本卻顯著降低,估計約為 560 萬美元,僅為西方公司投資額的一小部分。該模型擁有多達 6710 億個參數,其中活躍參數達 370 億個,并采用混合專家 (MoE) 架構,將模型劃分為專門用于數學和編程等任務的組件,以減輕訓練負擔。DeepSeek-V3 融入了工程效率方面的提升,例如改進了鍵值緩存的管理,并進一步推進了混合專家方法。該模型引入了三個關鍵架構:
多頭潛在注意力 (MLA):通過壓縮注意力鍵和值來減少內存使用量,同時保持性能,并通過旋轉位置嵌入 (RoPE) 增強位置信息。
DeepSeek 混合專家 (DeepSeekMoE):在前饋網絡 (FFN) 中混合使用共享和路由專家來提高效率并平衡專家利用率。
多標記預測:增強模型生成連貫且上下文相關的輸出的能力,特別是對于需要生成復雜序列的任務。
DeepSeek-V3 的發布引發了全球科技股的拋售,市值一度跌至 1 萬億美元,并導致英偉達股價盤前下跌 13%。DeepSeek-V3 的定價為每百萬輸出代幣 2.19 美元,約為 OpenAI 同類模型價格的三十分之一。
8.2 DeepSeek-R1-Zero 和 DeepSeek-R1
僅僅一個月后,即2025年1月下旬,DeepSeek發布了DeepSeek-R1-Zero和DeepSeek-R1,引起了轟動。這兩款模型以極低的訓練成本展現了卓越的推理能力。利用先進的強化學習技術,這些模型證明了高性能推理無需像尖端AI那樣產生高昂的計算成本。這一突破鞏固了DeepSeek在高效可擴展AI創新領域的領先地位。
DeepSeek-R1-Zero:基于 DeepSeek-V3 構建的推理模型,并通過強化學習 (RL) 增強其推理能力。它完全省去了監督微調階段,直接從名為 DeepSeek-V3-Base 的預訓練模型開始。它采用一種名為“組相對策略優化 (GRPO)”的基于規則的強化學習方法,該方法根據預定義規則計算獎勵,從而使訓練過程更簡單、更具可擴展性。
DeepSeek-R1:為了解決 DeepSeek-R1-Zero 的局限性,例如可讀性低和語言混合,DeepSeek-R1 結合了有限的高質量冷啟動數據和額外的強化學習訓練。該模型經過多個階段的微調和強化學習,包括拒絕采樣和第二輪強化學習訓練,以提高其通用能力并符合人類的偏好。
精簡版 DeepSeek 模型: DeepSeek 開發了精簡版 DeepSeek-R1,其參數數量從 15 億到 700 億不等,旨在將先進的推理能力引入性能較弱的硬件。這些模型使用原始 DeepSeek-R1 生成的合成數據進行微調,確保在推理任務中擁有強勁性能,同時保持足夠輕量級以支持本地部署。
DeepSeek-R1 在數學、編程、常識和寫作等多項基準測試中均展現出優異的性能。根據使用模式的不同,與 OpenAI 的 o1 模型等競爭對手相比,它能夠顯著節省成本,使用成本可降低 20 到 50 倍。
圖片
8.3 對人工智能產業的影響
DeepSeek-R1 的推出挑戰了人工智能領域的既定規范,使高級大型語言模型 (LLM) 的獲取更加民主化,并促進了更具競爭力的生態系統。其經濟實惠和便捷性預計將推動各行各業的采用和創新。最近,AWS、微軟和谷歌云等領先的云服務提供商已在其平臺上提供 DeepSeek-R1。小型云服務提供商和 DeepSeek 的母公司也以極具競爭力的價格提供 DeepSeek-R1。
結論
大型語言模型 (LLM) 的演進,從 2017 年 Transformer 架構的引入,到 2025 年 DeepSeek-R1 的開發,標志著人工智能領域的革命性篇章。LLM 的興起伴隨著四項里程碑式的成就:
- Transformers(2017): Transformer 架構的引入為構建大規模、高效的模型奠定了基礎,這些模型能夠以前所未有的精度和靈活性處理復雜任務。
- GPT-3(2020):該模型展示了 LLM 規模化的變革力量,證明了在大量數據集上訓練的大規模模型可以在廣泛的應用中實現接近人類的性能,為 LLM 所能實現的目標設定了新的基準。
- ChatGPT (2022):通過將對話式大型語言模型 (LLM) 引入主流,ChatGPT 使高級人工智能更容易被日常用戶所接受和互動。它也引發了關于 LLM 廣泛應用的倫理和社會影響的批判性討論。
- DeepSeek-R1 (2025): DeepSeek-R1 利用混合專家 (MoE)、多頭潛在注意力 (MLA) 和多標記預測 (MTP),并結合使用群組相對策略優化 (GRPO) 的高效多階段強化學習訓練,提供清晰的推理能力。與許多領先的閉源模型相比,其運營成本可降低高達 50 倍。此外,其開源特性使尖端 AI 的獲取更加民主化,賦能各行各業的創新者,并凸顯了可擴展性、一致性和可訪問性在塑造 AI 未來中的重要性。
LLM 正在穩步轉型為功能多樣、具備推理能力的多模態系統,既能滿足日常用戶的需求,也能滿足專業需求。這一演變源于突破性的創新,以及規模化、易用性和成本效益的提升,推動著 AI 走向更易于觸及、更具影響力的未來。