小白也能輕松理解的大模型入門錦囊！

作者：小喵學(xué)AI 2025-03-03 10:00:00

從本質(zhì)上來(lái)講，大模型是包含超大規(guī)模參數(shù)（通常在十億個(gè)以上）的神經(jīng)網(wǎng)絡(luò)模型。這些參數(shù)使得大模型能夠處理和理解復(fù)雜的任務(wù)，如自然語(yǔ)言處理、圖像識(shí)別等。

一、何為大模型？

大模型，英文名叫Large Model，也被稱為基礎(chǔ)模型（Foundation Model）。

我們通常說(shuō)的大模型，主要指的是其中最常用的一類——大語(yǔ)言模型（Large Language Model，簡(jiǎn)稱LLM）。除此之外，還有視覺(jué)大模型、多模態(tài)大模型等。所有這些類別合在一起，被稱為廣義的大模型；而狹義的大模型則特指「大語(yǔ)言模型」。

1. 大模型的本質(zhì)

2. 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)

神經(jīng)網(wǎng)絡(luò)是AI領(lǐng)域目前最基礎(chǔ)的計(jì)算模型。它通過(guò)模擬大腦中神經(jīng)元的連接方式，能夠從輸入數(shù)據(jù)中學(xué)習(xí)并生成有用的輸出。

如下圖所示，一個(gè)典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括：

輸入層：接收外部輸入數(shù)據(jù)。
隱藏層：多個(gè)中間層，每層神經(jīng)元與下一層的所有神經(jīng)元都有連接(即全連接神經(jīng)網(wǎng)絡(luò))，負(fù)責(zé)數(shù)據(jù)的特征提取和轉(zhuǎn)換。
輸出層：生成最終的輸出結(jié)果。

常見(jiàn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)有：

卷積神經(jīng)網(wǎng)絡(luò)（CNN）：主要用于圖像處理。
循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）：適用于序列數(shù)據(jù)處理，如時(shí)間序列分析。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM）：改進(jìn)版的RNN，能更好地處理長(zhǎng)期依賴問(wèn)題。
Transformer架構(gòu)：目前業(yè)界大部分大模型都采用了這種架構(gòu)，尤其擅長(zhǎng)處理自然語(yǔ)言任務(wù)。

二、大模型的“大”體現(xiàn)在哪些方面？

大模型的“大”，不僅僅是參數(shù)規(guī)模大，還包括以下幾個(gè)方面：

參數(shù)規(guī)模大：大模型包含數(shù)十億甚至數(shù)千億個(gè)參數(shù)，使其能夠捕捉更復(fù)雜的模式和關(guān)系。
架構(gòu)規(guī)模大：大模型通常具有非常深的網(wǎng)絡(luò)結(jié)構(gòu)，層數(shù)可達(dá)幾十層甚至上百層。
訓(xùn)練數(shù)據(jù)大：大模型需要海量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，以確保其具備廣泛的知識(shí)和能力。
算力需求大：訓(xùn)練大模型需要強(qiáng)大的計(jì)算資源，如高性能GPU集群或TPU，以支持大規(guī)模的并行計(jì)算。

以O(shè)penAI公司的GPT-3為例，共有96層隱藏層，每層包含2048個(gè)神經(jīng)元，其架構(gòu)規(guī)模非常龐大。

大模型的參數(shù)數(shù)量和神經(jīng)元節(jié)點(diǎn)數(shù)之間存在一定的關(guān)系。簡(jiǎn)單來(lái)說(shuō)，神經(jīng)元節(jié)點(diǎn)數(shù)越多，參數(shù)也就越多。GPT-3整個(gè)模型的參數(shù)數(shù)量約為1750億個(gè)。

GPT-3的訓(xùn)練數(shù)據(jù)也非常龐大，采用了多種高質(zhì)量的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練：

CC數(shù)據(jù)集：4千億詞
WebText2：190億詞
BookCorpus：670億詞
維基百科：30億詞

這些數(shù)據(jù)集加起來(lái)，原始數(shù)據(jù)總量達(dá)到了45TB，即使經(jīng)過(guò)清洗后也有570GB。如此海量的數(shù)據(jù)確保了GPT-3具備廣泛的知識(shí)和能力，能夠在各種自然語(yǔ)言任務(wù)上表現(xiàn)優(yōu)異。

還有算力需求。很具公開(kāi)數(shù)據(jù)顯示，訓(xùn)練GPT-3大約需要3640PFLOP·天。如果使用512張NVIDIA A100 GPU（單卡算力195 TFLOPS），大約需要1個(gè)月的時(shí)間。實(shí)際上，由于訓(xùn)練過(guò)程中可能會(huì)出現(xiàn)中斷或其它問(wèn)題，實(shí)際所需時(shí)間可能會(huì)更長(zhǎng)。

總而言之，大模型就是一個(gè)虛擬的龐然大物，具有復(fù)雜的架構(gòu)、龐大的參數(shù)量、依賴海量數(shù)據(jù)，并且訓(xùn)練過(guò)程非常燒錢。

而參數(shù)較少（一般在百萬(wàn)級(jí)以下）、層數(shù)較淺的小模型，具有輕量級(jí)、高效率和易于部署的特點(diǎn)，適用于數(shù)據(jù)量較小、計(jì)算資源有限的垂直領(lǐng)域場(chǎng)景，如簡(jiǎn)單的文本分類、情感分析等任務(wù)。

三、大模型是如何訓(xùn)練出來(lái)的？

眾所周知，大模型可以通過(guò)學(xué)習(xí)海量數(shù)據(jù)，吸收數(shù)據(jù)里面的“知識(shí)”。然后再對(duì)知識(shí)進(jìn)行運(yùn)用，例如回答問(wèn)題、生成內(nèi)容等。

而「學(xué)習(xí)知識(shí)的過(guò)程，就是訓(xùn)練過(guò)程。運(yùn)用知識(shí)的過(guò)程，即為推理。」

大模型的訓(xùn)練，又分為兩個(gè)主要環(huán)節(jié)：預(yù)訓(xùn)練（Pre-training）和微調(diào)（Fine-tuning）。

1. 預(yù)訓(xùn)練

在預(yù)訓(xùn)練時(shí)，首先需要選擇一個(gè)合適的模型框架，例如Transformer。然后，通過(guò)“投喂”前面提到的海量數(shù)據(jù)，讓大模型學(xué)習(xí)到通用的特征表示。

(1) 為什么大模型具有強(qiáng)大的學(xué)習(xí)能力？

大模型之所以具備如此強(qiáng)大的學(xué)習(xí)能力，主要?dú)w功于其龐大的參數(shù)規(guī)模和復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。我們可以從以下幾個(gè)方面來(lái)理解這一點(diǎn)：

① 神經(jīng)元與權(quán)重的關(guān)系

如上圖，深度學(xué)習(xí)模型中的每個(gè)神經(jīng)元可以看做是一個(gè)函數(shù)計(jì)算單元。輸入x經(jīng)過(guò)一系列線性變換和非線性激活函數(shù)后，產(chǎn)生輸出y。這個(gè)過(guò)程可以用以下公式表示：

其中，

W是權(quán)重（weights），決定了輸入特征對(duì)模型輸出的影響程度。
b是偏置（bias），影響神經(jīng)元的激活閾值，即神經(jīng)元對(duì)輸入信號(hào)的敏感程度。
f是激活函數(shù)，如ReLU、Sigmoid等，用于引入非線性特性。

權(quán)重是最主要的參數(shù)之一。通過(guò)反復(fù)訓(xùn)練，模型不斷調(diào)整權(quán)重，使其能夠更好的擬合訓(xùn)練數(shù)據(jù)。「這也就是訓(xùn)練的核心意義——找到最合理的權(quán)重和偏置組合，使得模型能夠在新數(shù)據(jù)上表現(xiàn)良好。」

② 參數(shù)與學(xué)習(xí)能力的關(guān)系

參數(shù)越多，模型通常能夠?qū)W習(xí)到更復(fù)雜的模式和特征，從而在各種任務(wù)上表現(xiàn)出更強(qiáng)的性能。

我們通常會(huì)說(shuō)大模型具有兩個(gè)特征能力——涌現(xiàn)能力和泛化能力。

當(dāng)模型的訓(xùn)練數(shù)據(jù)和參數(shù)不斷擴(kuò)大，直到達(dá)到一定的臨界規(guī)模后，會(huì)表現(xiàn)出一些未能預(yù)測(cè)的、更復(fù)雜的能力和特性。模型能夠從原始訓(xùn)練數(shù)據(jù)中，自動(dòng)學(xué)習(xí)并發(fā)現(xiàn)新的、更高層次的特征和模式。這種能力，被稱為“涌現(xiàn)能力”。

“涌現(xiàn)能力”，可以理解為大模型的腦子突然“開(kāi)竅”了，不再僅僅是復(fù)述知識(shí)，而是能夠理解知識(shí)，并且能夠發(fā)散思維。

泛化能力，是指大模型通過(guò)“投喂”海量數(shù)據(jù)，可以學(xué)習(xí)復(fù)雜的模式和特征，可以對(duì)未見(jiàn)過(guò)的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。就像董宇輝一樣，書讀得多了，有些書雖然沒(méi)讀過(guò)，他也能說(shuō)幾句。

③ 過(guò)擬合的風(fēng)險(xiǎn)

然而，參數(shù)規(guī)模越來(lái)越大，雖然能讓大模型變得更強(qiáng)，但是也會(huì)帶來(lái)更龐大的資源消耗，甚至可能增加“過(guò)擬合”的風(fēng)險(xiǎn)。

過(guò)擬合，即是指模型對(duì)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得過(guò)于精確，以至于它開(kāi)始捕捉并反映訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)，而不是數(shù)據(jù)的總體趨勢(shì)或規(guī)律。換句話說(shuō)，模型變成了“書呆子”，只會(huì)死記硬背，不愿意融會(huì)貫通。

(2) 預(yù)訓(xùn)練使用的數(shù)據(jù)

預(yù)訓(xùn)練使用的數(shù)據(jù)是海量的未標(biāo)注數(shù)據(jù)（幾十TB）。之所以使用未標(biāo)注數(shù)據(jù)，是因?yàn)榛ヂ?lián)網(wǎng)上存在大量的此類數(shù)據(jù)，很容易獲取。而標(biāo)注數(shù)據(jù)（基本上靠人工標(biāo)注）需要消耗大量的時(shí)間和金錢，成本太高。

① 數(shù)據(jù)預(yù)處理

為了確保數(shù)據(jù)的質(zhì)量和適用性，整個(gè)數(shù)據(jù)需要經(jīng)過(guò)以下預(yù)處理步驟：

收集：從多個(gè)來(lái)源收集原始數(shù)據(jù)。
清洗：去除異常數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)。
脫敏：刪除隱私信息，確保數(shù)據(jù)安全。

分類：對(duì)數(shù)據(jù)進(jìn)行分類，使其更標(biāo)準(zhǔn)化，有利于后續(xù)訓(xùn)練。

② 獲取數(shù)據(jù)的方式

獲取數(shù)據(jù)的方式也是多樣化的：

個(gè)人和學(xué)術(shù)研究：可以通過(guò)官方論壇、開(kāi)源數(shù)據(jù)庫(kù)或研究機(jī)構(gòu)獲取。
企業(yè)：既可以自行收集和處理，也可以直接通過(guò)外部渠道（市場(chǎng)上有專門的數(shù)據(jù)提供商）購(gòu)買。

(3) 無(wú)監(jiān)督學(xué)習(xí)方法

預(yù)訓(xùn)練模型通過(guò)無(wú)監(jiān)督學(xué)習(xí)從未標(biāo)注數(shù)據(jù)中學(xué)習(xí)到通用特征和表示。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)方法包括：

自編碼器（Autoencoder）：通過(guò)學(xué)習(xí)數(shù)據(jù)的壓縮表示來(lái)進(jìn)行重構(gòu)。
生成對(duì)抗網(wǎng)絡(luò)（GAN）：通過(guò)生成器和判別器之間的對(duì)抗訓(xùn)練來(lái)學(xué)習(xí)數(shù)據(jù)分布。
掩碼語(yǔ)言建模（Masked Language Modeling, MLM）：隨機(jī)遮蔽部分輸入文本，讓模型預(yù)測(cè)被遮蔽的部分。
對(duì)比學(xué)習(xí)（Contrastive Learning）：通過(guò)對(duì)比相似和不相似的數(shù)據(jù)樣本，學(xué)習(xí)數(shù)據(jù)的表示。

2. 微調(diào)

預(yù)訓(xùn)練學(xué)習(xí)之后，我們得到了一個(gè)通用大模型，這種模型雖然具備廣泛的知識(shí)和能力，但在完成特定任務(wù)時(shí)往往表現(xiàn)不佳。因此，我們需要對(duì)模型進(jìn)行微調(diào)。

(1) 什么是微調(diào)？

「微調(diào)（Fine-tuning）」是給大模型提供特定領(lǐng)域的標(biāo)注數(shù)據(jù)集，對(duì)預(yù)訓(xùn)練的模型參數(shù)進(jìn)行微小的調(diào)整，使其更好地完成特定任務(wù)。通過(guò)微調(diào)，可以顯著提升模型在特定任務(wù)上的性能。

微調(diào)之后的大模型可以根據(jù)應(yīng)用場(chǎng)景分為不同層次：

通用大模型：類似于中小學(xué)生，具有廣泛的基礎(chǔ)知識(shí)，但缺乏專業(yè)性。
行業(yè)大模型：基于特定行業(yè)的數(shù)據(jù)集進(jìn)行微調(diào)。如金融證券大模型通過(guò)基于金融證券數(shù)據(jù)集的微調(diào)，可以得到一個(gè)專門用于金融分析和預(yù)測(cè)的大模型。這相當(dāng)于大學(xué)本科生，具備了更專業(yè)的知識(shí)和技能。
專業(yè)大模型（或垂直大模型）：進(jìn)一步細(xì)分到更具體的領(lǐng)域，如金融領(lǐng)域的股票預(yù)測(cè)等。這相當(dāng)于研究生，具備高度專業(yè)化的能力。

如下圖所示。

(2) 微調(diào)的優(yōu)勢(shì)

減少計(jì)算資源需求：微調(diào)階段使用的數(shù)據(jù)量遠(yuǎn)小于預(yù)訓(xùn)練階段，因此對(duì)算力的需求也小很多。通常只需要少量的GPU或TPU即可完成微調(diào)過(guò)程。
提高任務(wù)特定性能：預(yù)訓(xùn)練模型在廣泛的數(shù)據(jù)上學(xué)習(xí)到了通用特征，但這些特征不一定能很好地適用于特定任務(wù)。通過(guò)微調(diào)，模型可以在特定任務(wù)上表現(xiàn)出更高的準(zhǔn)確性和效率。
避免重復(fù)投入：對(duì)于大部分大模型廠商來(lái)說(shuō)，他們一般只做預(yù)訓(xùn)練，不做微調(diào)。而對(duì)于行業(yè)客戶來(lái)說(shuō)，他們一般只做微調(diào)，不做預(yù)訓(xùn)練。“預(yù)訓(xùn)練+微調(diào)”這種分階段的大模型訓(xùn)練方式，可以避免重復(fù)的投入，節(jié)省大量的計(jì)算資源，顯著提升大模型的訓(xùn)練效率和效果。

(3) 微調(diào)的具體步驟

① 選擇合適的標(biāo)注數(shù)據(jù)集：標(biāo)注數(shù)據(jù)集是微調(diào)的關(guān)鍵。需要根據(jù)具體任務(wù)選擇高質(zhì)量的標(biāo)注數(shù)據(jù)，確保數(shù)據(jù)的多樣性和代表性。

② 調(diào)整模型參數(shù)：在微調(diào)過(guò)程中，通過(guò)對(duì)少量標(biāo)注數(shù)據(jù)的訓(xùn)練，對(duì)預(yù)訓(xùn)練模型的參數(shù)進(jìn)行微小的調(diào)整，使其更適合特定任務(wù)。常見(jiàn)的微調(diào)方法包括：

全層微調(diào)：調(diào)整所有層的參數(shù)。
部分層微調(diào)：僅調(diào)整部分層的參數(shù)，保留其他層的參數(shù)不變。
凍結(jié)部分層：凍結(jié)某些層的參數(shù)，僅調(diào)整新添加的層或特定層的參數(shù)。

③ 評(píng)估模型性能：微調(diào)完成后，需要對(duì)大模型進(jìn)行全面評(píng)估。評(píng)估內(nèi)容包括性能、穩(wěn)定性和準(zhǔn)確性等，以確認(rèn)模型是否符合設(shè)計(jì)要求。常用的評(píng)估方法包括：

使用實(shí)際數(shù)據(jù)或模擬場(chǎng)景進(jìn)行測(cè)試。
比較模型在不同任務(wù)上的表現(xiàn)。
分析模型的推理速度和資源消耗。

④ 部署與推理：評(píng)估和驗(yàn)證完成后，大模型就可以部署到生產(chǎn)環(huán)境中，用于推理任務(wù)。此時(shí)，模型的參數(shù)已經(jīng)定型，不再變化，可以真正開(kāi)始工作。推理過(guò)程就是用戶通過(guò)提問(wèn)或提供提示詞（Prompt），讓大模型回答問(wèn)題或生成內(nèi)容。

完整的流程圖如下圖所示：

四、大模型到底有什么作用？

1. 按訓(xùn)練數(shù)據(jù)類型分類的大模型

根據(jù)訓(xùn)練的數(shù)據(jù)類型和應(yīng)用方向，大模型通常分為以下幾類：

語(yǔ)言大模型（以文本數(shù)據(jù)進(jìn)行訓(xùn)練）
音頻大模型（以音頻數(shù)據(jù)進(jìn)行訓(xùn)練）
視覺(jué)大模型（以圖像數(shù)據(jù)進(jìn)行訓(xùn)練）
多模態(tài)大模型（結(jié)合文本、圖像、音頻等多種模態(tài)的數(shù)據(jù)）

每種類型的大模型在不同領(lǐng)域中發(fā)揮著重要作用。其中，

(1) 語(yǔ)言大模型

應(yīng)用場(chǎng)景：自然語(yǔ)言處理（NLP）

功能特點(diǎn)：

理解、生成和處理人類語(yǔ)言：能夠理解和生成高質(zhì)量的自然語(yǔ)言文本。
文本內(nèi)容創(chuàng)作：生成文章、詩(shī)歌、代碼等。
文獻(xiàn)分析：自動(dòng)摘要、關(guān)鍵詞提取、情感分析等。
機(jī)器翻譯：將一種語(yǔ)言翻譯成另一種語(yǔ)言。
對(duì)話系統(tǒng)：如ChatGPT，用于構(gòu)建智能聊天機(jī)器人。

典型應(yīng)用：

內(nèi)容創(chuàng)作：自動(dòng)生成新聞報(bào)道、博客文章、技術(shù)文檔等。
客服支持：自動(dòng)化客戶服務(wù)，回答用戶問(wèn)題。
教育輔助：幫助學(xué)生學(xué)習(xí)語(yǔ)言、編寫作文等。
法律文件處理：審查合同、撰寫法律意見(jiàn)書等。

(2) 音頻大模型

應(yīng)用場(chǎng)景：語(yǔ)音識(shí)別與合成

功能特點(diǎn)：識(shí)別和生成語(yǔ)音內(nèi)容：能夠準(zhǔn)確識(shí)別語(yǔ)音并轉(zhuǎn)換為文本，或根據(jù)文本生成自然的語(yǔ)音。

典型應(yīng)用：

語(yǔ)音助手：如Siri、Alexa等智能語(yǔ)音助手。
語(yǔ)音客服：自動(dòng)應(yīng)答電話客服系統(tǒng)。
智能家居控制：通過(guò)語(yǔ)音命令控制家電設(shè)備。
語(yǔ)音轉(zhuǎn)文字：會(huì)議記錄、采訪轉(zhuǎn)錄等。

(3) 視覺(jué)大模型

應(yīng)用場(chǎng)景：計(jì)算機(jī)視覺(jué)（CV）

功能特點(diǎn)：識(shí)別、生成和修復(fù)圖像：能夠識(shí)別物體、場(chǎng)景、人臉等，并生成或修復(fù)圖像。

典型應(yīng)用：

安防監(jiān)控：實(shí)時(shí)監(jiān)控和異常檢測(cè)。
自動(dòng)駕駛：識(shí)別道路、行人、交通標(biāo)志等。
醫(yī)學(xué)影像分析：輔助醫(yī)生診斷疾病，如X光、CT掃描等。
天文圖像分析：識(shí)別星系、行星等天體。

(4) 多模態(tài)大模型

應(yīng)用場(chǎng)景：跨領(lǐng)域任務(wù)

功能特點(diǎn)：整合并處理來(lái)自不同模態(tài)的信息：可以處理文本、圖像、音頻和視頻等多種形式的數(shù)據(jù)。

典型應(yīng)用：

文生圖：根據(jù)文本描述生成相應(yīng)的圖像。
文生視頻：根據(jù)文本描述生成視頻內(nèi)容。
跨媒體搜索：通過(guò)上傳圖片搜索相關(guān)的文字描述，或通過(guò)文字搜索相關(guān)圖片。
多媒體內(nèi)容創(chuàng)作：生成包含文本、圖像、音頻的綜合內(nèi)容。

2. 按應(yīng)用場(chǎng)景分類的大模型

除了按照數(shù)據(jù)類型分類，大模型還可以根據(jù)具體應(yīng)用場(chǎng)景進(jìn)一步細(xì)分。

金融大模型：用于風(fēng)險(xiǎn)管理、信用評(píng)估、交易監(jiān)控、市場(chǎng)預(yù)測(cè)、合同審查、客戶服務(wù)等。
醫(yī)療大模型：用于疾病診斷、藥物研發(fā)、基因分析、健康管理等。
法律大模型：用于法律咨詢、合同審查、案例分析、法規(guī)檢索等。
教育大模型：用于個(gè)性化學(xué)習(xí)、在線輔導(dǎo)、考試評(píng)估、課程推薦等。
代碼大模型：用于代碼生成、代碼補(bǔ)全、代碼審查、編程助手等。
能源大模型：用于能源管理、故障預(yù)測(cè)、優(yōu)化調(diào)度等。
政務(wù)大模型：用于政策分析、輿情監(jiān)測(cè)、公共服務(wù)等。
通信大模型：用于網(wǎng)絡(luò)優(yōu)化、故障診斷、服務(wù)質(zhì)量提升等。

五、大模型的發(fā)展趨勢(shì)

截至2024年3月25日，中國(guó)10億參數(shù)規(guī)模以上的大模型數(shù)量已經(jīng)超過(guò)100個(gè)，號(hào)稱“百模大戰(zhàn)”。這些大模型的應(yīng)用領(lǐng)域、參數(shù)規(guī)模各有不同，但背后都是高昂的成本。根據(jù)行業(yè)估測(cè)的數(shù)據(jù)，訓(xùn)練一個(gè)大模型的成本可能在幾百萬(wàn)美元到上億美元之間。例如，GPT-3的訓(xùn)練成本約為140萬(wàn)美元，而Claude 3模型的訓(xùn)練費(fèi)用高達(dá)約1億美元。

隨著行業(yè)的逐漸理性化，大模型的發(fā)展趨勢(shì)也發(fā)生了顯著變化，主要體現(xiàn)在以下幾個(gè)方面：

(1) 從追求參數(shù)規(guī)模到注重實(shí)際應(yīng)用

頭部企業(yè)繼續(xù)探索超大規(guī)模模型：盡管大部分企業(yè)已經(jīng)將萬(wàn)卡和萬(wàn)億參數(shù)視為天花板，但是仍有一些頭部企業(yè)在死磕參數(shù)規(guī)模更大的超大模型（擁有數(shù)萬(wàn)億到數(shù)千萬(wàn)億個(gè)參數(shù)），如OpenAI、xAI等。馬斯克宣布xAI團(tuán)隊(duì)成功啟動(dòng)了世界上最強(qiáng)大的AI訓(xùn)練集群，由10萬(wàn)塊H100組成，主要用于Grok 2和Grok 3的訓(xùn)練和開(kāi)發(fā)。
其他企業(yè)轉(zhuǎn)向?qū)嵱没簩?duì)于大部分企業(yè)來(lái)說(shuō)，再往上走的意愿不強(qiáng)烈，錢包也不允許。因此，越來(lái)越多的企業(yè)將關(guān)注點(diǎn)從“打造大模型”轉(zhuǎn)向“使用大模型”，如何將大模型投入具體應(yīng)用、吸引更多用戶、通過(guò)大模型創(chuàng)造收入成為各大廠商的頭等任務(wù)。

(2) 大模型的輕量化與端側(cè)部署

AI手機(jī)、AI PC、具身智能的概念越來(lái)越火：為了將大模型的能力下沉到終端設(shè)備，AI手機(jī)、AI PC、具身智能等概念成為新的發(fā)展熱點(diǎn)。高通、聯(lián)發(fā)科等芯片廠商推出了具有更強(qiáng)AI算力的手機(jī)芯片，OPPO、vivo等手機(jī)廠商也在手機(jī)中內(nèi)置了大模型，并推出了許多原生AI應(yīng)用。
第三方AI應(yīng)用的數(shù)量激增：根據(jù)行業(yè)數(shù)據(jù)顯示，具有AI功能的APP數(shù)量已達(dá)到300多萬(wàn)款。2024年6月，AIGC類APP的月活躍用戶規(guī)模達(dá)6170萬(wàn)，同比增長(zhǎng)653%。
輕量化技術(shù)的應(yīng)用：為了在資源受限的設(shè)備上運(yùn)行，大模型將通過(guò)剪枝、量化、蒸餾等技術(shù)進(jìn)行輕量化，保持性能的同時(shí)減少計(jì)算資源需求。這使得大模型可以在移動(dòng)設(shè)備、嵌入式系統(tǒng)等環(huán)境中高效運(yùn)行。

(3) 開(kāi)源與閉源并行

開(kāi)源大模型的廣泛應(yīng)用：大部分大模型是基于開(kāi)源大模型框架和技術(shù)打造的，實(shí)際上是為了迎合資本市場(chǎng)的需求或蹭熱度。開(kāi)源大模型為中小型企業(yè)提供了低成本進(jìn)入AI領(lǐng)域的途徑，促進(jìn)了創(chuàng)新和應(yīng)用的多樣化。
閉源大模型的高端競(jìng)爭(zhēng)：有能力做閉源大模型的企業(yè)并不多，但這些企業(yè)的閉源大模型往往具備更高的安全性和定制化能力，適用于對(duì)數(shù)據(jù)隱私和性能要求較高的場(chǎng)景。

(4) 多模態(tài)融合的趨勢(shì)

跨領(lǐng)域任務(wù)處理：多模態(tài)大模型結(jié)合了NLP和CV的能力，通過(guò)整合并處理來(lái)自不同模態(tài)的信息（文本、圖像、音頻和視頻等），可以處理復(fù)雜的跨領(lǐng)域任務(wù)，如文生圖、文生視頻、跨媒體搜索等。

六、大模型會(huì)帶來(lái)哪些挑戰(zhàn)？

大模型確實(shí)是一個(gè)強(qiáng)大的工具，能夠幫助我們節(jié)約時(shí)間、提升效率，但同時(shí)也是一把雙刃劍，帶來(lái)了多方面的挑戰(zhàn)。以下是大模型在倫理、法律、社會(huì)和經(jīng)濟(jì)層面的主要挑戰(zhàn)：

(1) 影響失業(yè)率

崗位替代：大模型所掀起的AI人工智能浪潮可能導(dǎo)致一些人類工作崗位被替代，尤其是那些重復(fù)性高、規(guī)則明確的工作，如客服、數(shù)據(jù)錄入、內(nèi)容審核等。
失業(yè)率上升：隨著自動(dòng)化程度的提高，短期內(nèi)可能會(huì)導(dǎo)致失業(yè)率上升，給社會(huì)穩(wěn)定帶來(lái)壓力。

(2) 版權(quán)與知識(shí)產(chǎn)權(quán)問(wèn)題

內(nèi)容生成爭(zhēng)議：大模型基于已有數(shù)據(jù)進(jìn)行學(xué)習(xí)，生成的內(nèi)容（文本、圖像、音樂(lè)、視頻等）可能引發(fā)版權(quán)和知識(shí)產(chǎn)權(quán)問(wèn)題。這些內(nèi)容雖然幫助了創(chuàng)作，但也“引用”了人類創(chuàng)作者的作品，界限難以區(qū)分。
打擊創(chuàng)作熱情：長(zhǎng)此以往，可能會(huì)打擊人類的原生創(chuàng)作熱情，減少原創(chuàng)作品的數(shù)量和質(zhì)量。

(3) 算法偏見(jiàn)和不公平

偏差傳遞：訓(xùn)練數(shù)據(jù)中存在的偏差會(huì)導(dǎo)致大模型學(xué)習(xí)到這些偏差，從而在預(yù)測(cè)和生成內(nèi)容時(shí)表現(xiàn)出不公平的行為。例如，性別、種族、宗教等方面的偏見(jiàn)可能被無(wú)意中強(qiáng)化。
社會(huì)影響：大模型生成的內(nèi)容可能被用于政治宣傳和操縱，影響選舉和公共輿論，進(jìn)一步加劇社會(huì)不平等。

(4) 被用于犯罪

惡意用途：大模型可以生成逼真的文本、圖像、語(yǔ)音和視頻，這些內(nèi)容可能被用于詐騙、誹謗、虛假信息傳播等惡意用途。
監(jiān)管難度：由于大模型生成的內(nèi)容難以區(qū)分真假，給監(jiān)管帶來(lái)了巨大挑戰(zhàn)。

(5) 能耗問(wèn)題

資源消耗：大模型的訓(xùn)練和推理需要大量的計(jì)算資源，這不僅增加了成本，還帶來(lái)了巨大的碳排放。
無(wú)意義的碳排放：很多企業(yè)為了服務(wù)于資本市場(chǎng)或跟風(fēng)，盲目進(jìn)行大模型訓(xùn)練，消耗了大量的資源，導(dǎo)致了無(wú)意義的碳排放。

總之，大模型在倫理、法律、社會(huì)和經(jīng)濟(jì)層面帶來(lái)的挑戰(zhàn)是多方面的，需要社會(huì)各界共同努力來(lái)解決。通過(guò)完善法律法規(guī)、加強(qiáng)技術(shù)研發(fā)、提高公眾意識(shí)等手段，可以在充分發(fā)揮大模型優(yōu)勢(shì)的同時(shí)，有效應(yīng)對(duì)這些挑戰(zhàn)，推動(dòng)人工智能的健康發(fā)展。

責(zé)任編輯：趙寧寧來(lái)源：小喵學(xué)AI