小白也能輕松理解的大模型入門錦囊!
一、何為大模型?
大模型,英文名叫Large Model,也被稱為基礎(chǔ)模型(Foundation Model)。
我們通常說(shuō)的大模型,主要指的是其中最常用的一類——大語(yǔ)言模型(Large Language Model,簡(jiǎn)稱LLM)。除此之外,還有視覺(jué)大模型、多模態(tài)大模型等。所有這些類別合在一起,被稱為廣義的大模型;而狹義的大模型則特指「大語(yǔ)言模型」。
1. 大模型的本質(zhì)
從本質(zhì)上來(lái)講,大模型是包含超大規(guī)模參數(shù)(通常在十億個(gè)以上)的神經(jīng)網(wǎng)絡(luò)模型。這些參數(shù)使得大模型能夠處理和理解復(fù)雜的任務(wù),如自然語(yǔ)言處理、圖像識(shí)別等。
2. 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)
神經(jīng)網(wǎng)絡(luò)是AI領(lǐng)域目前最基礎(chǔ)的計(jì)算模型。它通過(guò)模擬大腦中神經(jīng)元的連接方式,能夠從輸入數(shù)據(jù)中學(xué)習(xí)并生成有用的輸出。
如下圖所示,一個(gè)典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括:
- 輸入層:接收外部輸入數(shù)據(jù)。
- 隱藏層:多個(gè)中間層,每層神經(jīng)元與下一層的所有神經(jīng)元都有連接(即全連接神經(jīng)網(wǎng)絡(luò)),負(fù)責(zé)數(shù)據(jù)的特征提取和轉(zhuǎn)換。
- 輸出層:生成最終的輸出結(jié)果。
常見(jiàn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)有:
- 卷積神經(jīng)網(wǎng)絡(luò)(CNN):主要用于圖像處理。
- 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):適用于序列數(shù)據(jù)處理,如時(shí)間序列分析。
- 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM):改進(jìn)版的RNN,能更好地處理長(zhǎng)期依賴問(wèn)題。
- Transformer架構(gòu):目前業(yè)界大部分大模型都采用了這種架構(gòu),尤其擅長(zhǎng)處理自然語(yǔ)言任務(wù)。
二、大模型的“大”體現(xiàn)在哪些方面?
大模型的“大”,不僅僅是參數(shù)規(guī)模大,還包括以下幾個(gè)方面:
- 參數(shù)規(guī)模大:大模型包含數(shù)十億甚至數(shù)千億個(gè)參數(shù),使其能夠捕捉更復(fù)雜的模式和關(guān)系。
- 架構(gòu)規(guī)模大:大模型通常具有非常深的網(wǎng)絡(luò)結(jié)構(gòu),層數(shù)可達(dá)幾十層甚至上百層。
- 訓(xùn)練數(shù)據(jù)大:大模型需要海量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以確保其具備廣泛的知識(shí)和能力。
- 算力需求大:訓(xùn)練大模型需要強(qiáng)大的計(jì)算資源,如高性能GPU集群或TPU,以支持大規(guī)模的并行計(jì)算。
以O(shè)penAI公司的GPT-3為例,共有96層隱藏層,每層包含2048個(gè)神經(jīng)元,其架構(gòu)規(guī)模非常龐大。
大模型的參數(shù)數(shù)量和神經(jīng)元節(jié)點(diǎn)數(shù)之間存在一定的關(guān)系。簡(jiǎn)單來(lái)說(shuō),神經(jīng)元節(jié)點(diǎn)數(shù)越多,參數(shù)也就越多。GPT-3整個(gè)模型的參數(shù)數(shù)量約為1750億個(gè)。
GPT-3的訓(xùn)練數(shù)據(jù)也非常龐大,采用了多種高質(zhì)量的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練:
- CC數(shù)據(jù)集:4千億詞
- WebText2:190億詞
- BookCorpus:670億詞
- 維基百科:30億詞
這些數(shù)據(jù)集加起來(lái),原始數(shù)據(jù)總量達(dá)到了45TB,即使經(jīng)過(guò)清洗后也有570GB。如此海量的數(shù)據(jù)確保了GPT-3具備廣泛的知識(shí)和能力,能夠在各種自然語(yǔ)言任務(wù)上表現(xiàn)優(yōu)異。
還有算力需求。很具公開(kāi)數(shù)據(jù)顯示,訓(xùn)練GPT-3大約需要3640PFLOP·天。如果使用512張NVIDIA A100 GPU(單卡算力195 TFLOPS),大約需要1個(gè)月的時(shí)間。實(shí)際上,由于訓(xùn)練過(guò)程中可能會(huì)出現(xiàn)中斷或其它問(wèn)題,實(shí)際所需時(shí)間可能會(huì)更長(zhǎng)。
總而言之,大模型就是一個(gè)虛擬的龐然大物,具有復(fù)雜的架構(gòu)、龐大的參數(shù)量、依賴海量數(shù)據(jù),并且訓(xùn)練過(guò)程非常燒錢。
而參數(shù)較少(一般在百萬(wàn)級(jí)以下)、層數(shù)較淺的小模型,具有輕量級(jí)、高效率和易于部署的特點(diǎn),適用于數(shù)據(jù)量較小、計(jì)算資源有限的垂直領(lǐng)域場(chǎng)景,如簡(jiǎn)單的文本分類、情感分析等任務(wù)。
三、大模型是如何訓(xùn)練出來(lái)的?
眾所周知,大模型可以通過(guò)學(xué)習(xí)海量數(shù)據(jù),吸收數(shù)據(jù)里面的“知識(shí)”。然后再對(duì)知識(shí)進(jìn)行運(yùn)用,例如回答問(wèn)題、生成內(nèi)容等。
而「學(xué)習(xí)知識(shí)的過(guò)程,就是訓(xùn)練過(guò)程。運(yùn)用知識(shí)的過(guò)程,即為推理。」
大模型的訓(xùn)練,又分為兩個(gè)主要環(huán)節(jié):預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning)。
1. 預(yù)訓(xùn)練
在預(yù)訓(xùn)練時(shí),首先需要選擇一個(gè)合適的模型框架,例如Transformer。然后,通過(guò)“投喂”前面提到的海量數(shù)據(jù),讓大模型學(xué)習(xí)到通用的特征表示。
(1) 為什么大模型具有強(qiáng)大的學(xué)習(xí)能力?
大模型之所以具備如此強(qiáng)大的學(xué)習(xí)能力,主要?dú)w功于其龐大的參數(shù)規(guī)模和復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。我們可以從以下幾個(gè)方面來(lái)理解這一點(diǎn):
① 神經(jīng)元與權(quán)重的關(guān)系
如上圖,深度學(xué)習(xí)模型中的每個(gè)神經(jīng)元可以看做是一個(gè)函數(shù)計(jì)算單元。輸入x經(jīng)過(guò)一系列線性變換和非線性激活函數(shù)后,產(chǎn)生輸出y。這個(gè)過(guò)程可以用以下公式表示:
其中,
- W是權(quán)重(weights),決定了輸入特征對(duì)模型輸出的影響程度。
- b是偏置(bias),影響神經(jīng)元的激活閾值,即神經(jīng)元對(duì)輸入信號(hào)的敏感程度。
- f是激活函數(shù),如ReLU、Sigmoid等,用于引入非線性特性。
權(quán)重是最主要的參數(shù)之一。通過(guò)反復(fù)訓(xùn)練,模型不斷調(diào)整權(quán)重,使其能夠更好的擬合訓(xùn)練數(shù)據(jù)。「這也就是訓(xùn)練的核心意義——找到最合理的權(quán)重和偏置組合,使得模型能夠在新數(shù)據(jù)上表現(xiàn)良好。」
② 參數(shù)與學(xué)習(xí)能力的關(guān)系
參數(shù)越多,模型通常能夠?qū)W習(xí)到更復(fù)雜的模式和特征,從而在各種任務(wù)上表現(xiàn)出更強(qiáng)的性能。
我們通常會(huì)說(shuō)大模型具有兩個(gè)特征能力——涌現(xiàn)能力和泛化能力。
當(dāng)模型的訓(xùn)練數(shù)據(jù)和參數(shù)不斷擴(kuò)大,直到達(dá)到一定的臨界規(guī)模后,會(huì)表現(xiàn)出一些未能預(yù)測(cè)的、更復(fù)雜的能力和特性。模型能夠從原始訓(xùn)練數(shù)據(jù)中,自動(dòng)學(xué)習(xí)并發(fā)現(xiàn)新的、更高層次的特征和模式。這種能力,被稱為“涌現(xiàn)能力”。
“涌現(xiàn)能力”,可以理解為大模型的腦子突然“開(kāi)竅”了,不再僅僅是復(fù)述知識(shí),而是能夠理解知識(shí),并且能夠發(fā)散思維。
泛化能力,是指大模型通過(guò)“投喂”海量數(shù)據(jù),可以學(xué)習(xí)復(fù)雜的模式和特征,可以對(duì)未見(jiàn)過(guò)的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。就像董宇輝一樣,書讀得多了,有些書雖然沒(méi)讀過(guò),他也能說(shuō)幾句。
③ 過(guò)擬合的風(fēng)險(xiǎn)
然而,參數(shù)規(guī)模越來(lái)越大,雖然能讓大模型變得更強(qiáng),但是也會(huì)帶來(lái)更龐大的資源消耗,甚至可能增加“過(guò)擬合”的風(fēng)險(xiǎn)。
過(guò)擬合,即是指模型對(duì)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得過(guò)于精確,以至于它開(kāi)始捕捉并反映訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié),而不是數(shù)據(jù)的總體趨勢(shì)或規(guī)律。換句話說(shuō),模型變成了“書呆子”,只會(huì)死記硬背,不愿意融會(huì)貫通。
(2) 預(yù)訓(xùn)練使用的數(shù)據(jù)
預(yù)訓(xùn)練使用的數(shù)據(jù)是海量的未標(biāo)注數(shù)據(jù)(幾十TB)。之所以使用未標(biāo)注數(shù)據(jù),是因?yàn)榛ヂ?lián)網(wǎng)上存在大量的此類數(shù)據(jù),很容易獲取。而標(biāo)注數(shù)據(jù)(基本上靠人工標(biāo)注)需要消耗大量的時(shí)間和金錢,成本太高。
① 數(shù)據(jù)預(yù)處理
為了確保數(shù)據(jù)的質(zhì)量和適用性,整個(gè)數(shù)據(jù)需要經(jīng)過(guò)以下預(yù)處理步驟:
- 收集:從多個(gè)來(lái)源收集原始數(shù)據(jù)。
- 清洗:去除異常數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)。
- 脫敏:刪除隱私信息,確保數(shù)據(jù)安全。
分類:對(duì)數(shù)據(jù)進(jìn)行分類,使其更標(biāo)準(zhǔn)化,有利于后續(xù)訓(xùn)練。
② 獲取數(shù)據(jù)的方式
獲取數(shù)據(jù)的方式也是多樣化的:
- 個(gè)人和學(xué)術(shù)研究:可以通過(guò)官方論壇、開(kāi)源數(shù)據(jù)庫(kù)或研究機(jī)構(gòu)獲取。
- 企業(yè):既可以自行收集和處理,也可以直接通過(guò)外部渠道(市場(chǎng)上有專門的數(shù)據(jù)提供商)購(gòu)買。
(3) 無(wú)監(jiān)督學(xué)習(xí)方法
預(yù)訓(xùn)練模型通過(guò)無(wú)監(jiān)督學(xué)習(xí)從未標(biāo)注數(shù)據(jù)中學(xué)習(xí)到通用特征和表示。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)方法包括:
- 自編碼器(Autoencoder):通過(guò)學(xué)習(xí)數(shù)據(jù)的壓縮表示來(lái)進(jìn)行重構(gòu)。
- 生成對(duì)抗網(wǎng)絡(luò)(GAN):通過(guò)生成器和判別器之間的對(duì)抗訓(xùn)練來(lái)學(xué)習(xí)數(shù)據(jù)分布。
- 掩碼語(yǔ)言建模(Masked Language Modeling, MLM):隨機(jī)遮蔽部分輸入文本,讓模型預(yù)測(cè)被遮蔽的部分。
- 對(duì)比學(xué)習(xí)(Contrastive Learning):通過(guò)對(duì)比相似和不相似的數(shù)據(jù)樣本,學(xué)習(xí)數(shù)據(jù)的表示。
2. 微調(diào)
預(yù)訓(xùn)練學(xué)習(xí)之后,我們得到了一個(gè)通用大模型,這種模型雖然具備廣泛的知識(shí)和能力,但在完成特定任務(wù)時(shí)往往表現(xiàn)不佳。因此,我們需要對(duì)模型進(jìn)行微調(diào)。
(1) 什么是微調(diào)?
「微調(diào)(Fine-tuning)」是給大模型提供特定領(lǐng)域的標(biāo)注數(shù)據(jù)集,對(duì)預(yù)訓(xùn)練的模型參數(shù)進(jìn)行微小的調(diào)整,使其更好地完成特定任務(wù)。通過(guò)微調(diào),可以顯著提升模型在特定任務(wù)上的性能。
微調(diào)之后的大模型可以根據(jù)應(yīng)用場(chǎng)景分為不同層次:
- 通用大模型:類似于中小學(xué)生,具有廣泛的基礎(chǔ)知識(shí),但缺乏專業(yè)性。
- 行業(yè)大模型:基于特定行業(yè)的數(shù)據(jù)集進(jìn)行微調(diào)。如金融證券大模型通過(guò)基于金融證券數(shù)據(jù)集的微調(diào),可以得到一個(gè)專門用于金融分析和預(yù)測(cè)的大模型。這相當(dāng)于大學(xué)本科生,具備了更專業(yè)的知識(shí)和技能。
- 專業(yè)大模型(或垂直大模型):進(jìn)一步細(xì)分到更具體的領(lǐng)域,如金融領(lǐng)域的股票預(yù)測(cè)等。這相當(dāng)于研究生,具備高度專業(yè)化的能力。
如下圖所示。
(2) 微調(diào)的優(yōu)勢(shì)
- 減少計(jì)算資源需求:微調(diào)階段使用的數(shù)據(jù)量遠(yuǎn)小于預(yù)訓(xùn)練階段,因此對(duì)算力的需求也小很多。通常只需要少量的GPU或TPU即可完成微調(diào)過(guò)程。
- 提高任務(wù)特定性能:預(yù)訓(xùn)練模型在廣泛的數(shù)據(jù)上學(xué)習(xí)到了通用特征,但這些特征不一定能很好地適用于特定任務(wù)。通過(guò)微調(diào),模型可以在特定任務(wù)上表現(xiàn)出更高的準(zhǔn)確性和效率。
- 避免重復(fù)投入:對(duì)于大部分大模型廠商來(lái)說(shuō),他們一般只做預(yù)訓(xùn)練,不做微調(diào)。而對(duì)于行業(yè)客戶來(lái)說(shuō),他們一般只做微調(diào),不做預(yù)訓(xùn)練。“預(yù)訓(xùn)練+微調(diào)”這種分階段的大模型訓(xùn)練方式,可以避免重復(fù)的投入,節(jié)省大量的計(jì)算資源,顯著提升大模型的訓(xùn)練效率和效果。
(3) 微調(diào)的具體步驟
① 選擇合適的標(biāo)注數(shù)據(jù)集:標(biāo)注數(shù)據(jù)集是微調(diào)的關(guān)鍵。需要根據(jù)具體任務(wù)選擇高質(zhì)量的標(biāo)注數(shù)據(jù),確保數(shù)據(jù)的多樣性和代表性。
② 調(diào)整模型參數(shù):在微調(diào)過(guò)程中,通過(guò)對(duì)少量標(biāo)注數(shù)據(jù)的訓(xùn)練,對(duì)預(yù)訓(xùn)練模型的參數(shù)進(jìn)行微小的調(diào)整,使其更適合特定任務(wù)。常見(jiàn)的微調(diào)方法包括:
- 全層微調(diào):調(diào)整所有層的參數(shù)。
- 部分層微調(diào):僅調(diào)整部分層的參數(shù),保留其他層的參數(shù)不變。
- 凍結(jié)部分層:凍結(jié)某些層的參數(shù),僅調(diào)整新添加的層或特定層的參數(shù)。
③ 評(píng)估模型性能:微調(diào)完成后,需要對(duì)大模型進(jìn)行全面評(píng)估。評(píng)估內(nèi)容包括性能、穩(wěn)定性和準(zhǔn)確性等,以確認(rèn)模型是否符合設(shè)計(jì)要求。常用的評(píng)估方法包括:
- 使用實(shí)際數(shù)據(jù)或模擬場(chǎng)景進(jìn)行測(cè)試。
- 比較模型在不同任務(wù)上的表現(xiàn)。
- 分析模型的推理速度和資源消耗。
④ 部署與推理:評(píng)估和驗(yàn)證完成后,大模型就可以部署到生產(chǎn)環(huán)境中,用于推理任務(wù)。此時(shí),模型的參數(shù)已經(jīng)定型,不再變化,可以真正開(kāi)始工作。推理過(guò)程就是用戶通過(guò)提問(wèn)或提供提示詞(Prompt),讓大模型回答問(wèn)題或生成內(nèi)容。
完整的流程圖如下圖所示:
四、大模型到底有什么作用?
1. 按訓(xùn)練數(shù)據(jù)類型分類的大模型
根據(jù)訓(xùn)練的數(shù)據(jù)類型和應(yīng)用方向,大模型通常分為以下幾類:
- 語(yǔ)言大模型(以文本數(shù)據(jù)進(jìn)行訓(xùn)練)
- 音頻大模型(以音頻數(shù)據(jù)進(jìn)行訓(xùn)練)
- 視覺(jué)大模型(以圖像數(shù)據(jù)進(jìn)行訓(xùn)練)
- 多模態(tài)大模型(結(jié)合文本、圖像、音頻等多種模態(tài)的數(shù)據(jù))
每種類型的大模型在不同領(lǐng)域中發(fā)揮著重要作用。其中,
(1) 語(yǔ)言大模型
應(yīng)用場(chǎng)景:自然語(yǔ)言處理(NLP)
功能特點(diǎn):
- 理解、生成和處理人類語(yǔ)言:能夠理解和生成高質(zhì)量的自然語(yǔ)言文本。
- 文本內(nèi)容創(chuàng)作:生成文章、詩(shī)歌、代碼等。
- 文獻(xiàn)分析:自動(dòng)摘要、關(guān)鍵詞提取、情感分析等。
- 機(jī)器翻譯:將一種語(yǔ)言翻譯成另一種語(yǔ)言。
- 對(duì)話系統(tǒng):如ChatGPT,用于構(gòu)建智能聊天機(jī)器人。
典型應(yīng)用:
- 內(nèi)容創(chuàng)作:自動(dòng)生成新聞報(bào)道、博客文章、技術(shù)文檔等。
- 客服支持:自動(dòng)化客戶服務(wù),回答用戶問(wèn)題。
- 教育輔助:幫助學(xué)生學(xué)習(xí)語(yǔ)言、編寫作文等。
- 法律文件處理:審查合同、撰寫法律意見(jiàn)書等。
(2) 音頻大模型
應(yīng)用場(chǎng)景:語(yǔ)音識(shí)別與合成
功能特點(diǎn):識(shí)別和生成語(yǔ)音內(nèi)容:能夠準(zhǔn)確識(shí)別語(yǔ)音并轉(zhuǎn)換為文本,或根據(jù)文本生成自然的語(yǔ)音。
典型應(yīng)用:
- 語(yǔ)音助手:如Siri、Alexa等智能語(yǔ)音助手。
- 語(yǔ)音客服:自動(dòng)應(yīng)答電話客服系統(tǒng)。
- 智能家居控制:通過(guò)語(yǔ)音命令控制家電設(shè)備。
- 語(yǔ)音轉(zhuǎn)文字:會(huì)議記錄、采訪轉(zhuǎn)錄等。
(3) 視覺(jué)大模型
應(yīng)用場(chǎng)景:計(jì)算機(jī)視覺(jué)(CV)
功能特點(diǎn):識(shí)別、生成和修復(fù)圖像:能夠識(shí)別物體、場(chǎng)景、人臉等,并生成或修復(fù)圖像。
典型應(yīng)用:
- 安防監(jiān)控:實(shí)時(shí)監(jiān)控和異常檢測(cè)。
- 自動(dòng)駕駛:識(shí)別道路、行人、交通標(biāo)志等。
- 醫(yī)學(xué)影像分析:輔助醫(yī)生診斷疾病,如X光、CT掃描等。
- 天文圖像分析:識(shí)別星系、行星等天體。
(4) 多模態(tài)大模型
應(yīng)用場(chǎng)景:跨領(lǐng)域任務(wù)
功能特點(diǎn):整合并處理來(lái)自不同模態(tài)的信息:可以處理文本、圖像、音頻和視頻等多種形式的數(shù)據(jù)。
典型應(yīng)用:
- 文生圖:根據(jù)文本描述生成相應(yīng)的圖像。
- 文生視頻:根據(jù)文本描述生成視頻內(nèi)容。
- 跨媒體搜索:通過(guò)上傳圖片搜索相關(guān)的文字描述,或通過(guò)文字搜索相關(guān)圖片。
- 多媒體內(nèi)容創(chuàng)作:生成包含文本、圖像、音頻的綜合內(nèi)容。
2. 按應(yīng)用場(chǎng)景分類的大模型
除了按照數(shù)據(jù)類型分類,大模型還可以根據(jù)具體應(yīng)用場(chǎng)景進(jìn)一步細(xì)分。
- 金融大模型:用于風(fēng)險(xiǎn)管理、信用評(píng)估、交易監(jiān)控、市場(chǎng)預(yù)測(cè)、合同審查、客戶服務(wù)等。
- 醫(yī)療大模型:用于疾病診斷、藥物研發(fā)、基因分析、健康管理等。
- 法律大模型:用于法律咨詢、合同審查、案例分析、法規(guī)檢索等。
- 教育大模型:用于個(gè)性化學(xué)習(xí)、在線輔導(dǎo)、考試評(píng)估、課程推薦等。
- 代碼大模型:用于代碼生成、代碼補(bǔ)全、代碼審查、編程助手等。
- 能源大模型:用于能源管理、故障預(yù)測(cè)、優(yōu)化調(diào)度等。
- 政務(wù)大模型:用于政策分析、輿情監(jiān)測(cè)、公共服務(wù)等。
- 通信大模型:用于網(wǎng)絡(luò)優(yōu)化、故障診斷、服務(wù)質(zhì)量提升等。
五、大模型的發(fā)展趨勢(shì)
截至2024年3月25日,中國(guó)10億參數(shù)規(guī)模以上的大模型數(shù)量已經(jīng)超過(guò)100個(gè),號(hào)稱“百模大戰(zhàn)”。這些大模型的應(yīng)用領(lǐng)域、參數(shù)規(guī)模各有不同,但背后都是高昂的成本。根據(jù)行業(yè)估測(cè)的數(shù)據(jù),訓(xùn)練一個(gè)大模型的成本可能在幾百萬(wàn)美元到上億美元之間。例如,GPT-3的訓(xùn)練成本約為140萬(wàn)美元,而Claude 3模型的訓(xùn)練費(fèi)用高達(dá)約1億美元。
隨著行業(yè)的逐漸理性化,大模型的發(fā)展趨勢(shì)也發(fā)生了顯著變化,主要體現(xiàn)在以下幾個(gè)方面:
(1) 從追求參數(shù)規(guī)模到注重實(shí)際應(yīng)用
- 頭部企業(yè)繼續(xù)探索超大規(guī)模模型:盡管大部分企業(yè)已經(jīng)將萬(wàn)卡和萬(wàn)億參數(shù)視為天花板,但是仍有一些頭部企業(yè)在死磕參數(shù)規(guī)模更大的超大模型(擁有數(shù)萬(wàn)億到數(shù)千萬(wàn)億個(gè)參數(shù)),如OpenAI、xAI等。馬斯克宣布xAI團(tuán)隊(duì)成功啟動(dòng)了世界上最強(qiáng)大的AI訓(xùn)練集群,由10萬(wàn)塊H100組成,主要用于Grok 2和Grok 3的訓(xùn)練和開(kāi)發(fā)。
- 其他企業(yè)轉(zhuǎn)向?qū)嵱没簩?duì)于大部分企業(yè)來(lái)說(shuō),再往上走的意愿不強(qiáng)烈,錢包也不允許。因此,越來(lái)越多的企業(yè)將關(guān)注點(diǎn)從“打造大模型”轉(zhuǎn)向“使用大模型”,如何將大模型投入具體應(yīng)用、吸引更多用戶、通過(guò)大模型創(chuàng)造收入成為各大廠商的頭等任務(wù)。
(2) 大模型的輕量化與端側(cè)部署
- AI手機(jī)、AI PC、具身智能的概念越來(lái)越火:為了將大模型的能力下沉到終端設(shè)備,AI手機(jī)、AI PC、具身智能等概念成為新的發(fā)展熱點(diǎn)。高通、聯(lián)發(fā)科等芯片廠商推出了具有更強(qiáng)AI算力的手機(jī)芯片,OPPO、vivo等手機(jī)廠商也在手機(jī)中內(nèi)置了大模型,并推出了許多原生AI應(yīng)用。
- 第三方AI應(yīng)用的數(shù)量激增:根據(jù)行業(yè)數(shù)據(jù)顯示,具有AI功能的APP數(shù)量已達(dá)到300多萬(wàn)款。2024年6月,AIGC類APP的月活躍用戶規(guī)模達(dá)6170萬(wàn),同比增長(zhǎng)653%。
- 輕量化技術(shù)的應(yīng)用:為了在資源受限的設(shè)備上運(yùn)行,大模型將通過(guò)剪枝、量化、蒸餾等技術(shù)進(jìn)行輕量化,保持性能的同時(shí)減少計(jì)算資源需求。這使得大模型可以在移動(dòng)設(shè)備、嵌入式系統(tǒng)等環(huán)境中高效運(yùn)行。
(3) 開(kāi)源與閉源并行
- 開(kāi)源大模型的廣泛應(yīng)用:大部分大模型是基于開(kāi)源大模型框架和技術(shù)打造的,實(shí)際上是為了迎合資本市場(chǎng)的需求或蹭熱度。開(kāi)源大模型為中小型企業(yè)提供了低成本進(jìn)入AI領(lǐng)域的途徑,促進(jìn)了創(chuàng)新和應(yīng)用的多樣化。
- 閉源大模型的高端競(jìng)爭(zhēng):有能力做閉源大模型的企業(yè)并不多,但這些企業(yè)的閉源大模型往往具備更高的安全性和定制化能力,適用于對(duì)數(shù)據(jù)隱私和性能要求較高的場(chǎng)景。
(4) 多模態(tài)融合的趨勢(shì)
- 跨領(lǐng)域任務(wù)處理:多模態(tài)大模型結(jié)合了NLP和CV的能力,通過(guò)整合并處理來(lái)自不同模態(tài)的信息(文本、圖像、音頻和視頻等),可以處理復(fù)雜的跨領(lǐng)域任務(wù),如文生圖、文生視頻、跨媒體搜索等。
六、大模型會(huì)帶來(lái)哪些挑戰(zhàn)?
大模型確實(shí)是一個(gè)強(qiáng)大的工具,能夠幫助我們節(jié)約時(shí)間、提升效率,但同時(shí)也是一把雙刃劍,帶來(lái)了多方面的挑戰(zhàn)。以下是大模型在倫理、法律、社會(huì)和經(jīng)濟(jì)層面的主要挑戰(zhàn):
(1) 影響失業(yè)率
- 崗位替代:大模型所掀起的AI人工智能浪潮可能導(dǎo)致一些人類工作崗位被替代,尤其是那些重復(fù)性高、規(guī)則明確的工作,如客服、數(shù)據(jù)錄入、內(nèi)容審核等。
- 失業(yè)率上升:隨著自動(dòng)化程度的提高,短期內(nèi)可能會(huì)導(dǎo)致失業(yè)率上升,給社會(huì)穩(wěn)定帶來(lái)壓力。
(2) 版權(quán)與知識(shí)產(chǎn)權(quán)問(wèn)題
- 內(nèi)容生成爭(zhēng)議:大模型基于已有數(shù)據(jù)進(jìn)行學(xué)習(xí),生成的內(nèi)容(文本、圖像、音樂(lè)、視頻等)可能引發(fā)版權(quán)和知識(shí)產(chǎn)權(quán)問(wèn)題。這些內(nèi)容雖然幫助了創(chuàng)作,但也“引用”了人類創(chuàng)作者的作品,界限難以區(qū)分。
- 打擊創(chuàng)作熱情:長(zhǎng)此以往,可能會(huì)打擊人類的原生創(chuàng)作熱情,減少原創(chuàng)作品的數(shù)量和質(zhì)量。
(3) 算法偏見(jiàn)和不公平
- 偏差傳遞:訓(xùn)練數(shù)據(jù)中存在的偏差會(huì)導(dǎo)致大模型學(xué)習(xí)到這些偏差,從而在預(yù)測(cè)和生成內(nèi)容時(shí)表現(xiàn)出不公平的行為。例如,性別、種族、宗教等方面的偏見(jiàn)可能被無(wú)意中強(qiáng)化。
- 社會(huì)影響:大模型生成的內(nèi)容可能被用于政治宣傳和操縱,影響選舉和公共輿論,進(jìn)一步加劇社會(huì)不平等。
(4) 被用于犯罪
- 惡意用途:大模型可以生成逼真的文本、圖像、語(yǔ)音和視頻,這些內(nèi)容可能被用于詐騙、誹謗、虛假信息傳播等惡意用途。
- 監(jiān)管難度:由于大模型生成的內(nèi)容難以區(qū)分真假,給監(jiān)管帶來(lái)了巨大挑戰(zhàn)。
(5) 能耗問(wèn)題
- 資源消耗:大模型的訓(xùn)練和推理需要大量的計(jì)算資源,這不僅增加了成本,還帶來(lái)了巨大的碳排放。
- 無(wú)意義的碳排放:很多企業(yè)為了服務(wù)于資本市場(chǎng)或跟風(fēng),盲目進(jìn)行大模型訓(xùn)練,消耗了大量的資源,導(dǎo)致了無(wú)意義的碳排放。
總之,大模型在倫理、法律、社會(huì)和經(jīng)濟(jì)層面帶來(lái)的挑戰(zhàn)是多方面的,需要社會(huì)各界共同努力來(lái)解決。通過(guò)完善法律法規(guī)、加強(qiáng)技術(shù)研發(fā)、提高公眾意識(shí)等手段,可以在充分發(fā)揮大模型優(yōu)勢(shì)的同時(shí),有效應(yīng)對(duì)這些挑戰(zhàn),推動(dòng)人工智能的健康發(fā)展。