成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小白也能輕松理解的大模型入門錦囊!

人工智能
從本質(zhì)上來(lái)講,大模型是包含超大規(guī)模參數(shù)(通常在十億個(gè)以上)的神經(jīng)網(wǎng)絡(luò)模型。這些參數(shù)使得大模型能夠處理和理解復(fù)雜的任務(wù),如自然語(yǔ)言處理、圖像識(shí)別等。

一、何為大模型?

大模型,英文名叫Large Model,也被稱為基礎(chǔ)模型(Foundation Model)。

我們通常說(shuō)的大模型,主要指的是其中最常用的一類——大語(yǔ)言模型(Large Language Model,簡(jiǎn)稱LLM)。除此之外,還有視覺(jué)大模型、多模態(tài)大模型等。所有這些類別合在一起,被稱為廣義的大模型;而狹義的大模型則特指「大語(yǔ)言模型」。

1. 大模型的本質(zhì)

從本質(zhì)上來(lái)講,大模型是包含超大規(guī)模參數(shù)(通常在十億個(gè)以上)的神經(jīng)網(wǎng)絡(luò)模型。這些參數(shù)使得大模型能夠處理和理解復(fù)雜的任務(wù),如自然語(yǔ)言處理、圖像識(shí)別等。

2. 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)

神經(jīng)網(wǎng)絡(luò)是AI領(lǐng)域目前最基礎(chǔ)的計(jì)算模型。它通過(guò)模擬大腦中神經(jīng)元的連接方式,能夠從輸入數(shù)據(jù)中學(xué)習(xí)并生成有用的輸出。

如下圖所示,一個(gè)典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括:

  • 輸入層:接收外部輸入數(shù)據(jù)。
  • 隱藏層:多個(gè)中間層,每層神經(jīng)元與下一層的所有神經(jīng)元都有連接(即全連接神經(jīng)網(wǎng)絡(luò)),負(fù)責(zé)數(shù)據(jù)的特征提取和轉(zhuǎn)換。
  • 輸出層:生成最終的輸出結(jié)果。

常見(jiàn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)有:

  • 卷積神經(jīng)網(wǎng)絡(luò)(CNN):主要用于圖像處理。
  • 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):適用于序列數(shù)據(jù)處理,如時(shí)間序列分析。
  • 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM):改進(jìn)版的RNN,能更好地處理長(zhǎng)期依賴問(wèn)題。
  • Transformer架構(gòu):目前業(yè)界大部分大模型都采用了這種架構(gòu),尤其擅長(zhǎng)處理自然語(yǔ)言任務(wù)。

二、大模型的“大”體現(xiàn)在哪些方面?

大模型的“大”,不僅僅是參數(shù)規(guī)模大,還包括以下幾個(gè)方面:

  • 參數(shù)規(guī)模大:大模型包含數(shù)十億甚至數(shù)千億個(gè)參數(shù),使其能夠捕捉更復(fù)雜的模式和關(guān)系。
  • 架構(gòu)規(guī)模大:大模型通常具有非常深的網(wǎng)絡(luò)結(jié)構(gòu),層數(shù)可達(dá)幾十層甚至上百層。
  • 訓(xùn)練數(shù)據(jù)大:大模型需要海量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以確保其具備廣泛的知識(shí)和能力。
  • 算力需求大:訓(xùn)練大模型需要強(qiáng)大的計(jì)算資源,如高性能GPU集群或TPU,以支持大規(guī)模的并行計(jì)算。

以O(shè)penAI公司的GPT-3為例,共有96層隱藏層,每層包含2048個(gè)神經(jīng)元,其架構(gòu)規(guī)模非常龐大。

大模型的參數(shù)數(shù)量和神經(jīng)元節(jié)點(diǎn)數(shù)之間存在一定的關(guān)系。簡(jiǎn)單來(lái)說(shuō),神經(jīng)元節(jié)點(diǎn)數(shù)越多,參數(shù)也就越多。GPT-3整個(gè)模型的參數(shù)數(shù)量約為1750億個(gè)。

GPT-3的訓(xùn)練數(shù)據(jù)也非常龐大,采用了多種高質(zhì)量的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練:

  • CC數(shù)據(jù)集:4千億詞
  • WebText2:190億詞
  • BookCorpus:670億詞
  • 維基百科:30億詞

這些數(shù)據(jù)集加起來(lái),原始數(shù)據(jù)總量達(dá)到了45TB,即使經(jīng)過(guò)清洗后也有570GB。如此海量的數(shù)據(jù)確保了GPT-3具備廣泛的知識(shí)和能力,能夠在各種自然語(yǔ)言任務(wù)上表現(xiàn)優(yōu)異。

還有算力需求。很具公開(kāi)數(shù)據(jù)顯示,訓(xùn)練GPT-3大約需要3640PFLOP·天。如果使用512張NVIDIA A100 GPU(單卡算力195 TFLOPS),大約需要1個(gè)月的時(shí)間。實(shí)際上,由于訓(xùn)練過(guò)程中可能會(huì)出現(xiàn)中斷或其它問(wèn)題,實(shí)際所需時(shí)間可能會(huì)更長(zhǎng)。

總而言之,大模型就是一個(gè)虛擬的龐然大物,具有復(fù)雜的架構(gòu)、龐大的參數(shù)量、依賴海量數(shù)據(jù),并且訓(xùn)練過(guò)程非常燒錢。

而參數(shù)較少(一般在百萬(wàn)級(jí)以下)、層數(shù)較淺的小模型,具有輕量級(jí)、高效率和易于部署的特點(diǎn),適用于數(shù)據(jù)量較小、計(jì)算資源有限的垂直領(lǐng)域場(chǎng)景,如簡(jiǎn)單的文本分類、情感分析等任務(wù)。

三、大模型是如何訓(xùn)練出來(lái)的?

眾所周知,大模型可以通過(guò)學(xué)習(xí)海量數(shù)據(jù),吸收數(shù)據(jù)里面的“知識(shí)”。然后再對(duì)知識(shí)進(jìn)行運(yùn)用,例如回答問(wèn)題、生成內(nèi)容等。

而「學(xué)習(xí)知識(shí)的過(guò)程,就是訓(xùn)練過(guò)程。運(yùn)用知識(shí)的過(guò)程,即為推理。」

大模型的訓(xùn)練,又分為兩個(gè)主要環(huán)節(jié):預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning)。

1. 預(yù)訓(xùn)練

在預(yù)訓(xùn)練時(shí),首先需要選擇一個(gè)合適的模型框架,例如Transformer。然后,通過(guò)“投喂”前面提到的海量數(shù)據(jù),讓大模型學(xué)習(xí)到通用的特征表示。

(1) 為什么大模型具有強(qiáng)大的學(xué)習(xí)能力?

大模型之所以具備如此強(qiáng)大的學(xué)習(xí)能力,主要?dú)w功于其龐大的參數(shù)規(guī)模和復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。我們可以從以下幾個(gè)方面來(lái)理解這一點(diǎn):

① 神經(jīng)元與權(quán)重的關(guān)系

如上圖,深度學(xué)習(xí)模型中的每個(gè)神經(jīng)元可以看做是一個(gè)函數(shù)計(jì)算單元。輸入x經(jīng)過(guò)一系列線性變換和非線性激活函數(shù)后,產(chǎn)生輸出y。這個(gè)過(guò)程可以用以下公式表示:

其中,

  • W是權(quán)重(weights),決定了輸入特征對(duì)模型輸出的影響程度。
  • b是偏置(bias),影響神經(jīng)元的激活閾值,即神經(jīng)元對(duì)輸入信號(hào)的敏感程度。
  • f是激活函數(shù),如ReLU、Sigmoid等,用于引入非線性特性。

權(quán)重是最主要的參數(shù)之一。通過(guò)反復(fù)訓(xùn)練,模型不斷調(diào)整權(quán)重,使其能夠更好的擬合訓(xùn)練數(shù)據(jù)。「這也就是訓(xùn)練的核心意義——找到最合理的權(quán)重和偏置組合,使得模型能夠在新數(shù)據(jù)上表現(xiàn)良好。」

 ② 參數(shù)與學(xué)習(xí)能力的關(guān)系

參數(shù)越多,模型通常能夠?qū)W習(xí)到更復(fù)雜的模式和特征,從而在各種任務(wù)上表現(xiàn)出更強(qiáng)的性能。

我們通常會(huì)說(shuō)大模型具有兩個(gè)特征能力——涌現(xiàn)能力和泛化能力。

當(dāng)模型的訓(xùn)練數(shù)據(jù)和參數(shù)不斷擴(kuò)大,直到達(dá)到一定的臨界規(guī)模后,會(huì)表現(xiàn)出一些未能預(yù)測(cè)的、更復(fù)雜的能力和特性。模型能夠從原始訓(xùn)練數(shù)據(jù)中,自動(dòng)學(xué)習(xí)并發(fā)現(xiàn)新的、更高層次的特征和模式。這種能力,被稱為“涌現(xiàn)能力”。

“涌現(xiàn)能力”,可以理解為大模型的腦子突然“開(kāi)竅”了,不再僅僅是復(fù)述知識(shí),而是能夠理解知識(shí),并且能夠發(fā)散思維。

泛化能力,是指大模型通過(guò)“投喂”海量數(shù)據(jù),可以學(xué)習(xí)復(fù)雜的模式和特征,可以對(duì)未見(jiàn)過(guò)的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。就像董宇輝一樣,書讀得多了,有些書雖然沒(méi)讀過(guò),他也能說(shuō)幾句。

③ 過(guò)擬合的風(fēng)險(xiǎn)

然而,參數(shù)規(guī)模越來(lái)越大,雖然能讓大模型變得更強(qiáng),但是也會(huì)帶來(lái)更龐大的資源消耗,甚至可能增加“過(guò)擬合”的風(fēng)險(xiǎn)。

過(guò)擬合,即是指模型對(duì)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得過(guò)于精確,以至于它開(kāi)始捕捉并反映訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié),而不是數(shù)據(jù)的總體趨勢(shì)或規(guī)律。換句話說(shuō),模型變成了“書呆子”,只會(huì)死記硬背,不愿意融會(huì)貫通。

(2) 預(yù)訓(xùn)練使用的數(shù)據(jù)

預(yù)訓(xùn)練使用的數(shù)據(jù)是海量的未標(biāo)注數(shù)據(jù)(幾十TB)。之所以使用未標(biāo)注數(shù)據(jù),是因?yàn)榛ヂ?lián)網(wǎng)上存在大量的此類數(shù)據(jù),很容易獲取。而標(biāo)注數(shù)據(jù)(基本上靠人工標(biāo)注)需要消耗大量的時(shí)間和金錢,成本太高。

① 數(shù)據(jù)預(yù)處理

為了確保數(shù)據(jù)的質(zhì)量和適用性,整個(gè)數(shù)據(jù)需要經(jīng)過(guò)以下預(yù)處理步驟:

  • 收集:從多個(gè)來(lái)源收集原始數(shù)據(jù)。
  • 清洗:去除異常數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)。
  • 脫敏:刪除隱私信息,確保數(shù)據(jù)安全。

分類:對(duì)數(shù)據(jù)進(jìn)行分類,使其更標(biāo)準(zhǔn)化,有利于后續(xù)訓(xùn)練。

② 獲取數(shù)據(jù)的方式

獲取數(shù)據(jù)的方式也是多樣化的:

  • 個(gè)人和學(xué)術(shù)研究:可以通過(guò)官方論壇、開(kāi)源數(shù)據(jù)庫(kù)或研究機(jī)構(gòu)獲取。
  • 企業(yè):既可以自行收集和處理,也可以直接通過(guò)外部渠道(市場(chǎng)上有專門的數(shù)據(jù)提供商)購(gòu)買。

(3) 無(wú)監(jiān)督學(xué)習(xí)方法

預(yù)訓(xùn)練模型通過(guò)無(wú)監(jiān)督學(xué)習(xí)從未標(biāo)注數(shù)據(jù)中學(xué)習(xí)到通用特征和表示。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)方法包括:

  • 自編碼器(Autoencoder):通過(guò)學(xué)習(xí)數(shù)據(jù)的壓縮表示來(lái)進(jìn)行重構(gòu)。
  • 生成對(duì)抗網(wǎng)絡(luò)(GAN):通過(guò)生成器和判別器之間的對(duì)抗訓(xùn)練來(lái)學(xué)習(xí)數(shù)據(jù)分布。
  • 掩碼語(yǔ)言建模(Masked Language Modeling, MLM):隨機(jī)遮蔽部分輸入文本,讓模型預(yù)測(cè)被遮蔽的部分。
  • 對(duì)比學(xué)習(xí)(Contrastive Learning):通過(guò)對(duì)比相似和不相似的數(shù)據(jù)樣本,學(xué)習(xí)數(shù)據(jù)的表示。

2. 微調(diào)

預(yù)訓(xùn)練學(xué)習(xí)之后,我們得到了一個(gè)通用大模型,這種模型雖然具備廣泛的知識(shí)和能力,但在完成特定任務(wù)時(shí)往往表現(xiàn)不佳。因此,我們需要對(duì)模型進(jìn)行微調(diào)。

(1) 什么是微調(diào)?

「微調(diào)(Fine-tuning)」是給大模型提供特定領(lǐng)域的標(biāo)注數(shù)據(jù)集,對(duì)預(yù)訓(xùn)練的模型參數(shù)進(jìn)行微小的調(diào)整,使其更好地完成特定任務(wù)。通過(guò)微調(diào),可以顯著提升模型在特定任務(wù)上的性能。

微調(diào)之后的大模型可以根據(jù)應(yīng)用場(chǎng)景分為不同層次:

  • 通用大模型:類似于中小學(xué)生,具有廣泛的基礎(chǔ)知識(shí),但缺乏專業(yè)性。
  • 行業(yè)大模型:基于特定行業(yè)的數(shù)據(jù)集進(jìn)行微調(diào)。如金融證券大模型通過(guò)基于金融證券數(shù)據(jù)集的微調(diào),可以得到一個(gè)專門用于金融分析和預(yù)測(cè)的大模型。這相當(dāng)于大學(xué)本科生,具備了更專業(yè)的知識(shí)和技能。
  • 專業(yè)大模型(或垂直大模型):進(jìn)一步細(xì)分到更具體的領(lǐng)域,如金融領(lǐng)域的股票預(yù)測(cè)等。這相當(dāng)于研究生,具備高度專業(yè)化的能力。

如下圖所示。

(2) 微調(diào)的優(yōu)勢(shì)

  • 減少計(jì)算資源需求:微調(diào)階段使用的數(shù)據(jù)量遠(yuǎn)小于預(yù)訓(xùn)練階段,因此對(duì)算力的需求也小很多。通常只需要少量的GPU或TPU即可完成微調(diào)過(guò)程。
  • 提高任務(wù)特定性能:預(yù)訓(xùn)練模型在廣泛的數(shù)據(jù)上學(xué)習(xí)到了通用特征,但這些特征不一定能很好地適用于特定任務(wù)。通過(guò)微調(diào),模型可以在特定任務(wù)上表現(xiàn)出更高的準(zhǔn)確性和效率。
  • 避免重復(fù)投入:對(duì)于大部分大模型廠商來(lái)說(shuō),他們一般只做預(yù)訓(xùn)練,不做微調(diào)。而對(duì)于行業(yè)客戶來(lái)說(shuō),他們一般只做微調(diào),不做預(yù)訓(xùn)練。“預(yù)訓(xùn)練+微調(diào)”這種分階段的大模型訓(xùn)練方式,可以避免重復(fù)的投入,節(jié)省大量的計(jì)算資源,顯著提升大模型的訓(xùn)練效率和效果。

(3) 微調(diào)的具體步驟

① 選擇合適的標(biāo)注數(shù)據(jù)集:標(biāo)注數(shù)據(jù)集是微調(diào)的關(guān)鍵。需要根據(jù)具體任務(wù)選擇高質(zhì)量的標(biāo)注數(shù)據(jù),確保數(shù)據(jù)的多樣性和代表性。

② 調(diào)整模型參數(shù):在微調(diào)過(guò)程中,通過(guò)對(duì)少量標(biāo)注數(shù)據(jù)的訓(xùn)練,對(duì)預(yù)訓(xùn)練模型的參數(shù)進(jìn)行微小的調(diào)整,使其更適合特定任務(wù)。常見(jiàn)的微調(diào)方法包括:

  • 全層微調(diào):調(diào)整所有層的參數(shù)。
  • 部分層微調(diào):僅調(diào)整部分層的參數(shù),保留其他層的參數(shù)不變。
  • 凍結(jié)部分層:凍結(jié)某些層的參數(shù),僅調(diào)整新添加的層或特定層的參數(shù)。

③ 評(píng)估模型性能:微調(diào)完成后,需要對(duì)大模型進(jìn)行全面評(píng)估。評(píng)估內(nèi)容包括性能、穩(wěn)定性和準(zhǔn)確性等,以確認(rèn)模型是否符合設(shè)計(jì)要求。常用的評(píng)估方法包括:

  • 使用實(shí)際數(shù)據(jù)或模擬場(chǎng)景進(jìn)行測(cè)試。
  • 比較模型在不同任務(wù)上的表現(xiàn)。
  • 分析模型的推理速度和資源消耗。

④ 部署與推理:評(píng)估和驗(yàn)證完成后,大模型就可以部署到生產(chǎn)環(huán)境中,用于推理任務(wù)。此時(shí),模型的參數(shù)已經(jīng)定型,不再變化,可以真正開(kāi)始工作。推理過(guò)程就是用戶通過(guò)提問(wèn)或提供提示詞(Prompt),讓大模型回答問(wèn)題或生成內(nèi)容。

完整的流程圖如下圖所示:

四、大模型到底有什么作用?

1. 按訓(xùn)練數(shù)據(jù)類型分類的大模型

根據(jù)訓(xùn)練的數(shù)據(jù)類型和應(yīng)用方向,大模型通常分為以下幾類:

  • 語(yǔ)言大模型(以文本數(shù)據(jù)進(jìn)行訓(xùn)練)
  • 音頻大模型(以音頻數(shù)據(jù)進(jìn)行訓(xùn)練)
  • 視覺(jué)大模型(以圖像數(shù)據(jù)進(jìn)行訓(xùn)練)
  • 多模態(tài)大模型(結(jié)合文本、圖像、音頻等多種模態(tài)的數(shù)據(jù))

每種類型的大模型在不同領(lǐng)域中發(fā)揮著重要作用。其中,

(1) 語(yǔ)言大模型

應(yīng)用場(chǎng)景:自然語(yǔ)言處理(NLP)

功能特點(diǎn):

  • 理解、生成和處理人類語(yǔ)言:能夠理解和生成高質(zhì)量的自然語(yǔ)言文本。
  • 文本內(nèi)容創(chuàng)作:生成文章、詩(shī)歌、代碼等。
  • 文獻(xiàn)分析:自動(dòng)摘要、關(guān)鍵詞提取、情感分析等。
  • 機(jī)器翻譯:將一種語(yǔ)言翻譯成另一種語(yǔ)言。
  • 對(duì)話系統(tǒng):如ChatGPT,用于構(gòu)建智能聊天機(jī)器人。

典型應(yīng)用:

  • 內(nèi)容創(chuàng)作:自動(dòng)生成新聞報(bào)道、博客文章、技術(shù)文檔等。
  • 客服支持:自動(dòng)化客戶服務(wù),回答用戶問(wèn)題。
  • 教育輔助:幫助學(xué)生學(xué)習(xí)語(yǔ)言、編寫作文等。
  • 法律文件處理:審查合同、撰寫法律意見(jiàn)書等。

(2) 音頻大模型

應(yīng)用場(chǎng)景:語(yǔ)音識(shí)別與合成

功能特點(diǎn):識(shí)別和生成語(yǔ)音內(nèi)容:能夠準(zhǔn)確識(shí)別語(yǔ)音并轉(zhuǎn)換為文本,或根據(jù)文本生成自然的語(yǔ)音。

典型應(yīng)用:

  • 語(yǔ)音助手:如Siri、Alexa等智能語(yǔ)音助手。
  • 語(yǔ)音客服:自動(dòng)應(yīng)答電話客服系統(tǒng)。
  • 智能家居控制:通過(guò)語(yǔ)音命令控制家電設(shè)備。
  • 語(yǔ)音轉(zhuǎn)文字:會(huì)議記錄、采訪轉(zhuǎn)錄等。

(3) 視覺(jué)大模型

應(yīng)用場(chǎng)景:計(jì)算機(jī)視覺(jué)(CV)

功能特點(diǎn):識(shí)別、生成和修復(fù)圖像:能夠識(shí)別物體、場(chǎng)景、人臉等,并生成或修復(fù)圖像。

典型應(yīng)用:

  • 安防監(jiān)控:實(shí)時(shí)監(jiān)控和異常檢測(cè)。
  • 自動(dòng)駕駛:識(shí)別道路、行人、交通標(biāo)志等。
  • 醫(yī)學(xué)影像分析:輔助醫(yī)生診斷疾病,如X光、CT掃描等。
  • 天文圖像分析:識(shí)別星系、行星等天體。

(4) 多模態(tài)大模型

應(yīng)用場(chǎng)景:跨領(lǐng)域任務(wù)

功能特點(diǎn):整合并處理來(lái)自不同模態(tài)的信息:可以處理文本、圖像、音頻和視頻等多種形式的數(shù)據(jù)。

典型應(yīng)用:

  • 文生圖:根據(jù)文本描述生成相應(yīng)的圖像。
  • 文生視頻:根據(jù)文本描述生成視頻內(nèi)容。
  • 跨媒體搜索:通過(guò)上傳圖片搜索相關(guān)的文字描述,或通過(guò)文字搜索相關(guān)圖片。
  • 多媒體內(nèi)容創(chuàng)作:生成包含文本、圖像、音頻的綜合內(nèi)容。

2. 按應(yīng)用場(chǎng)景分類的大模型

除了按照數(shù)據(jù)類型分類,大模型還可以根據(jù)具體應(yīng)用場(chǎng)景進(jìn)一步細(xì)分。

  • 金融大模型:用于風(fēng)險(xiǎn)管理、信用評(píng)估、交易監(jiān)控、市場(chǎng)預(yù)測(cè)、合同審查、客戶服務(wù)等。
  • 醫(yī)療大模型:用于疾病診斷、藥物研發(fā)、基因分析、健康管理等。
  • 法律大模型:用于法律咨詢、合同審查、案例分析、法規(guī)檢索等。
  • 教育大模型:用于個(gè)性化學(xué)習(xí)、在線輔導(dǎo)、考試評(píng)估、課程推薦等。
  • 代碼大模型:用于代碼生成、代碼補(bǔ)全、代碼審查、編程助手等。
  • 能源大模型:用于能源管理、故障預(yù)測(cè)、優(yōu)化調(diào)度等。
  • 政務(wù)大模型:用于政策分析、輿情監(jiān)測(cè)、公共服務(wù)等。
  • 通信大模型:用于網(wǎng)絡(luò)優(yōu)化、故障診斷、服務(wù)質(zhì)量提升等。

五、大模型的發(fā)展趨勢(shì)

截至2024年3月25日,中國(guó)10億參數(shù)規(guī)模以上的大模型數(shù)量已經(jīng)超過(guò)100個(gè),號(hào)稱“百模大戰(zhàn)”。這些大模型的應(yīng)用領(lǐng)域、參數(shù)規(guī)模各有不同,但背后都是高昂的成本。根據(jù)行業(yè)估測(cè)的數(shù)據(jù),訓(xùn)練一個(gè)大模型的成本可能在幾百萬(wàn)美元到上億美元之間。例如,GPT-3的訓(xùn)練成本約為140萬(wàn)美元,而Claude 3模型的訓(xùn)練費(fèi)用高達(dá)約1億美元。

隨著行業(yè)的逐漸理性化,大模型的發(fā)展趨勢(shì)也發(fā)生了顯著變化,主要體現(xiàn)在以下幾個(gè)方面:

(1) 從追求參數(shù)規(guī)模到注重實(shí)際應(yīng)用

  • 頭部企業(yè)繼續(xù)探索超大規(guī)模模型:盡管大部分企業(yè)已經(jīng)將萬(wàn)卡和萬(wàn)億參數(shù)視為天花板,但是仍有一些頭部企業(yè)在死磕參數(shù)規(guī)模更大的超大模型(擁有數(shù)萬(wàn)億到數(shù)千萬(wàn)億個(gè)參數(shù)),如OpenAI、xAI等。馬斯克宣布xAI團(tuán)隊(duì)成功啟動(dòng)了世界上最強(qiáng)大的AI訓(xùn)練集群,由10萬(wàn)塊H100組成,主要用于Grok 2和Grok 3的訓(xùn)練和開(kāi)發(fā)。
  • 其他企業(yè)轉(zhuǎn)向?qū)嵱没簩?duì)于大部分企業(yè)來(lái)說(shuō),再往上走的意愿不強(qiáng)烈,錢包也不允許。因此,越來(lái)越多的企業(yè)將關(guān)注點(diǎn)從“打造大模型”轉(zhuǎn)向“使用大模型”,如何將大模型投入具體應(yīng)用、吸引更多用戶、通過(guò)大模型創(chuàng)造收入成為各大廠商的頭等任務(wù)。

(2) 大模型的輕量化與端側(cè)部署

  • AI手機(jī)、AI PC、具身智能的概念越來(lái)越火:為了將大模型的能力下沉到終端設(shè)備,AI手機(jī)、AI PC、具身智能等概念成為新的發(fā)展熱點(diǎn)。高通、聯(lián)發(fā)科等芯片廠商推出了具有更強(qiáng)AI算力的手機(jī)芯片,OPPO、vivo等手機(jī)廠商也在手機(jī)中內(nèi)置了大模型,并推出了許多原生AI應(yīng)用。
  • 第三方AI應(yīng)用的數(shù)量激增:根據(jù)行業(yè)數(shù)據(jù)顯示,具有AI功能的APP數(shù)量已達(dá)到300多萬(wàn)款。2024年6月,AIGC類APP的月活躍用戶規(guī)模達(dá)6170萬(wàn),同比增長(zhǎng)653%。
  • 輕量化技術(shù)的應(yīng)用:為了在資源受限的設(shè)備上運(yùn)行,大模型將通過(guò)剪枝、量化、蒸餾等技術(shù)進(jìn)行輕量化,保持性能的同時(shí)減少計(jì)算資源需求。這使得大模型可以在移動(dòng)設(shè)備、嵌入式系統(tǒng)等環(huán)境中高效運(yùn)行。

(3) 開(kāi)源與閉源并行

  • 開(kāi)源大模型的廣泛應(yīng)用:大部分大模型是基于開(kāi)源大模型框架和技術(shù)打造的,實(shí)際上是為了迎合資本市場(chǎng)的需求或蹭熱度。開(kāi)源大模型為中小型企業(yè)提供了低成本進(jìn)入AI領(lǐng)域的途徑,促進(jìn)了創(chuàng)新和應(yīng)用的多樣化。
  • 閉源大模型的高端競(jìng)爭(zhēng):有能力做閉源大模型的企業(yè)并不多,但這些企業(yè)的閉源大模型往往具備更高的安全性和定制化能力,適用于對(duì)數(shù)據(jù)隱私和性能要求較高的場(chǎng)景。

(4) 多模態(tài)融合的趨勢(shì)

  • 跨領(lǐng)域任務(wù)處理:多模態(tài)大模型結(jié)合了NLP和CV的能力,通過(guò)整合并處理來(lái)自不同模態(tài)的信息(文本、圖像、音頻和視頻等),可以處理復(fù)雜的跨領(lǐng)域任務(wù),如文生圖、文生視頻、跨媒體搜索等。

六、大模型會(huì)帶來(lái)哪些挑戰(zhàn)?

大模型確實(shí)是一個(gè)強(qiáng)大的工具,能夠幫助我們節(jié)約時(shí)間、提升效率,但同時(shí)也是一把雙刃劍,帶來(lái)了多方面的挑戰(zhàn)。以下是大模型在倫理、法律、社會(huì)和經(jīng)濟(jì)層面的主要挑戰(zhàn):

(1) 影響失業(yè)率

  • 崗位替代:大模型所掀起的AI人工智能浪潮可能導(dǎo)致一些人類工作崗位被替代,尤其是那些重復(fù)性高、規(guī)則明確的工作,如客服、數(shù)據(jù)錄入、內(nèi)容審核等。
  • 失業(yè)率上升:隨著自動(dòng)化程度的提高,短期內(nèi)可能會(huì)導(dǎo)致失業(yè)率上升,給社會(huì)穩(wěn)定帶來(lái)壓力。

(2) 版權(quán)與知識(shí)產(chǎn)權(quán)問(wèn)題

  • 內(nèi)容生成爭(zhēng)議:大模型基于已有數(shù)據(jù)進(jìn)行學(xué)習(xí),生成的內(nèi)容(文本、圖像、音樂(lè)、視頻等)可能引發(fā)版權(quán)和知識(shí)產(chǎn)權(quán)問(wèn)題。這些內(nèi)容雖然幫助了創(chuàng)作,但也“引用”了人類創(chuàng)作者的作品,界限難以區(qū)分。
  • 打擊創(chuàng)作熱情:長(zhǎng)此以往,可能會(huì)打擊人類的原生創(chuàng)作熱情,減少原創(chuàng)作品的數(shù)量和質(zhì)量。

(3) 算法偏見(jiàn)和不公平

  • 偏差傳遞:訓(xùn)練數(shù)據(jù)中存在的偏差會(huì)導(dǎo)致大模型學(xué)習(xí)到這些偏差,從而在預(yù)測(cè)和生成內(nèi)容時(shí)表現(xiàn)出不公平的行為。例如,性別、種族、宗教等方面的偏見(jiàn)可能被無(wú)意中強(qiáng)化。
  • 社會(huì)影響:大模型生成的內(nèi)容可能被用于政治宣傳和操縱,影響選舉和公共輿論,進(jìn)一步加劇社會(huì)不平等。

(4) 被用于犯罪

  • 惡意用途:大模型可以生成逼真的文本、圖像、語(yǔ)音和視頻,這些內(nèi)容可能被用于詐騙、誹謗、虛假信息傳播等惡意用途。
  • 監(jiān)管難度:由于大模型生成的內(nèi)容難以區(qū)分真假,給監(jiān)管帶來(lái)了巨大挑戰(zhàn)。

(5) 能耗問(wèn)題

  • 資源消耗:大模型的訓(xùn)練和推理需要大量的計(jì)算資源,這不僅增加了成本,還帶來(lái)了巨大的碳排放。
  • 無(wú)意義的碳排放:很多企業(yè)為了服務(wù)于資本市場(chǎng)或跟風(fēng),盲目進(jìn)行大模型訓(xùn)練,消耗了大量的資源,導(dǎo)致了無(wú)意義的碳排放。

總之,大模型在倫理、法律、社會(huì)和經(jīng)濟(jì)層面帶來(lái)的挑戰(zhàn)是多方面的,需要社會(huì)各界共同努力來(lái)解決。通過(guò)完善法律法規(guī)、加強(qiáng)技術(shù)研發(fā)、提高公眾意識(shí)等手段,可以在充分發(fā)揮大模型優(yōu)勢(shì)的同時(shí),有效應(yīng)對(duì)這些挑戰(zhàn),推動(dòng)人工智能的健康發(fā)展。

責(zé)任編輯:趙寧寧 來(lái)源: 小喵學(xué)AI
相關(guān)推薦

2024-11-22 10:45:20

2015-01-19 09:37:00

2025-01-07 07:00:00

DDD微服務(wù)MySQL

2014-12-17 12:46:17

華為存儲(chǔ)

2024-11-20 08:09:19

RabbitMQ項(xiàng)目客戶端

2023-11-29 07:17:51

微信機(jī)器人AI

2025-04-14 00:00:00

MCPjson 信息地理編碼

2025-02-10 11:11:47

2022-03-09 09:44:58

云原生Linux云計(jì)算

2019-10-14 15:57:36

數(shù)據(jù)分析多維度二八法

2009-09-23 11:37:31

Hibernate S

2023-06-05 00:28:24

MySQL數(shù)據(jù)庫(kù)非鎖定讀

2017-01-04 11:28:37

WiFi信號(hào)網(wǎng)絡(luò)

2023-06-26 07:51:48

2023-05-15 07:12:11

用戶輕薄本獨(dú)顯

2012-05-21 15:41:40

2024-12-03 09:11:45

2020-05-06 09:10:08

機(jī)器學(xué)習(xí)無(wú)監(jiān)督機(jī)器學(xué)習(xí)有監(jiān)督機(jī)器學(xué)習(xí)

2020-10-28 07:08:03

Linux零拷貝內(nèi)核
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产成人精品视频在线观看 | 久久爆操| 亚洲日本欧美日韩高观看 | 国产精品成人一区二区三区夜夜夜 | av中文字幕在线 | 精精国产xxxx视频在线 | 欧美午夜精品 | 国产精品黄| 国产成人久久精品一区二区三区 | 91免费高清| 91久久久久久久久久久 | 草草网 | 国产午夜精品久久久 | 国产人成精品一区二区三 | 欧美一区二区在线观看 | 亚洲精品乱码久久久久久按摩观 | 在线2区 | 999精品网| 久久综合一区 | 一区二区三区四区国产 | 久久久国产一区 | 日韩午夜精品 | 天天干免费视频 | 91免费在线看 | 欧美一级特黄aaa大片在线观看 | 国产黄色大片在线免费观看 | 国产精品视频中文字幕 | 午夜精品久久 | 一区二视频 | 99精品99久久久久久宅男 | 99精彩视频 | 久久久成人网 | 亚洲第一色站 | 九九热精品视频 | 91大神在线看 | 国产一区二区视频免费在线观看 | 欧美一区二区三区在线观看视频 | 久久久成人免费一区二区 | 日本激情视频在线播放 | 免费在线观看一区二区三区 | 亚洲精品1区 |