GPT2(XL)有15億個(gè)參數(shù),使用16位精度,一個(gè)參數(shù)占用2個(gè)字節(jié)的內(nèi)存,因此這些參數(shù)大約占用3GB的內(nèi)存。按照如下超參數(shù)設(shè)置:優(yōu)化器→Adam批量大小→32變換層數(shù)量→48序列長(zhǎng)度→1000要想在單個(gè)GPU上訓(xùn)練GPT2,所需的最小內(nèi)存大概是多少?答案可能會(huì)嚇到你。在一個(gè)擁有32GB內(nèi)存的單個(gè)GPU上,幾乎無(wú)法訓(xùn)練一個(gè)3GB的GPT2模型。但這怎么可能呢??jī)?nèi)存都去哪了?讓我們來(lái)了解一下。模型在訓(xùn)練過(guò)程中有很多方面會(huì)持續(xù)占用內(nèi)存。1)優(yōu)化器...
2024-11-19 12:41:34 3282瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
盡管在本地(通過(guò)驗(yàn)證集和測(cè)試集)對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行了嚴(yán)格測(cè)試,但立即用新模型替換舊模型仍不是一個(gè)好想法。一種更可靠的策略是在生產(chǎn)環(huán)境中測(cè)試模型(基于真實(shí)的實(shí)時(shí)數(shù)據(jù))。雖然這聽(tīng)起來(lái)有些冒險(xiǎn),但現(xiàn)實(shí)中經(jīng)常這么做,而且并不復(fù)雜。下圖展示了四種常見(jiàn)策略:●當(dāng)前模型稱為“舊模型”(legacymodel)。●新模型稱為“候選模型”(candidatemodel)。1)AB測(cè)試●將傳入的請(qǐng)求不均勻地分配給舊模型和候選模型。●故意限制...
2024-11-15 11:22:05 2367瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
如果數(shù)據(jù)是無(wú)標(biāo)簽的,我們很難構(gòu)建一個(gè)監(jiān)督學(xué)習(xí)系統(tǒng)。使用無(wú)監(jiān)督技術(shù)是一種可行的解決方案,但它們能完成的任務(wù)類型有限。另一種可能的方法,是依賴自監(jiān)督學(xué)習(xí)。自監(jiān)督學(xué)習(xí)是指我們有一個(gè)無(wú)標(biāo)簽的數(shù)據(jù)集,但我們通過(guò)某種方式能夠從中構(gòu)建一個(gè)監(jiān)督學(xué)習(xí)模型。這通常依賴于任務(wù)的固有屬性。例如,ChatGPT自回歸地基于當(dāng)前詞預(yù)測(cè)下一個(gè)單詞。這樣我們就可以簡(jiǎn)單地將文本左移一位在海量文本上構(gòu)造訓(xùn)練數(shù)據(jù)集。輸入:"Thecatsaton"標(biāo)...
2024-11-15 10:22:00 2437瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在線性回歸中,通常使用均方誤差作為損失函數(shù)。但你知道為什么用它嗎?要知道,很多函數(shù)都能衡量預(yù)測(cè)值和真實(shí)值之間的不同,在所有候選者中,均方誤差有什么特殊之處嗎?據(jù)我所知,很多人都會(huì)回答:1.均方誤差是可微的,所以才作為損失函數(shù)。>錯(cuò)2.與絕對(duì)誤差相比,均方誤差對(duì)大的誤差懲罰更多>錯(cuò)很遺憾,上述回答都是錯(cuò)的。也許從概率視角出發(fā),可以幫助我們更好理解,為什么均方誤差更合適。在線性回歸中,通過(guò)輸入X預(yù)測(cè)目標(biāo)變...
2024-11-04 16:32:12 2335瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
我們常說(shuō)機(jī)器學(xué)習(xí)三大件:模型、損失函數(shù)、優(yōu)化算法。模型:線性回歸、邏輯回歸、SVM、CNN、RNN、LSTM、Transformer等等。損失函數(shù):均方誤差、交叉熵、對(duì)比損失。優(yōu)化算法:梯度下降、Adam、RMSProp、牛頓法等等。其中損失函數(shù)通過(guò)衡量模型預(yù)測(cè)值和真實(shí)值之間的距離來(lái)評(píng)估模型的好壞,并將結(jié)果反饋給優(yōu)化算法來(lái)調(diào)整模型參數(shù),以此來(lái)最小化損失函數(shù)。常見(jiàn)的距離衡量包括:歐氏距離、曼哈頓距離、余弦相似度、KL散度等。均方誤差...
2024-10-23 10:27:45 2338瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
考慮下面這個(gè)連續(xù)概率分布的概率密度函數(shù),它表示的是從A點(diǎn)到B點(diǎn)可能花費(fèi)的時(shí)間。這是一個(gè)連續(xù)隨機(jī)變量t取值區(qū)間為[1,5]的均勻分布,其概率密度函數(shù)可以表示成下面形式。那么,問(wèn)題來(lái)了!Q)他從A點(diǎn)到達(dá)B點(diǎn)花費(fèi)3分鐘的概率P(T3)是多少?哇哦!上述答案都是錯(cuò)的,正確答案是:0。有的人可能會(huì)立馬抗議,并表示為什么在擲色子中每個(gè)點(diǎn)的概率就是16呢?因?yàn)閿S色子實(shí)驗(yàn)結(jié)果是離散的,離散隨機(jī)變量的概率分布稱為概率質(zhì)量函數(shù)(PMF)...
2024-10-17 13:19:19 2255瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
構(gòu)建模型通常是一個(gè)迭代過(guò)程,給定數(shù)據(jù)集:訓(xùn)練模型評(píng)估模型改進(jìn),直到滿意為止你的改進(jìn)策略不一定徒勞無(wú)功!如何評(píng)估模型是否進(jìn)步了呢?通常會(huì)使用某些性能指標(biāo)來(lái)評(píng)估改進(jìn)策略的有效性。然而,在多分類問(wèn)題中,當(dāng)使用“Accuracy”指標(biāo)評(píng)估改進(jìn)策略有效性時(shí),通常帶有欺騙性。換句話,某些改進(jìn)策略其實(shí)已經(jīng)提升模型性能了,但通過(guò)“Accuracy”這個(gè)指標(biāo)沒(méi)有反映出來(lái)。“Accuracy”陷阱這里的“Accuracy”其實(shí)應(yīng)該是“Top1Accurac...
2024-10-15 15:33:22 2732瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
前面圖解了Transformer整體架構(gòu)和編碼器,今天圖解解碼器。先來(lái)個(gè)整體視角:再逐步分解開(kāi)來(lái):WHAT'STHEDECODER解碼器是將編碼輸入和先前生成的標(biāo)記轉(zhuǎn)換為上下文感知輸出的關(guān)鍵所在。可以把它想象成藝術(shù)家,從草圖中繪制出最終的畫(huà)作。???STEP1PROCESSINGTHETARGETSEQUENCESTEP1.1TargetSequenceEmbedding解碼器首先對(duì)需要處理的序列進(jìn)行嵌入,將原始數(shù)據(jù)轉(zhuǎn)換為其能夠理解的格式。STEP1.2PositionalEncoding由于Transformers不...
2024-09-29 11:03:34 2978瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
前面圖解了Transformer整體架構(gòu),今天圖解編碼器。先來(lái)個(gè)整體視角:再逐步分解開(kāi)來(lái):????????'??????????????????????編碼器負(fù)責(zé)通過(guò)自注意力機(jī)制和前饋層處理輸入的token,從而生成具有上下文感知的表示。??它是NLP模型中理解序列的核心動(dòng)力。????????1.1:??????????????????????????????編碼器的第一步是將每個(gè)輸入的單詞嵌入為一個(gè)大小為512的向量。??這種嵌入過(guò)程只發(fā)生在最底層的編碼器中。可以把它想象成把單詞翻譯成模...
2024-09-29 11:00:25 2666瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
前面我們圖解了簡(jiǎn)單線性回歸,也就是只有一個(gè)自變量,今天我們來(lái)看看自變量有多個(gè)的情況,也就是多重線性回歸。先來(lái)個(gè)整體視角:再逐步分解開(kāi)來(lái):????????????????????????????????????我們用體重作為因變量,身高作為自變量,并假設(shè)它們之間有某種線性關(guān)系。??????????????????????????????????????!要想得到一個(gè)好模型就必須先充分了解數(shù)據(jù)。在正式訓(xùn)練模型之前,先來(lái)探索分析數(shù)據(jù)。看,Gender居然也是個(gè)重要因素。當(dāng)我們將身...
2024-09-29 10:54:15 2334瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
線性回歸可謂是機(jī)器學(xué)習(xí)界的helloworld,在現(xiàn)實(shí)中也有廣泛應(yīng)用,今天我們以圖表為主,用可視化方法重新審視下這個(gè)模型。先來(lái)個(gè)整體視角:再逐步分解開(kāi)來(lái):????????????????????????????????????????????如果自變量只有一個(gè),我們稱為簡(jiǎn)單線性回歸,雖然簡(jiǎn)單,但很強(qiáng)大,能用來(lái)發(fā)現(xiàn)數(shù)據(jù)中潛在的變化趨勢(shì)。??????????????????????????線性回歸的目標(biāo)是擬合一條直線,這條直線最能體現(xiàn)自變量和因變量之間的線性依賴關(guān)系。????????...
2024-09-29 10:49:32 2725瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
國(guó)外一美女程序員,在Github上通過(guò)檢索gpt,llm,和generativeai等關(guān)鍵字,從數(shù)十萬(wàn)檢索結(jié)果中得到900個(gè)500+star大模型開(kāi)源項(xiàng)目。她將統(tǒng)計(jì)結(jié)果放到了網(wǎng)站上,并定期更新star數(shù)等信息,同時(shí)提供了排序,分組,過(guò)濾等工具,我們也可以拿她的統(tǒng)計(jì)結(jié)果來(lái)進(jìn)行分析。??https:huyenchip.comllamapolice??接下來(lái)讓我們看看她通過(guò)分析這些開(kāi)源項(xiàng)目學(xué)到了什么。新的AI堆棧基礎(chǔ)設(shè)施包括訓(xùn)練大模型的硬件資源,訓(xùn)練大模型需要大量的顯卡,...
2024-09-19 14:02:00 2289瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
多模態(tài)學(xué)習(xí)可以看作是深度學(xué)習(xí)的一個(gè)細(xì)分領(lǐng)域,利用不同類型的神經(jīng)網(wǎng)絡(luò)來(lái)處理不同模態(tài)(如圖像、文本、音頻等)的數(shù)據(jù)。多模態(tài)任務(wù)大體可以分為理解和生成兩大類,生成任務(wù)又分為文生圖和圖生文。?CLIP是入門(mén)多模態(tài)的最佳選擇,后續(xù)多模態(tài)模型基本上都延續(xù)了它的思想:分別用圖像編碼器和文本編碼器將圖像和文本編碼到一個(gè)共享的特征空間中,然后通過(guò)多模態(tài)融合方法將配對(duì)的圖像文本特征向量拉進(jìn)。[CLIP]手書(shū)動(dòng)畫(huà)??[1]給定?...
2024-08-20 09:07:19 2614瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,深度學(xué)習(xí)通過(guò)神經(jīng)網(wǎng)絡(luò)模擬人腦神經(jīng)元的連接來(lái)進(jìn)行復(fù)雜數(shù)據(jù)的學(xué)習(xí)與預(yù)測(cè)。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要用于計(jì)算機(jī)視覺(jué)任務(wù);循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)則適用于處理序列數(shù)據(jù)。今天介紹CV和NLP領(lǐng)域一些重要模型。?[RNN]手書(shū)動(dòng)畫(huà)??0.初始化輸入序列X:[3,4,5,6]參數(shù)矩陣:參數(shù)矩陣是通過(guò)訓(xùn)練得到的,圖中雖然列了4個(gè)節(jié)點(diǎn),但其實(shí)是同一個(gè)節(jié)點(diǎn)按照時(shí)間步展開(kāi)的,這也是RNN經(jīng)常被誤解的地方。RNN隱狀...
2024-08-14 08:55:13 3198瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
[SVM]手書(shū)動(dòng)畫(huà)??除了SVM,傳統(tǒng)機(jī)器學(xué)習(xí)中還有很多其它分類、回歸和聚類算法,例如邏輯回歸,決策樹(shù),隨機(jī)森林等集成學(xué)習(xí)方法;這里統(tǒng)稱為模型,這些模型基本上可以通過(guò)明確的數(shù)學(xué)公式定義輸入數(shù)據(jù)與輸出結(jié)果之間的關(guān)系。在深度學(xué)習(xí)興起之前,支持向量機(jī)(SVM)在機(jī)器學(xué)習(xí)領(lǐng)域占據(jù)主導(dǎo)地位。這個(gè)動(dòng)畫(huà)比較了線性SVM和RBFSVM。[1]給定:xi:六個(gè)訓(xùn)練向量(藍(lán)色行??)yi:標(biāo)簽使用xi和yi,我們學(xué)習(xí)得到ai和b(紅色邊框):ai:每個(gè)訓(xùn)練向量i...
2024-08-13 10:41:45 3061瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
現(xiàn)在市面上的大模型越來(lái)越多,選擇多了也可能成為一種幸福的煩惱。如何選擇一個(gè)好模型?在機(jī)器學(xué)習(xí)中,通常會(huì)使用一些評(píng)估指標(biāo)來(lái)選擇模型,例如,用精度、召回率、F1等指標(biāo)來(lái)評(píng)估一個(gè)分類模型的性能;使用IOU,AUC等指標(biāo)評(píng)估目標(biāo)檢測(cè)和分割模型的性能。同理,大模型也有評(píng)估指標(biāo)。質(zhì)量:大模型的指令跟隨以及推理能力,例如,通用推理能力,或者具有某一方面的編碼、數(shù)學(xué)推理能力。性能:大模型的反應(yīng)速度和記憶能力,例如,每...
2024-07-24 13:18:26 3205瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
傳統(tǒng)RAGLLM預(yù)訓(xùn)練和微調(diào)一般都是基于公開(kāi)的互聯(lián)網(wǎng)數(shù)據(jù),不可能包含公司內(nèi)部私有數(shù)據(jù),如果你問(wèn)有關(guān)某公司的運(yùn)營(yíng)情況,直接基于模型參數(shù)生成的回答可能和胡說(shuō)八道沒(méi)什么兩樣。RAG(RetrievalAugmentedGeneration)的思想就是將私有數(shù)據(jù)作為參考信息傳遞給LLM。這些私有數(shù)據(jù)除了作為一種補(bǔ)充信息,也可以作為一種限制,能避免LLM產(chǎn)生幻覺(jué)。參考信息一般以文本、圖片等非結(jié)構(gòu)化形式存在。RAG的流程是:1.首先要將文本劃分成片段,...
2024-07-17 07:04:18 3243瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
??從零實(shí)現(xiàn)大模型BERT預(yù)訓(xùn)練????從零實(shí)現(xiàn)大模型BERT微調(diào)??我們?cè)贐ERT微調(diào)那篇文章中提到,許多NLP任務(wù)(如情感分析和問(wèn)答)都依賴于上下文理解能力。而像BERT這種雙向模型具有較強(qiáng)的上下文理解能力,因此非常適合用于任務(wù)微調(diào),即針對(duì)某個(gè)具體任務(wù)進(jìn)行微調(diào)。??從零實(shí)現(xiàn)大模型GPT2預(yù)訓(xùn)練????從零實(shí)現(xiàn)大模型GPT2指令微調(diào)????從零實(shí)現(xiàn)大模型GPT2RLHF??而像GPT這種自回歸模型,在預(yù)訓(xùn)練完成后會(huì)進(jìn)行一個(gè)指令微...
2024-07-02 11:26:30 3654瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
??從零實(shí)現(xiàn)大模型多頭注意力和Transformer????從零實(shí)現(xiàn)大模型GPT2預(yù)訓(xùn)練????從零實(shí)現(xiàn)大模型GPT2指令微調(diào)??通過(guò)前面的預(yù)訓(xùn)練和指令微調(diào),我們得到了既能續(xù)寫(xiě)文本,又能遵守指令的GPT2模型。但從GPT的演進(jìn)路線來(lái)看,要達(dá)到ChatGPT的水平,除了增加模型參數(shù)、使用更多的數(shù)據(jù)預(yù)訓(xùn)練、更高質(zhì)量的監(jiān)督數(shù)據(jù)指令微調(diào)外,還需要一個(gè)重要的技術(shù)手段,那就是RLHF。(RLHF:ReinforcementLearningfromHumanFeedback):即基于人類...
2024-06-28 10:24:11 4690瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
按照順序,輪也該輪到BERT指令微調(diào)了吧!是微調(diào),但不是指令微調(diào)!我們?cè)谥暗奈恼陆榻B過(guò)大模型的多種微調(diào)方法,指令微調(diào)只是其中一種,就像訓(xùn)犬一樣,讓它坐就坐,讓它臥就臥,同理,你讓LLM翻譯,它不是去總結(jié),你讓它總結(jié),它不是去情感分析。指令微調(diào)在像GPT這種自回歸的模型中應(yīng)用多一些。我們?cè)谇耙黄恼轮谢贕PT2預(yù)訓(xùn)練模型進(jìn)行了指令微調(diào)。除了指令微調(diào),還有一種比較常用的是任務(wù)微調(diào),預(yù)訓(xùn)練模型雖然具備一定的知...
2024-06-24 16:05:15 3275瀏覽 0點(diǎn)贊 0回復(fù) 0收藏