碾壓Llama2！微軟13億參數(shù)phi-1.5，單個A100訓(xùn)練，刷新SOTA

作者：新智元 2023-09-18 09:36:58

人工智能新聞

微軟推出了一個全新預(yù)訓(xùn)練模型phi-1.5，共有13億參數(shù)，能做QA問答、聊天和寫代碼等等。

模型越大，能力越強嗎？

然而，事實并非如此。

近日，微軟研究人員推出了一個模型phi-1.5，僅有13億參數(shù)。

論文地址：https://arxiv.org/pdf/2309.05463.pdf

具體來說，在常識推理、語言技能，phi-1.5表現(xiàn)與其他模型相當(dāng)。同時在多步推理上，遠遠超過其他大模型。

phi-1.5展現(xiàn)出了許多大模型具備的能力，能夠進行「一步一步地思考」，或者進行一些基本上下文學(xué)習(xí)。

小模型，大用處

當(dāng)前，大模型的主要改進似乎主要與參數(shù)規(guī)模掛鉤，最強大的模型接近萬億參數(shù)，訓(xùn)練的數(shù)據(jù)也需要萬億個token。

那么，隨著一個問題就來了：模型參數(shù)越大，性能就越高嗎？

這不僅僅是一個學(xué)術(shù)問題，回答這個問題涉及方方面面。

最新論文中，微軟繼續(xù)研究了「一個LLM有多小，才能達到一定的能力」。

對此，研究人員將重點放在了，對于模型來說，比較具有挑戰(zhàn)的任務(wù)：常識推理。

簡而言之，微軟構(gòu)建了一個13億參數(shù)的模型phi-1.5，在300億個token數(shù)據(jù)集完成了訓(xùn)練。

在基準評測中，它的結(jié)果可以與10倍大小的模型相媲美。

此外，研究中的數(shù)據(jù)集幾乎完全由綜合生成的數(shù)據(jù)組成，對于把控模型產(chǎn)生有毒內(nèi)容和偏見，這一挑戰(zhàn)性問題有著重要的意義。

使用單個A100-80G、上下文長度為2048和fp16的不同模型的計算結(jié)果比較

架構(gòu)

phi-1.5 （及其變體）的架構(gòu)與phi-1模型完全相同。

它是一個Transformer架構(gòu)，有24層、32個頭，每個頭的維度為64。

研究中使用的是旋轉(zhuǎn)嵌入，旋轉(zhuǎn)維度為32，上下文長度為2048。

為了提高訓(xùn)練速度，研究人員還使用了flash-attention，并使用了codegen-mono的標記符。

訓(xùn)練數(shù)據(jù)

對于phi-1.5模型，研究人員使用了phi-1的訓(xùn)練數(shù)據(jù)（7B個詞組），還有新創(chuàng)建的「教科書級」合成數(shù)據(jù)（約20B個詞組）。

這個組合的數(shù)據(jù)集，目的是讓大模型進行常識推理。研究人員還精心挑選了20K個主題作為生成這種新合成數(shù)據(jù)的種子。

在生成提示中，團隊使用了來自網(wǎng)絡(luò)數(shù)據(jù)集的樣本，以實現(xiàn)多樣性。

有網(wǎng)友表示，許多LLM論文現(xiàn)在都指出，「高質(zhì)量數(shù)據(jù)」比數(shù)據(jù)數(shù)量更重要（一直以來都是這樣嗎？）。Phi-1.5清楚地表明，這在數(shù)據(jù)集更小的情況下也是可行的。

訓(xùn)練細節(jié)

研究人員從隨機初始化開始訓(xùn)練 phi-1.5，恒定學(xué)習(xí)率為2e-4（無預(yù)熱），權(quán)重衰減為 0.1。

訓(xùn)練中，使用的是Adam優(yōu)化器，動量為0.9、0.98，ε為1e - 7，還使用了fp16精度和DeepSpeed ZeRO Stage 2。

另外，批大小為2048，訓(xùn)練了150B個token，其中80%來自新創(chuàng)建的合成數(shù)據(jù)，20%來自phi-1的訓(xùn)練數(shù)據(jù)。

為了探究傳統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)的重要性，研究人員創(chuàng)建了另外兩個模型：phi-1.5-web-only和phi-1.5-web。

為此，研究人員按照Textbooks Are All You Need中的過濾技術(shù)創(chuàng)建了一個包含95B token的過濾網(wǎng)絡(luò)數(shù)據(jù)集。

phi-1.5-web-only模型完全是在過濾后的網(wǎng)絡(luò)數(shù)據(jù)上訓(xùn)練的，其中約80%的訓(xùn)練詞塊來自NLP數(shù)據(jù)源，20%來自代碼數(shù)據(jù)集（無合成數(shù)據(jù)）。

另一方面，phi-1.5-web模型是在所有數(shù)據(jù)集的混合基礎(chǔ)上訓(xùn)練的：過濾網(wǎng)絡(luò)數(shù)據(jù)的子集、phi-1的代碼數(shù)據(jù)和新創(chuàng)建的合成 NLP 數(shù)據(jù)，比例分別約為40%、20%和40%。