1.3>7?微軟新模型“以小博大”戰勝Llama2,網友:用Benchmark訓練的吧?
一個參數量只有1.3B的大模型,為何引發了全網熱議?
原來雖然參數量不大,但效果已經超過了擁有7B參數的Llama2。
這個“四兩撥千斤”的模型,是來自微軟最新的研究成果,核心在于只使用少量高質數據。
圖片
微軟這次發布的開源模型叫phi-1.5,在只支持代碼的1.0版本之上加入了一般場景對話。
與一眾卷參數量的模型相比,phi可以說是“劍走偏鋒”,力求把“大”模型做“小”。
圖片
phi團隊一直認為,數據的質量遠比數量更重要,甚至論文標題就叫“Textbooks are All You Need”,其中的“教科書”就象征著優質數據。
團隊的成員中有許多重量級的大佬,包括微軟雷蒙德研究院機器學習理論組負責人萬引大神Sébastien Bubeck、2023新晉斯隆研究獎得主李遠志、2023新視野數學獎得主Ronen Eldan和2020斯隆研究獎得主Yin Tat Lee等人。
圖片
這么多大佬們一致得出這樣一個觀點,自然引起了廣泛的關注,而且phi-1.5的測試結果也的確好到“令人發指”。
phi-1.5在AGIEval、 LM-Eval等多個Benchmark上都取得了比Llama2還要優異的成績。
如果這些聽起來不夠直觀,那么又該怎么形容它的效果呢?
這么說吧,phi-1.5優秀的測評成績直接讓一名在OpenAI、MetaAI等許多知名機構工作過的大佬懷疑這玩意兒它會不會就是直接拿Benchmark訓練出來的。
圖片
資深數據科學家Yam Peleg也表示,phi-1.5僅憑1.3B參數就能超過7B模型的扛把子,要是規模再大些也許就能登上大模型之巔了。
圖片
但也有人認為,phi-1.5之所以效果好是因為數據來源單一,風格上更容易預測。
圖片
不過總之測評成績還是很可觀的,下面就來具體領略一下吧~
效果超過Llama2
phi-1.5不僅參數量不到Llama2的五分之一,訓練時所用的token更是少了一個數量級。
Llama2-7B訓練數據大小是2萬億token,上一代Llama也有1萬億,而phi-1.5只有3千億。
圖片
但結果正如開頭所說,phi-1.5在多個Benchmark上成績都超過了Llama2-7B。
這些Benchmark涵蓋了常識推理、語言理解和多步推理等方面的任務。
甚至十倍參數量的Vicuna-13B也只比phi-1.5強了一點點。
圖片
除了官方論文中列出的這些成績,還有人AIGEval和LM-Eval數據集測試了phi-1.5。
結果在AIGEval測試中,phi-1.5與Llama2的表現十分接近。
圖片
而在AGIEval測試中,phi-1.5以0.247的均分戰勝了0.236分的Llama2。
圖片
除了能力測評表現優異,phi-1.5在安全性上也不輸給Llama2。
有人用這樣一個問題分別問了Falcon、Llama2和phi。
結果Falcon直接說自己會把人類全都鯊掉,Llama2則說要先弄清楚自己是個什么東西。
而phi的回答則是,要理解人類的想法和感受,從而調整自己的行動。
圖片
測評結果也印證了phi的安全性,在ToxiGen的13個敏感類型話題中,phi無一例外的取得了最高的安全性評分。
圖片
phi的表現相比大家都已經看到了,那么它的性能又怎么樣呢?
畢竟參數量和訓練token都更小,所以訓練和推理的速度都比較快。
Llama的訓練花費了超過8萬GPU時,注意這還是第一代所用的時間,而phi只用了1500個GPU時。
推理時,phi每個token花費的時間還不到3毫秒,內存占用也不到Llama的五分之一。
圖片
團隊成員介紹,phi-1.5用8塊A100s的訓練時間不到兩周。
圖片
還有網友用puffin數據集訓練了Phi-1.5,結果在4090上只用了20分鐘。
圖片
這些測試數據都為研究團隊的觀點——只要數據質量過硬,少一點也不要緊——提供了依據。
實際上,這已經不是“質量勝過數量”這一思想第一次體現在微軟的模型當中。
把“大”模型做“小”
把“大”模型做“小”一直是微軟的一個研究方向,phi-1.5論文的第一句就在強調這一點。
圖片
phi-1.5的前一代——專注于代碼問題的phi-1.0也是如此。
它的訓練數據全都是從編程教科書當中提煉出來的。
結果僅憑1.3B的參數量就遠遠超過了15.5B的StarCoder和16.1B的CodeGen。
圖片
此次的新版本則是在繼承phi-1.0的基礎之上加入了一般場景對話功能。
phi-1.5的數據有20%來自于1.0,其余80%則是根據知識需求專門生成的高質量數據。
于是便有了我們看到的測試成績。
但phi系列還不是微軟規模最小的模型。
之前微軟還推出過一個名為TinyStories的訓練數據集,它的參數量少的更夸張,只有一百萬。
TinyStories中的數據都是用GPT生成“適合三四歲兒童閱讀”的短故事。
盡管應用范圍不那么廣泛,但用TinyStories訓練出的模型依舊顯示出了語言生成特性,在語法和連貫性等方面都通過了考驗。
那么,對微軟推出的“小”模型,你有什么看法嗎?
論文地址:https://arxiv.org/abs/2309.05463