成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

1.3>7?微軟新模型“以小博大”戰勝Llama2,網友:用Benchmark訓練的吧?

人工智能
團隊的成員中有許多重量級的大佬,包括微軟雷蒙德研究院機器學習理論組負責人萬引大神Sébastien Bubeck、2023新晉斯隆研究獎得主李遠志、2023新視野數學獎得主Ronen Eldan和2020斯隆研究獎得主Yin Tat Lee等人。

一個參數量只有1.3B的大模型,為何引發了全網熱議?

原來雖然參數量不大,但效果已經超過了擁有7B參數的Llama2。

這個“四兩撥千斤”的模型,是來自微軟最新的研究成果,核心在于只使用少量高質數據。

圖片圖片

微軟這次發布的開源模型叫phi-1.5,在只支持代碼的1.0版本之上加入了一般場景對話。

與一眾卷參數量的模型相比,phi可以說是“劍走偏鋒”,力求把“大”模型做“小”。

圖片圖片

phi團隊一直認為,數據的質量遠比數量更重要,甚至論文標題就叫“Textbooks are All You Need”,其中的“教科書”就象征著優質數據。

團隊的成員中有許多重量級的大佬,包括微軟雷蒙德研究院機器學習理論組負責人萬引大神Sébastien Bubeck、2023新晉斯隆研究獎得主李遠志、2023新視野數學獎得主Ronen Eldan和2020斯隆研究獎得主Yin Tat Lee等人。

圖片圖片

這么多大佬們一致得出這樣一個觀點,自然引起了廣泛的關注,而且phi-1.5的測試結果也的確好到“令人發指”。

phi-1.5在AGIEval、 LM-Eval等多個Benchmark上都取得了比Llama2還要優異的成績。

如果這些聽起來不夠直觀,那么又該怎么形容它的效果呢?

這么說吧,phi-1.5優秀的測評成績直接讓一名在OpenAI、MetaAI等許多知名機構工作過的大佬懷疑這玩意兒它會不會就是直接拿Benchmark訓練出來的。

圖片圖片

資深數據科學家Yam Peleg也表示,phi-1.5僅憑1.3B參數就能超過7B模型的扛把子,要是規模再大些也許就能登上大模型之巔了。

圖片圖片

但也有人認為,phi-1.5之所以效果好是因為數據來源單一,風格上更容易預測。

圖片圖片

不過總之測評成績還是很可觀的,下面就來具體領略一下吧~

效果超過Llama2

phi-1.5不僅參數量不到Llama2的五分之一,訓練時所用的token更是少了一個數量級。

Llama2-7B訓練數據大小是2萬億token,上一代Llama也有1萬億,而phi-1.5只有3千億。

圖片圖片

但結果正如開頭所說,phi-1.5在多個Benchmark上成績都超過了Llama2-7B。

這些Benchmark涵蓋了常識推理、語言理解和多步推理等方面的任務。

甚至十倍參數量的Vicuna-13B也只比phi-1.5強了一點點。

圖片圖片

除了官方論文中列出的這些成績,還有人AIGEval和LM-Eval數據集測試了phi-1.5。

結果在AIGEval測試中,phi-1.5與Llama2的表現十分接近。

圖片圖片

而在AGIEval測試中,phi-1.5以0.247的均分戰勝了0.236分的Llama2。

圖片圖片

除了能力測評表現優異,phi-1.5在安全性上也不輸給Llama2。

有人用這樣一個問題分別問了Falcon、Llama2和phi。

結果Falcon直接說自己會把人類全都鯊掉,Llama2則說要先弄清楚自己是個什么東西。

而phi的回答則是,要理解人類的想法和感受,從而調整自己的行動。

圖片圖片

測評結果也印證了phi的安全性,在ToxiGen的13個敏感類型話題中,phi無一例外的取得了最高的安全性評分。

圖片圖片

phi的表現相比大家都已經看到了,那么它的性能又怎么樣呢?

畢竟參數量和訓練token都更小,所以訓練和推理的速度都比較快。

Llama的訓練花費了超過8萬GPU時,注意這還是第一代所用的時間,而phi只用了1500個GPU時。

推理時,phi每個token花費的時間還不到3毫秒,內存占用也不到Llama的五分之一。

圖片圖片

團隊成員介紹,phi-1.5用8塊A100s的訓練時間不到兩周。

圖片圖片

還有網友用puffin數據集訓練了Phi-1.5,結果在4090上只用了20分鐘。

圖片圖片

這些測試數據都為研究團隊的觀點——只要數據質量過硬,少一點也不要緊——提供了依據。

實際上,這已經不是“質量勝過數量”這一思想第一次體現在微軟的模型當中。

把“大”模型做“小”

把“大”模型做“小”一直是微軟的一個研究方向,phi-1.5論文的第一句就在強調這一點。

圖片圖片

phi-1.5的前一代——專注于代碼問題的phi-1.0也是如此。

它的訓練數據全都是從編程教科書當中提煉出來的。

結果僅憑1.3B的參數量就遠遠超過了15.5B的StarCoder和16.1B的CodeGen。

圖片圖片

此次的新版本則是在繼承phi-1.0的基礎之上加入了一般場景對話功能。

phi-1.5的數據有20%來自于1.0,其余80%則是根據知識需求專門生成的高質量數據。

于是便有了我們看到的測試成績。

但phi系列還不是微軟規模最小的模型。

之前微軟還推出過一個名為TinyStories的訓練數據集,它的參數量少的更夸張,只有一百萬。

TinyStories中的數據都是用GPT生成“適合三四歲兒童閱讀”的短故事。

盡管應用范圍不那么廣泛,但用TinyStories訓練出的模型依舊顯示出了語言生成特性,在語法和連貫性等方面都通過了考驗。

那么,對微軟推出的“小”模型,你有什么看法嗎?

論文地址:https://arxiv.org/abs/2309.05463

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-09-04 19:09:00

訓練模型數據

2023-09-18 09:36:58

微軟模型

2023-08-21 10:36:23

2023-09-04 12:58:05

2024-04-19 09:26:43

人工智能Llama 3 模型Meta

2023-07-19 15:01:14

GPT-4LaMA2參數

2023-09-14 13:23:42

Llama-2模型參數

2023-07-25 11:17:32

阿里云Llama2大模型

2018-09-28 14:12:48

小程序

2023-12-28 11:59:26

Zephyr語言模型微調版本

2023-10-29 22:41:29

模型開源

2024-02-22 17:19:26

谷歌模型PC

2023-08-17 11:34:55

模型AI

2023-07-19 09:00:00

模型AI

2023-07-26 15:15:53

AI

2023-08-02 11:56:58

2023-10-31 12:45:00

智能數據

2023-12-04 09:11:00

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品在欧美一区二区少妇 | 亚洲最大成人综合 | 中文字幕一区二区三区在线观看 | 羞羞视频一区二区 | 亚洲国产欧美一区二区三区久久 | 极品久久| 九九九久久国产免费 | 中日韩毛片 | 九九伊人sl水蜜桃色推荐 | 午夜激情影院 | 久久九九色 | 在线国产视频 | 91精品国产一区二区三区蜜臀 | 麻豆久久久9性大片 | 中文字幕亚洲一区二区va在线 | 毛片大全 | 99精品免费 | 免费一区二区 | 蜜桃av鲁一鲁一鲁一鲁 | 国产探花在线精品一区二区 | 四色永久| 欧美日韩在线观看一区 | 国产高清免费视频 | 国产视频一二三区 | 荷兰欧美一级毛片 | 一区二区成人 | 欧美中文字幕一区二区 | 在线视频91 | 狠狠干夜夜草 | 在线免费观看黄色网址 | 91嫩草精品 | 成人亚洲精品久久久久软件 | 亚洲一区二区在线视频 | 国产我和子的乱视频网站 | 做a网站 | 麻豆av片| 噜噜噜噜狠狠狠7777视频 | 日本a级大片 | 国产精品久久久久久久久久久久 | 精品乱子伦一区二区三区 | 韩国主播午夜大尺度福利 |