成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="cioi8"><tbody id="cioi8"></tbody></abbr>

<center id="cioi8"></center>

<bdo id="cioi8"></bdo>

<rt id="cioi8"></rt><bdo id="cioi8"><source id="cioi8"></source></bdo>

<strike id="cioi8"></strike>

<samp id="cioi8"><em id="cioi8"></em></samp>

<li id="cioi8"></li>

<rt id="cioi8"><acronym id="cioi8"></acronym></rt>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

1.3>7？微軟新模型“以小博大”戰勝Llama2，網友：用Benchmark訓練的吧？

2023-09-17 00:09:35

團隊的成員中有許多重量級的大佬，包括微軟雷蒙德研究院機器學習理論組負責人萬引大神Sébastien Bubeck、2023新晉斯隆研究獎得主李遠志、2023新視野數學獎得主Ronen Eldan和2020斯隆研究獎得主Yin Tat Lee等人。

一個參數量只有1.3B的大模型，為何引發了全網熱議？

原來雖然參數量不大，但效果已經超過了擁有7B參數的Llama2。

這個“四兩撥千斤”的模型，是來自微軟最新的研究成果，核心在于只使用少量高質數據。

圖片

微軟這次發布的開源模型叫phi-1.5，在只支持代碼的1.0版本之上加入了一般場景對話。

與一眾卷參數量的模型相比，phi可以說是“劍走偏鋒”，力求把“大”模型做“小”。

圖片

phi團隊一直認為，數據的質量遠比數量更重要，甚至論文標題就叫“Textbooks are All You Need”，其中的“教科書”就象征著優質數據。

團隊的成員中有許多重量級的大佬，包括微軟雷蒙德研究院機器學習理論組負責人萬引大神Sébastien Bubeck、2023新晉斯隆研究獎得主李遠志、2023新視野數學獎得主Ronen Eldan和2020斯隆研究獎得主Yin Tat Lee等人。

圖片

這么多大佬們一致得出這樣一個觀點，自然引起了廣泛的關注，而且phi-1.5的測試結果也的確好到“令人發指”。

phi-1.5在AGIEval、 LM-Eval等多個Benchmark上都取得了比Llama2還要優異的成績。

如果這些聽起來不夠直觀，那么又該怎么形容它的效果呢？

這么說吧，phi-1.5優秀的測評成績直接讓一名在OpenAI、MetaAI等許多知名機構工作過的大佬懷疑這玩意兒它會不會就是直接拿Benchmark訓練出來的。

圖片

資深數據科學家Yam Peleg也表示，phi-1.5僅憑1.3B參數就能超過7B模型的扛把子，要是規模再大些也許就能登上大模型之巔了。

圖片

但也有人認為，phi-1.5之所以效果好是因為數據來源單一，風格上更容易預測。

圖片

不過總之測評成績還是很可觀的，下面就來具體領略一下吧~

效果超過Llama2

phi-1.5不僅參數量不到Llama2的五分之一，訓練時所用的token更是少了一個數量級。

Llama2-7B訓練數據大小是2萬億token，上一代Llama也有1萬億，而phi-1.5只有3千億。

圖片

但結果正如開頭所說，phi-1.5在多個Benchmark上成績都超過了Llama2-7B。

這些Benchmark涵蓋了常識推理、語言理解和多步推理等方面的任務。

甚至十倍參數量的Vicuna-13B也只比phi-1.5強了一點點。

圖片

除了官方論文中列出的這些成績，還有人AIGEval和LM-Eval數據集測試了phi-1.5。

結果在AIGEval測試中，phi-1.5與Llama2的表現十分接近。

圖片

而在AGIEval測試中，phi-1.5以0.247的均分戰勝了0.236分的Llama2。

圖片

除了能力測評表現優異，phi-1.5在安全性上也不輸給Llama2。

有人用這樣一個問題分別問了Falcon、Llama2和phi。

結果Falcon直接說自己會把人類全都鯊掉，Llama2則說要先弄清楚自己是個什么東西。

而phi的回答則是，要理解人類的想法和感受，從而調整自己的行動。

圖片

測評結果也印證了phi的安全性，在ToxiGen的13個敏感類型話題中，phi無一例外的取得了最高的安全性評分。

圖片

phi的表現相比大家都已經看到了，那么它的性能又怎么樣呢？

畢竟參數量和訓練token都更小，所以訓練和推理的速度都比較快。

Llama的訓練花費了超過8萬GPU時，注意這還是第一代所用的時間，而phi只用了1500個GPU時。

推理時，phi每個token花費的時間還不到3毫秒，內存占用也不到Llama的五分之一。

圖片

團隊成員介紹，phi-1.5用8塊A100s的訓練時間不到兩周。

圖片

還有網友用puffin數據集訓練了Phi-1.5，結果在4090上只用了20分鐘。

圖片

這些測試數據都為研究團隊的觀點——只要數據質量過硬，少一點也不要緊——提供了依據。

實際上，這已經不是“質量勝過數量”這一思想第一次體現在微軟的模型當中。

把“大”模型做“小”

把“大”模型做“小”一直是微軟的一個研究方向，phi-1.5論文的第一句就在強調這一點。

圖片

phi-1.5的前一代——專注于代碼問題的phi-1.0也是如此。

它的訓練數據全都是從編程教科書當中提煉出來的。

結果僅憑1.3B的參數量就遠遠超過了15.5B的StarCoder和16.1B的CodeGen。

圖片

此次的新版本則是在繼承phi-1.0的基礎之上加入了一般場景對話功能。

phi-1.5的數據有20%來自于1.0，其余80%則是根據知識需求專門生成的高質量數據。

于是便有了我們看到的測試成績。

但phi系列還不是微軟規模最小的模型。

之前微軟還推出過一個名為TinyStories的訓練數據集，它的參數量少的更夸張，只有一百萬。

TinyStories中的數據都是用GPT生成“適合三四歲兒童閱讀”的短故事。

盡管應用范圍不那么廣泛，但用TinyStories訓練出的模型依舊顯示出了語言生成特性，在語法和連貫性等方面都通過了考驗。

那么，對微軟推出的“小”模型，你有什么看法嗎？

論文地址：https://arxiv.org/abs/2309.05463

責任編輯：武曉燕來源：量子位

微軟新模型參數

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美精品在欧美一区二区少妇 | 亚洲最大成人综合 | 中文字幕一区二区三区在线观看 | 羞羞视频一区二区 | 亚洲国产欧美一区二区三区久久 | 极品久久| 九九九久久国产免费 | 中日韩毛片 | 九九伊人sl水蜜桃色推荐 | 午夜激情影院 | 久久九九色 | 在线国产视频 | 91精品国产一区二区三区蜜臀 | 麻豆久久久9性大片 | 中文字幕亚洲一区二区va在线 | 毛片大全 | 99精品免费 | 免费一区二区 | 蜜桃av鲁一鲁一鲁一鲁 | 国产探花在线精品一区二区 | 四色永久| 欧美日韩在线观看一区 | 国产高清免费视频 | 国产视频一二三区 | 荷兰欧美一级毛片 | 一区二区成人 | 欧美中文字幕一区二区 | 在线视频91 | 狠狠干夜夜草 | 在线免费观看黄色网址 | 91嫩草精品 | 成人亚洲精品久久久久软件 | 亚洲一区二区在线视频 | 国产我和子的乱视频网站 | 做a网站 | 麻豆av片| 噜噜噜噜狠狠狠7777视频 | 日本a级大片 | 国产精品久久久久久久久久久久 | 精品乱子伦一区二区三区 | 韩国主播午夜大尺度福利 |

<li id="wcus8"></li>

<li id="wcus8"><input id="wcus8"></input></li>

<rt id="wcus8"><acronym id="wcus8"></acronym></rt>

<button id="wcus8"></button>

<rt id="wcus8"><tr id="wcus8"></tr></rt>

<code id="wcus8"><acronym id="wcus8"></acronym></code>

<button id="wcus8"></button>

<rt id="wcus8"></rt>

<bdo id="wcus8"><tbody id="wcus8"></tbody></bdo>