成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

人工智能 新聞
一眨眼,開源大模型又進步了。谷歌、OpenAI真的沒有護城河?

「我就午休了 30 分鐘,我們的領域又變了?」在看到最新的開源大模型排行榜后,一位 AI 領域的創業者發出了靈魂追問。

圖片圖片

排行榜鏈接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上圖紅框中的「新秀」是來自 Stability AI 和 CarperAI lab 的兩個大模型:FreeWilly 1 和 FreeWilly 2。剛剛,它們超越了 Meta 三天前發布的 Llama-2-70b-hf,成功登頂 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是,FreeWilly 2 在很多基準上還擊敗了 ChatGPT(GPT-3.5),成為首個真正可以和 GPT-3.5 相抗衡的開源大模型,這是 Llama 2 都沒有做到的事情。

圖片圖片

FreeWilly 1 基于原始的 LLaMA 65B 基礎模型構建,并且在標準 Alpaca 格式下,使用新的合成數據集進行了仔細的有監督微調(SFT)。FreeWilly2 則基于最新的 LLaMA 2 70B 基礎模型構建。

從 Stability AI 發布的博客中,我們可以看到這兩個新模型的一些細節:

數據來源

FreeWilly 模型的訓練方法直接受到了微軟在其論文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首創的方法的啟發。雖然 FreeWilly 的數據生成過程與之相似,但二者在數據來源方面存在差異。

FreeWilly 的數據集包含了 60 萬個數據點(大約是原始 Orca 論文使用的數據集大小的 10%),它是通過以下由 Enrico Shippole 創建的高質量指令數據集來啟發語言模型生成的:

  • COT Submix Original
  • NIV2 Submix Original
  • FLAN 2021 Submix Original
  • T0 Submix Original

采用這種方法,研究者使用了一個較簡單的 LLM 模型生成了 50 萬個示例,并使用一個更復雜的 LLM 模型生成了額外的 10 萬個示例。為了確保公平比較,他們仔細篩選了這些數據集,并刪除了來源于評估基準測試的示例。盡管訓練樣本數量僅為原始 Orca 論文的 1/10(相比原始論文大大降低了訓練模型的成本和碳排放),但由此產生的 FreeWilly 模型在各種基準測試中表現出色,驗證了他們采用合成數據集的方法的有效性。

性能數據

為了對這些模型進行內部評估,研究者使用了 EleutherAI 的 lm-eval-harness 基準,并加入了 AGIEval。

其中,lm-eval-harness 基準由 EleutherAI 非盈利人工智能研究實驗室創建,前面提到的 HuggingFace Open LLM 排行榜背后運行的就是該基準,它會在 Hugging Face 計算集群的空閑周期中運行評估,并將結果存儲在數據集中,然后在在線排行榜空間上顯示。

AGIEval 則由微軟創建,專門用于評估基礎模型在「以人為本」(human-centric)的標準化考試中的表現,比如數學競賽、律師資格考試。

在許多方面,兩個 FreeWilly 模型表現都非常出色,包括復雜的推理、理解語言的微妙之處,以及回答涉及專業領域(如法律和數學問題)的復雜問題。

兩個模型在 lm-eval-harness 基準上的評估結果如下(這些 FreeWilly 測試結果是由 Stability AI 研究人員來評估的):

圖片圖片

二者在 AGIEval 基準上的表現如下(全部是 0-shot):

圖片圖片

此外,他們還在 GPT4ALL 基準上對兩個模型進行了測試(全部是 0-shot):

圖片圖片

總體來看,這兩個模型的性能表現都非常優秀,進一步縮小了與 ChatGPT 等頂級 AI 大模型的差距。想要獲取模型的同學可以點擊以下鏈接。

FreeWilly 1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly 2:https://huggingface.co/stabilityai/FreeWilly2

從各方反應來看,FreeWilly 模型的出現給大家帶來了一點小小的震撼,因為它們來得實在是太快了,畢竟 Llama 2 才剛剛推出 3 天,排行榜位置都沒坐熱。有位研究者表示,他最近剛做了手術,一個星期沒看新聞,但感覺自己已經昏迷了一年。所以,這是一段「不能眨眼」的時期。

圖片圖片

不過,需要注意的是,雖然兩個模型都是開放獲取的,但和 Llama 2 不同,它們是以非商業許可的形式發布的,僅可用于研究目的。

圖片圖片

然而,這樣的做法引起了網友質疑。

圖片圖片

對此,Stability AI的研究者回復說,這種情況(僅用于研究目的)只是暫時的,未來,FreeWilly 有望像 Llama 2 一樣允許商用。

圖片圖片

此外,也有人對測試采用的基準產生了質疑:

圖片圖片

這也是當前一個比較棘手的問題。此前,Falcon 模型在 HuggingFace 排行榜上碾壓 Llama 的事件備受爭議,后來,該事件徹底反轉,事實證明 Llama 并未被 Falcon 碾壓,HuggingFace 也為此重寫了排行榜代碼。在大模型層出不窮的今天,如何有效地評估這些模型依然是一個值得討論的問題。因此,對于這些登頂排行榜的模型,我們有必要保持更加謹慎的態度,等待更多的評測結果出爐。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-19 09:26:12

2023-10-16 13:28:00

數據AI

2023-06-02 13:55:57

開源AI

2024-02-05 09:00:00

2023-09-21 10:30:05

AI開源

2023-11-03 11:08:03

PhindAI搜索工具

2024-06-19 11:45:34

2023-09-18 16:24:33

數據研究

2024-07-24 11:30:04

2023-06-21 13:37:41

模型研究

2024-01-22 08:50:00

AI訓練

2023-06-07 14:08:00

計算機代碼

2025-03-28 12:10:30

2023-09-11 15:57:16

人工智能模型GPT-4

2023-12-12 13:16:00

模型訓練

2022-06-08 13:50:41

AI專業排行

2024-03-28 11:15:36

開源AI

2024-05-30 14:23:00

2021-09-30 10:55:05

微軟模型技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品免费国产视频 | 一道本视频 | 亚洲aⅴ | 久久久高清 | 久久久精品一区二区三区 | 青青操av | 日韩www视频 | 一区二区三区高清在线观看 | 99re国产精品 | 国产精品久久久久久吹潮日韩动画 | 国产精品一二三区 | 成人免费视频网站在线观看 | 精品国产视频在线观看 | 免费看一级毛片 | 欧美一级观看 | 国产高清视频在线播放 | 亚洲天堂av在线 | 欧洲国产精品视频 | 精品一区二区三区av | 成人做爰999| 久久成人精品视频 | 国产精品久久久久久久久久久久久 | 国产精品一区在线观看 | 国产一区二区三区在线 | 中文字幕在线播放不卡 | 一区二区手机在线 | 亚洲一区国产 | 久久精品一区二区三区四区 | 蜜桃视频在线观看免费视频网站www | 激情的网站 | a级大毛片 | 一区二区三区影院 | 在线综合视频 | 中文字幕高清av | 欧美a区 | 成人区精品一区二区婷婷 | av网站在线播放 | 久久69精品久久久久久久电影好 | 男插女下体视频 | 一区视频 | 欧美jizzhd精品欧美巨大免费 |