成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最好7B模型再易主!打敗700億LLaMA2,蘋果電腦就能跑

人工智能 新聞
H4團(tuán)隊推出二代Zephyr-7B-beta。他們補充道,探索了從GPT-4、Claude 2中提取對齊性,然后將其注入小模型中的想法,開發(fā)出了將蒸餾直接偏好優(yōu)化(dDPO)用于小模型的方法。

花500刀“調(diào)教”的70億參數(shù)模型,打敗700億參數(shù)的Llama 2!

且筆記本就能輕松跑,效果媲美ChatGPT。

重點:免費、不要錢

HuggingFace H4團(tuán)隊打造的開源模型Zephyr-7B,鯊瘋了。

圖片

其底層模型是前段時間爆火、由有著“歐洲OpenAI”之稱的Mistral AI打造的開源大模型Mistral-7B

圖片

要知道,Mistral-7B發(fā)布不到2周,各種微調(diào)版本相繼現(xiàn)世,大有Llama剛發(fā)布時迅速出現(xiàn)各種“羊駝”之風(fēng)。

而Zephyr能夠在各變種中脫穎而出,關(guān)鍵是團(tuán)隊在Mistral的基礎(chǔ)上,使用直接偏好優(yōu)化(DPO)在公開數(shù)據(jù)集上微調(diào)了模型。

團(tuán)隊還發(fā)現(xiàn),刪除數(shù)據(jù)集的內(nèi)置對齊,可以進(jìn)一步提高M(jìn)T Bench性能。初代Zephyr-7B-alpha的MT-Bench平均得分7.09 ,超越Llama2-70B-Chat。

圖片
△MT-Bench是評估模型處理多輪對話能力的基準(zhǔn)測試,問題集涵蓋寫作、角色扮演、提取等8個類別。

關(guān)鍵是,它接著又升級了

H4團(tuán)隊推出二代Zephyr-7B-beta。他們補充道,探索了從GPT-4、Claude 2中提取對齊性,然后將其注入小模型中的想法,開發(fā)出了將蒸餾直接偏好優(yōu)化(dDPO)用于小模型的方法。

二代Zephyr,MT-Bench平均得分升高至7.34。

圖片

在AlpacaEval上,Zephyr勝率為90.6%,優(yōu)于ChatGPT(3.5):

圖片

趕來的網(wǎng)友們對Zephyr給予了一致好評,lmsys團(tuán)隊還亮出了Zephyr-7b-beta的Elo評分,目前已飆升得很高??:

內(nèi)部的Arena排行榜上已超過13B模型。

圖片

甚至有人表示:

在實際應(yīng)用中看到DPO方法表現(xiàn)很好,可能是今年大語言模型發(fā)展中最令人興奮的事情。

圖片

更多網(wǎng)友紛紛上手測試Zephyr效果,結(jié)果都出奇的好。

Mistral這個單詞在法語里代表一種干燥、寒冷且強勁的風(fēng),而Zephyr意思則是溫和、宜人的西風(fēng)。

Llama那邊是動物園,這邊是氣象局無疑了。

最好的7B模型再易主

先來說運行Zephyr對電腦配置的要求。網(wǎng)友實測后表示“泰褲辣”!,筆記本(Apple M1 Pro)就夠用,“結(jié)果非常好”。

圖片

效果方面,Llama Index(此前名為GPT Index)團(tuán)隊也進(jìn)行了測試。

圖片

結(jié)果發(fā)現(xiàn),Zephyr是目前唯一一個在高級RAG/agentic任務(wù)上表現(xiàn)良好的開源7B模型。

數(shù)據(jù)也顯示,Zephyr高級RAG任務(wù)效果可以和GPT-3.5、Claude 2相抗衡。

他們還繼續(xù)補充道,Zephyr不僅在RAG上效果突出,而且在路由、查詢規(guī)劃、檢索復(fù)雜SQL語句、結(jié)構(gòu)化數(shù)據(jù)提取方面也表現(xiàn)良好。

圖片

官方也給出了測試結(jié)果,在MT-Bench上,Zephyr-7B-beta與Llama2-Chat-70B等較大的模型相比具有強大的性能。

圖片

但在編碼和數(shù)學(xué)等更復(fù)雜的任務(wù)上,Zephyr-7B-beta落后于專有模型,需要更多的研究來縮小差距。

舍棄強化學(xué)習(xí)

大家都在紛紛測試Zephyr的效果,開發(fā)人員卻表示,最有趣的不是各項指標(biāo),而是模型的訓(xùn)練方式。

亮點總結(jié)如下:

  • 微調(diào)最好的小型開源預(yù)訓(xùn)練模型:Mistral 7B
  • 大規(guī)模偏好數(shù)據(jù)集的用法:UltraFeedback
  • 不用強化學(xué)習(xí),使用直接偏好優(yōu)化(DPO)
  • 意料之外的是,偏好數(shù)據(jù)集的過擬合會產(chǎn)生更好的效果

展開來說,正如開頭所提到的,Zephyr的效果之所以能夠超越70B的Llama 2,主要是因為使用了特殊的微調(diào)方法。

與傳統(tǒng)的PPO強化學(xué)習(xí)方法不同,研究團(tuán)隊使用了斯坦福大學(xué)和CZ Biohub不久前合作提出DPO方法。

圖片

研究人員表示:

DPO要比PPO穩(wěn)定得多。

DPO簡單來講可以這樣解釋:

要想使模型的輸出更加符合人類偏好,一直以來傳統(tǒng)方法是用一個獎勵模型來微調(diào)目標(biāo)模型。輸出得好給獎勵,輸出不好不給獎勵。

而DPO的方法繞過了建模獎勵函數(shù),相當(dāng)于直接在偏好數(shù)據(jù)上優(yōu)化模型。

總的來說,DPO解決了人類反饋的強化學(xué)習(xí)訓(xùn)練難、訓(xùn)練成本高的問題。

具體到Zephyr的訓(xùn)練上,研究團(tuán)隊最初是在UltraChat數(shù)據(jù)集精簡后的變種上對Zephyr-7B-alpha進(jìn)行了微調(diào),這個數(shù)據(jù)集包含了ChatGPT生成的160萬個對話(精簡后剩下約20萬個)。

(之所以要精簡過濾,是因為團(tuán)隊發(fā)現(xiàn)Zephyr有時大小寫寫不對,比如“Hi. how are you?”;有時會以“I don’t have personal X”為開頭進(jìn)行回應(yīng)。)

之后,他們又通過TRL的DPO Trainer方法,用公開的openbmb/UltraFeedback數(shù)據(jù)集進(jìn)一步對齊了該模型。

數(shù)據(jù)集中包含了64000個來自各種模型的提示-響應(yīng)對。每個響應(yīng)都由GPT-4根據(jù)有用性等標(biāo)準(zhǔn)進(jìn)行排名,并賦予一個得分,從中推出AI偏好

一個有趣的發(fā)現(xiàn)是,在用DPO的方法時,隨著訓(xùn)練時間增加,過擬合后,效果居然更好了。研究人員認(rèn)為這類似于SFT中的過擬合。

圖片

值得一提的是,研究團(tuán)隊還介紹,用這種方法微調(diào)模型,成本只需500美元,也就是在16個A100上跑8小時。

圖片

在升級Zephyr為beta版本時,團(tuán)隊又繼續(xù)解釋了他們的方法。

他們思考了大模型所用的蒸餾監(jiān)督微調(diào)(dSFT),但用這種方法模型是不對齊的,不能很好地生成符合用戶意圖的輸出。

圖片

所以團(tuán)隊嘗試使用來自AI反饋(AI Feedback,AIF)的偏好數(shù)據(jù),用一個“教師模型”對輸出進(jìn)行排名,形成一個數(shù)據(jù)集,然后應(yīng)用蒸餾直接偏好優(yōu)化(dDPO)來訓(xùn)練一個與用戶意圖對齊的模型,且在微調(diào)期間不需要任何額外的抽樣。

研究人員還測試了不用SFT時的效果,結(jié)果性能大大降低,說明dSFT步驟至關(guān)重要。

圖片

目前模型除了已開源可商用,還有Demo可試玩,我們這就上手簡單體驗了一把。

Demo試玩體驗

首先就不得不搬出“弱智吧”問題來考一考了。

在“爸媽結(jié)婚不帶我”這個問題上,Zephyr總體回答較為準(zhǔn)確。

圖片

ChatGPT在這道題目上,屬實打不過。

圖片

在測試中我們還發(fā)現(xiàn)Zephyr對OpenAI發(fā)布GPT-4等近期的事也知道:

圖片

這其實與其底層模型有關(guān),Mistral官方雖然沒有具體說明訓(xùn)練數(shù)據(jù)截止日期。

但之前就有網(wǎng)友測試過,今年三月份的事它也知道。

圖片

相比之下Llama 2的預(yù)訓(xùn)練數(shù)據(jù)截止到2022年9月,只有部分微調(diào)數(shù)據(jù)最多到2023年6月。

此外,Zephyr的響應(yīng)速度也非常快,寫代碼、編故事都不在話下。:

圖片

值得一提的是,Zephyr更擅長用英文回答問題,也會出現(xiàn)“幻覺”這一模型通病。

研究人員也有提到幻覺問題,輸入框的下方也標(biāo)有一行小字,指明該模型生成的內(nèi)容可能不準(zhǔn)確或錯誤。

圖片

關(guān)鍵是因為Zephyr沒有用到人類反饋強化學(xué)習(xí)這樣的方法與人類偏好對齊,也沒有采用ChatGPT的回應(yīng)過濾方式。

emmm魚和熊掌總要選一個。

Zephyr只有70B參數(shù)就能做到這樣的效果,讓《100頁的機器學(xué)習(xí)書》作者Andriy Burkov也很吃驚,甚至表示:

Zephyr-7B戰(zhàn)勝Llama 2-70B,用的基礎(chǔ)模型是上下文窗口為8k token的Mistral-7B,理論上它的注意力范圍可高達(dá)128K tokens。

如果Zephyr是一個70B模型會怎樣呢?它會勝過GPT-4嗎?看起來很可能。

圖片

如果你對Zephyr-7B感興趣,可在huggingface試玩。

https://huggingface.co/spaces/HuggingFaceH4/zephyr-chat

論文鏈接:https://arxiv.org/abs/2310.16944

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-09-04 12:58:05

2023-09-04 19:09:00

訓(xùn)練模型數(shù)據(jù)

2023-10-13 19:58:33

Mistral7B模型

2024-02-22 10:09:00

開源模型

2023-10-09 12:36:58

2025-05-22 13:43:40

DeepSeek模型編程

2023-10-04 07:59:41

大型語言模型人工智能

2023-07-19 15:01:14

GPT-4LaMA2參數(shù)

2023-12-07 11:46:00

蘋果芯片開源

2023-08-21 10:36:23

2023-12-13 12:55:39

模型數(shù)據(jù)

2024-04-19 07:55:57

Llama 3模型人工智能開源

2023-09-14 13:23:42

Llama-2模型參數(shù)

2025-03-11 13:07:58

2024-06-03 10:43:34

2024-03-25 08:00:00

2024-10-25 10:57:11

2024-09-13 09:14:32

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精一区二区 | 噜噜噜噜狠狠狠7777视频 | 亚洲精彩免费视频 | 国产一区二区在线观看视频 | 国产在视频一区二区三区吞精 | 国产91 在线播放 | 国产精品自拍视频 | 韩国电影久久 | 一区二区中文 | 97av视频在线 | 国内精品伊人久久久久网站 | 日韩高清www| www.日韩系列 | 亚洲视频免费观看 | 一级大片免费 | 丁香六月激情 | 亚洲视频中文字幕 | 国产aaaaav久久久一区二区 | 欧美精品在线一区 | 中文av电影| 一级欧美 | 日韩成人免费 | 国产视频一区二区 | 亚洲免费精品一区 | 久婷婷| 国产欧美在线观看 | 亚洲欧美一区二区三区国产精品 | xxxxxx国产| 亚洲精品九九 | 亚洲国产精品久久人人爱 | 亚洲v日韩v综合v精品v | 成人在线中文字幕 | 国产成人黄色 | 在线不卡视频 | 久久美女网 | 久久综合成人精品亚洲另类欧美 | 国产网站久久 | 亚洲精品9999 | 日本国产精品视频 | 91在线第一页 | 99精品视频在线 |