第一個超越ChatGPT的開源模型來了?網友并不買賬
大模型火了起來,每天我們都能看到各種「大」新聞。
圖片
今天,又來了個 Big News:新開源的一個大模型超越了 ChatGPT。
具體是什么呢?
OpenLLM 是一系列在極小、多樣且高質量的多輪對話數據集上進行微調的開源語言模型。
這兩日,作者們更新了該系列模型,并宣稱:OpenChat 模型在 AlpacaEval 上獲得 80.9% 的勝率;在 Vicuna GPT-4 評估上,性能達到 ChatGPT 的 105%。
圖片
也就是上面推特截圖中,兩位博主宣稱的開源模型超越 ChatGPT/GPT-3.5。
OpenLLM 的特色是基于 LLaMA 開源模型,在只有 6,000 個 GPT4 對話的數據集上進行微調,從而達到非常好的效果。
此次更新的模型型號與評審結果如下:
- OpenChat:基于 LLaMA-13B,上下文長度為 2048。
- 在Vicuna GPT-4 評估中達到 ChatGPT 分數的 105.7% 。
- 在 AlpacaEval 上達到 80.9% 的勝率。
- OpenChat-8192:基于 LLaMA-13B,擴展上下文長度為 8192。
- 在 Vicuna GPT-4 評估中達到 ChatGPT 分數的 106.6% 。
- 在 AlpacaEval 上實現 79.5% 的勝率。
也就是說,兩個模型在 Vicuna GPT-4 評估榜單上結果都超越了 ChatGPT。
但這種評審 + 宣傳的方式似乎并不被大家認可。
網友:夸張
在 Twitter 討論中,有網友表明,這就是夸張的說法。
圖片
在此「大」新聞公布后,Vicuna 官方也迅速做出了回應。
實際上,Vicuna 的測試基準已被棄用,現在使用的是更高級的 MT-bench 基準。該基準的測試,有著更加具有挑戰性的任務,并且解決了 gpt4 評估中的偏差以及限制。
在 MT-bench 上,OpenChat 性能表現與 wizardlm-13b 相似。也就是說,開源模型與 GPT-3.5 仍然有著一定差距。這也正是 MT-bench 所強調的內容 —— 開源模型不是完美無缺的,但是這將邁向更好的聊天機器人評估。
圖片
圖片
前幾日,機器之心報道內容《「羊駝」們走到哪一步了?研究表明:最好的能達到 GPT-4 性能的 68%》,也對開源模型的性能進行了評估。
評估還表明,在任何給定的評估中,最佳模型的平均性能達到 ChatGPT 的 83%、GPT-4 的 68%,這表明需要進一步構建更好的基礎模型和指令調優數據以縮小差距。
感興趣的讀者可以查看原文。