成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

UC伯克利發布大語言模型排行榜！Vicuna奪冠，清華ChatGLM進前5

作者：新智元 2023-05-04 14:55:02

人工智能新聞

萬萬沒想到，現在大語言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了！據說，那些閉源模型們很快也會被拉出來溜溜。

最近，來自LMSYS Org（UC伯克利主導）的研究人員又搞了個大新聞——大語言模型版排位賽！

顧名思義，「LLM排位賽」就是讓一群大語言模型隨機進行battle，并根據它們的Elo得分進行排名。

然后，我們就能一眼看出，某個聊天機器人到底是「嘴強王者」還是「最強王者」。

劃重點：團隊還計劃把國內和國外的這些「閉源」模型都搞進來，是騾子是馬溜溜就知道了?。℅PT-3.5現在就已經在匿名競技場里了）

匿名聊天機器人競技場長下面這樣：

很明顯，模型B回答正確，拿下這局；而模型A連題都沒讀懂……

項目地址：https://arena.lmsys.org/

在當前的排行榜中，130億參數的Vicuna以1169分穩居第一，同樣130億參數的Koala位列第二，LAION的Open Assistant排在第三。

清華提出的ChatGLM，雖然只有60億參數，但依然沖進了前五，只比130億參數的Alpaca落后了23分。

相比之下，Meta原版的LLaMa只排到了第八（倒數第二），而Stability AI的StableLM則獲得了唯一的800+分，排名倒數第一。

團隊表示，之后不僅會定期更新排位賽榜單，而且還會優化算法和機制，并根據不同的任務類型提供更加細化的排名。

目前，所有的評估代碼以及數據分析均已公布。

拉著LLM打排位

在這次的評估中，團隊選擇了目前比較出名的9個開源聊天機器人。

每次1v1對戰，系統都會隨機拉兩個上場PK。用戶則需要同時和這兩個機器人聊天，然后決定哪個聊天機器人聊的更好。

可以看到，頁面下面有4個選項，左邊（A）更好，右邊（B）更好，一樣好，或者都很差。

當用戶提交投票之后，系統就會顯示模型的名稱。這時，用戶可以繼續聊天，或者選擇新的模型重新開啟一輪對戰。

不過，團隊在分析時，只會采用模型是匿名時的投票結果。在經過差不多一周的數據收集之后，團隊共收獲了4.7k個有效的匿名投票。

在開始之前，團隊先根據基準測試的結果，掌握了各個模型可能的排名。

根據這個排名，團隊會讓模型去優先選擇更合適的對手。

然后，再通過均勻采樣，來獲得對排名的更好總體覆蓋。

在排位賽結束時，團隊又引入了一種新模型fastchat-t5-3b。

以上這些操作最終導致了非均勻的模型頻率。

每個模型組合的對戰次數

從統計數據來看，大多數用戶所用的都是英語，中文排在第二位。

排名前15的語言的對戰次數

評估LLM，真的很難

自從ChatGPT爆火之后，經過指令跟隨微調的開源大語言模型如雨后春筍一般大量涌現?？梢哉f，幾乎每周都有新的開源LLM在發布。

但問題是，評估這些大語言模型非常難。

具體來說，目前用來衡量一個模型好不好的東西基本都是基于一些學術的benchmark，比如在一個某個NLP任務上構建一個測試數據集，然后看測試數據集上準確率多少。

然而，這些學術benchmark（如HELM）在大模型和聊天機器人上就不好用了。其原因在于：

1. 由于評判聊天機器人聊得好不好這件事是非常主觀的，因此現有的方法很難對其進行衡量。

2. 這些大模型在訓練的時候就幾乎把整個互聯網的數據都掃了一個遍，因此很難保證測試用的數據集沒有被看到過。甚至更進一步，用測試集直接對模型進行「特訓」，如此一來表現必然更好。

3. 理論上我們可以和聊天機器人聊任何事情，但很多話題或者任務在現存的benchmark里面根本就不存在。

那如果不想采用這些benchmark的話，其實還有一條路可以走——花錢請人來給模型打分。

實際上，OpenAI就是這么搞的。但是這個方法明顯很慢，而且更重要的是，太貴了……

為了解決這個棘手的問題，來自UC伯克利、UCSD、CMU的團隊發明了一種既好玩又實用的全新機制——聊天機器人競技場（Chatbot Arena）。

相比而言，基于對戰的基準系統具有以下優勢：

可擴展性（Scalability）

當不能為所有潛在的模型對收集足夠的數據時，系統應能擴展到盡可能多的模型。

增量性（Incrementality）

系統應能夠使用相對較少的試驗次數評估新模型。

唯一順序（Unique order）

系統應為所有模型提供唯一順序。給定任意兩個模型，我們應該能夠判斷哪個排名更高或它們是否并列。

Elo評分系統

Elo等級分制度（Elo rating system）是一種計算玩家相對技能水平的方法，廣泛應用在競技游戲和各類運動當中。其中，Elo評分越高，那么就說明這個玩家越厲害。

比如英雄聯盟、Dota 2以及吃雞等等，系統給玩家進行排名的就是這個機制。

舉個例子，當你在英雄聯盟里面打了很多場排位賽后，就會出現一個隱藏分。這個隱藏分不僅決定了你的段位，也決定了你打排位時碰到的對手基本也是類似水平的。

而且，這個Elo評分的數值是絕對的。也就是說，當未來加入新的聊天機器人時，我們依然可以直接通過Elo的評分來判斷哪個聊天機器人更厲害。

具體來說，如果玩家A的評分為Ra，玩家B的評分為Rb，玩家A獲勝概率的精確公式（使用以10為底的logistic曲線）為：

然后，玩家的評分會在每場對戰后線性更新。

假設玩家A（評分為Ra）預計獲得Ea分，但實際獲得Sa分。更新該玩家評分的公式為：

1v1勝率

此外，作者還展示了排位賽中每個模型的對戰勝率以及使用Elo評分估算的預測對戰勝率。

結果顯示，Elo評分確實可以相對準確地進行預測

所有非平局A對B戰斗中模型A勝利的比例

在A對B戰斗中，使用Elo評分預測的模型A的勝率

作者介紹

「聊天機器人競技場」由前小羊駝作者機構LMSYS Org發布。

該機構由UC伯克利博士Lianmin Zheng和UCSD準教授Hao Zhang創立，目標是通過共同開發開放的數據集、模型、系統和評估工具，使每個人都能獲得大型模型。

Lianmin Zheng

Lianmin Zheng是加州大學伯克利分校EECS系的博士生，他的研究興趣包括機器學習系統、編譯器和分布式系統。

Hao Zhang

Hao Zhang目前是加州大學伯克利分校的博士后研究員。他將于2023年秋季開始在加州大學圣地亞哥分校Hal?c?o?lu數據科學研究所和計算機系擔任助理教授。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产精品伦理一区 | 久久久tv| 国产精品亚洲片在线播放 | 欧美爱爱视频网站 | 精品免费国产视频 | 国产黄色一级片 | 国产日韩欧美中文字幕 | 精品日韩在线 | 97精品一区二区 | 日韩综合网 | 亚洲欧美日韩精品久久亚洲区 | 日日日日日日bbbbb视频 | 欧美亚洲国产日韩 | 精品欧美一区二区三区久久久 | 日韩欧美在线免费观看视频 | 日韩成人在线观看 | 国产一区在线免费观看视频 | 欧美一区二区网站 | 天天久久| 国产一区二区激情视频 | 91在线视频免费观看 | 国产成人小视频 | 久久亚洲一区 | 国产精品国产精品国产专区不卡 | 在线播放一区二区三区 | 天天操天天拍 | 污片在线免费观看 | 久久的色 | 91久久久精品国产一区二区蜜臀 | 台湾av在线 | 99精品网 | 国产精品69毛片高清亚洲 | 亚洲视频1区 | 亚洲国产中文字幕 | 亚洲一区二区三区免费在线观看 | 男女下面一进一出网站 | 毛片网站在线观看视频 | 精品国产欧美 | 91精品国产综合久久久密闭 | 高清av一区 | 免费毛片在线 |