成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌PaLM 2弱爆:LLM大排名屈居第六,準中文倒數第二|UC伯克利排行榜新鮮榜出爐

人工智能 新聞
這次「LLM排位賽」,谷歌PaLM 2也被拉上溜了溜。然而,實測表現卻讓人大跌眼鏡。

由UC伯克利主導的「LLM排位賽」又雙叒更新了!

這次,最新榜單又迎來新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

圖片

值得一提的是,即便是平價版的Claude模型,Elo得分也趕超了ChatGPT。

但有一位選手的表現,卻出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

圖片

4月24日-5月22日數據

PaLM 2(Bard)排位大比拼

谷歌PaLM 2發布以來,根據論文的測試,其部分性能已經超過了GPT-4。

圖片

而它的具體表現如何?

來自LMSYS Org的研究人員通過Google Cloud Vertex AI的API接口,將PaLM 2添加到Chatbot Arena,并以代碼名為chat-bison@001進行聊天調優。

在過去的兩周,PaLM 2已經與16個聊天機器人,進行了大約1800次的匿名比拼,目前排名第六。

從排行榜中可以看出,PaLM 2的排名高于所有其他開源聊天機器人,除了Vicuna-13B。

Vicuna-13B的ELO評分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等級而言,這幾乎是個平局。

另外,研究者從PaLM 2的競技場數據中注意到了以下有趣的結果。

PaLM 2與前4名玩家對戰表現較好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它與Vicuna的比賽中也贏了53%的比賽。

然而,PaLM 2與較弱的模型對弈時,表現較差。

在PaLM 2參加的所有比賽中,有21.6%的比賽輸給了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作為參考,GPT-3.5-turbo只有12.8%的比賽輸給了這些聊天機器人。

圖片

三大缺陷

簡而言之,研究人員發現,與評估過的其他模型相比,Google Cloud Vertex API現有的PaLM 2存在以下缺陷:

- PaLM 2受到更嚴格的監管,影響了它回答一些問題的能力

- 多語言能力有限

- 推理能力不如人意

更嚴格的監管

與用戶的對話中,PaLM 2遇到不確定或不愿回答的問題時,與其他模型相比,更有可能放棄回答。

粗略估計,在所有的配對戰中,PaLM 2因為拒絕回答問題而輸掉了20.9%比賽。尤其是,有30.8%比賽輸給了不是Top 4的模型。

這也能夠解釋,為什么PaLM 2經常輸給排行榜上較弱的聊天機器人。

同時,也反映出聊天機器人競技場方法論的一個缺陷,因為隨意用戶更有可能因為微妙的不準確回答,而懲罰棄權行為。

下面,研究者提供幾個失敗的案例,說明PaLM 2如何輸給弱聊天機器人。

另外,研究者注意到,有時很難明確規定LLM監管的邊界。在提供的PaLM 2版本中,看到了一些不受歡迎的趨勢:

- PaLM 2拒絕許多角色扮演問題,即使用戶要求它模擬Linux終端或編程語言解釋器。

- 有時PaLM 2拒絕回答簡單且無爭議的事實問題。

下面列舉了幾個PaLM 2拒絕回答問題的例子:

「人類真的登月了嗎?」

圖片

「為什么天空是藍的?」

圖片

多語言能力有限

PaLM 2傾向于不回答非英語問題,包括用漢語、西班牙語和希伯來語等流行語言編寫的問題。

研究者稱,無法使用當前的PaLM 2版本重現「PaLM 2技術報告」中演示的幾個多語言示例。

此外,UC伯克利研究人員還分別計算了僅考慮英語和非英語對話時所有模型的Elo評分。

結果證實,在非英語排行榜上,PaLM 2排名第16。

圖片

推理能力很弱

研究人員稱,并沒有發現PaLM 2有著強大的推理能力。

一方面,它似乎可以檢測問題是否是「純文本」的,并且傾向于拒絕回答不是純文本的問題,例如編程語言、調試和代碼解釋中的問題。

另一方面,與其他聊天機器人相比,PaLM 2在一些入門級推理任務上表現不佳。

連1+2是不是等于3這么簡單問題,竟答錯了...

圖片

圖片

刪除非英語和拒絕對話后的Elo評分

研究人員刪除所有非英語對話和PaLM 2沒有提供答案的所有對話,并使用過濾后的數據計算每個模型重新排位之后——

PaLM 2躍升至第五名,不過還是沒有超越ChatGPT。

而這個排名也代表了PaLM 2在競技場中的假設上限。

圖片

參數更小的模型競爭力強

研究者觀察到幾個參數較小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名還相對靠前。

與巨量參數大型模型相比,這些較小的模型同樣表現良好。

由此,研究人員推測,高質量的預訓練,以及微調數據集比模型規模更重要。

然而,較大的模型在更復雜的推理任務,或回答更細微的問題時仍有可能表現得更好。

因此,在預訓練和微調階段管理高質量的數據集,似乎是縮小模型規模的同時,保持模型高質量的關鍵方法。

Claude-v1與Claude-instant-v1

另外,Claude-instant-v1是針對低延遲、高吞吐量用例進行優化的版本。

在排位賽中,Claude-instant-v1的水平實際上非常接近GPT-3.5-turbo(1153 vs.1143)。

可以看到,Claude和Claude-instant之間的評分差距似乎小于GPT-4和GPT-3.5-turbo之間的差距。

局限性

聊天機器人排位賽主要是對基于LLM(Large Language Model)的聊天機器人進行「真實環境」的基準測試。

這意味著,用戶提供的投票數據和在投票過程中生成的提示-回答,反映的就是聊天機器人在正常的人機交互中的表現。

這可能與LLM研究文獻中的很多基準測試結果不符,后者傾向于描述如zero-shot、復雜推理等長尾能力。

因此,目前的排位賽在反映聊天機器人之間的長尾能力差異方面存在限制。

作者介紹

本次評測主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2024-05-30 14:23:00

2022-06-08 13:50:41

AI專業排行

2012-06-19 14:23:04

云計算中國

2020-06-12 15:26:51

網絡速度移動網絡下載

2018-03-21 09:51:29

數據庫排行榜Oracle

2024-02-19 13:46:04

多模態信息LWMtoken

2020-08-13 11:55:33

編程語言JavaPython

2020-01-16 15:19:52

APP下載抖音

2020-11-06 00:41:50

編程語言PythonJava

2011-11-03 11:02:00

瀏覽器排行榜

2022-12-14 07:28:31

2025-06-03 08:38:00

2023-10-31 15:23:16

開源

2021-05-08 23:24:56

編程語言CPython

2023-11-14 07:47:42

IGN擴散模型

2024-03-25 08:30:00

AI數據

2013-08-23 09:41:19

2022-02-11 23:46:41

編程語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久亚洲 | 韩日av片| 亚洲欧美精品 | 精品毛片| 日本中文字幕一区 | 91精品国产高清一区二区三区 | 欧美日韩不卡 | 国产毛片毛片 | 天天拍天天草 | 日韩中文字幕在线观看视频 | 日韩成人av在线 | 国产一二区在线 | 久久国产成人精品国产成人亚洲 | 丁香一区二区 | 99视频在线播放 | 国产日韩av一区二区 | 久久久精品天堂 | 中文字幕视频在线免费 | 中日字幕大片在线播放 | 中文字幕在线视频一区二区三区 | 亚洲成人一区 | 91在线影院 | 欧美激情视频一区二区三区在线播放 | 麻豆av免费观看 | 青青操91| 日韩国产欧美一区 | 高清成人免费视频 | 亚洲精美视频 | 少妇黄色 | 日韩av免费在线观看 | 国产成人精品一区二区在线 | 国产精品久久久久久福利一牛影视 | julia中文字幕久久一区二区 | 一呦二呦三呦国产精品 | 欧美精品一区二区三区四区五区 | 成人在线免费观看 | 日韩a v在线免费观看 | 成人国产精品免费观看 | 国产在线1 | 黄片毛片| 99亚洲精品 |