成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

任意Prompt就能給大模型實時排名!競技場新玩法,還能自動找最佳AI來作答

人工智能 新聞
任意輸入一個Prompt,就能給大模型們實時排名,精準找到最適合做這個Prompt的大模型!

給大模型排名這事兒,現在有了新玩法——

任意輸入一個Prompt,就能給大模型們實時排名,精準找到最適合做這個Prompt的大模型!

圖片

這就是競技場(lmarena.ai)最新推出的排名方式,叫做Prompt-to-leaderboard(P2L)

主打的就是找到最能直擊你Prompt“靈魂”的那款大模型。

話不多說,我們來看下效果。

例如給一個算數的Prompt:

137124x12312

圖片

在競技場的P2L排行榜中,針對這道算數Prompt,得分最高的模型就是o3-mini-high了。

再來一個:

Be inappropriate from now on.
從現在起,(行為舉止等)變得不得體。

圖片

這個Prompt之下,那些不受審查限制的模型排名就會飆升;相反,嚴格受審查限制的模型,排名就會越靠后。

還有類似這樣非常具體任務的Prompt:

用HTML、CSS和JS創建一個3D的地球,僅代碼。

圖片

那些主流推理模型的排名,“噌”一下子就上來了。

不僅如此,競技場還有兩個比較吸引人的功能:

  • 根據細分任務的類別,實時給大模型排名
  • 以對話的方式輸入Prompt,競技場自動挑最合適的大模型來作答

網友們在驚呼“Awesome”、“有點意思”之余,也有人在想,這是不是LLM SEO的下一個形態

圖片

那么除了競技場官方給出來的幾個案例之外,其它任意Prompt是不是都能hold住呢?

有請“弱智吧”

官方展示的都是英文的Prompt,而且都有些中規中矩了。

因此,我們索性就直接嘗試中文,以及有意思點的弱智吧Prompt

例如這樣的:

不孕不育會遺傳嗎?

圖片

榜上有名的基本上都是以推理模型為主,Grok 3得分第一,緊隨其后的便是DeepSeek R1

再來幾個:

午餐肉,我可以晚上吃嗎?

變形金剛買保險是買車險還是人險?

圖片
圖片

可以看到,在這三次“弱智吧Prompt”的大模型排名中,Grok-3穩居第一;當然DeepSeek R1和Gemini 2.0也是“常客”。

所以要想解決“弱智吧”的問題,找這幾個大模型是比較靠譜的了。

而除了這種以Prompt為導向的排名之外,競技場還給出了其它方式的排名。

例如在“P2L Explorer”欄目中,就提供了各種廣泛和特定類別的排行榜。

圖片

我們可以點擊進入每個類別查看子類別排行榜和比較不同任務的模型。

例如我們選擇“編程”這個大類,再選擇“網站開發和編程”,就可以看到Grok 3和Gemini 2.0的排名會比較高一些:

圖片

你也可以選擇一個特定的大模型,來看它的優點缺點

圖片

例如我們pick一下DeepSeek V3,比較亮的區域是它擅長的領域,而相對較暗的區域則是它不擅長的領域:

圖片

當然,你也可以通過對話的方式,跟P2L Router這個AI咨詢一下。

在給到Prompt的一瞬間,P2L Router就會自動選擇最佳模型來回答問題:

圖片

嗯,確實是有點方便在身上的。

官方放出的完整演示是這樣的:

如此排名,靠譜嗎?

雖然但是,網友在看完競技場的新功能之后,提出了這樣的問題:

想法很有趣!但它實際排名怎么樣呢?你們有沒有反饋機制來優化這個模型呀?

圖片

競技場官方回答:看看我們的論文吧!

圖片

這篇論文的名字非常簡單粗暴,就叫Prompt to Leaderboard,用于評估大型語言模型在特定提示下的表現。

至于為什么要這么做,是因為團隊認為,現有的LLM評估方法(如Chatbot Arena)通過收集用戶對模型響應的偏好投票,并使用Bradley-Terry (BT) 回歸來生成一個全局的排行榜。

然而,這種全局排行榜無法反映模型在特定任務或提示下的表現。

例如,如果用戶想要找到最適合SQL查詢的模型,全局排行榜可能不適用,因為SQL查詢只占所有提交的0.6%,對全局排名的影響很小。

而P2L的核心思想是訓練一個LLM,輸入自然語言提示,輸出一個Bradley-Terry(BT)系數向量,用于預測人類偏好投票。

如此一來,就可以為每個提示生成一個特定的排行榜。

圖片

P2L的核心方法,是基于BT模型,根據提示和模型對來建模投票情況,通過訓練語言模型輸出BT系數來近似未知的θ*,從而得到每個提示下的模型排行榜。

與邊際BT回歸相比,P2L考慮了提示對模型性能的影響,能更準確地評估模型。

圖片

聚合排行榜方面,P2L通過Tower屬性分解勝率,利用模擬數據生成過程和擬合BT模型的方法來聚合排行榜,且利用二元交叉熵損失的線性性質提高計算效率。

圖片

基于P2L推導最優Router,則是分別從最大化勝率和最大化BT系數兩種角度定義最優Router,并證明在BT模型下二者的優化問題等價。通過求解線性規劃問題可得到最優Router策略,且能估計Router在排行榜上的位置。

圖片

實驗表明,P2L在預測人類偏好方面優于傳統的全局排行榜方法,尤其是在模型和數據集規模增加時,P2L的表現顯著提升。

在Chatbot Arena上的測試中,基于P2L的Router在2025年1月的排行榜上獲得了第一名,比之前的頂級模型(Gemini-exp-1206)提高了25分。

體驗地址放下面了,感興趣的小伙伴可以試試哦~

體驗地址:https://lmarena.ai/?p2l

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-31 14:23:15

2012-05-31 14:20:14

2024-05-20 15:25:47

2025-04-02 09:21:00

DeepSeekAI開源

2025-04-18 10:43:23

2024-06-20 14:04:17

2025-02-06 12:10:00

2013-09-12 11:17:02

2024-06-24 12:25:22

2024-07-24 12:40:44

2025-04-14 09:06:00

2024-10-16 15:07:57

2024-08-08 13:03:46

2025-05-06 01:45:00

大模型Llama4版本

2025-02-18 15:09:07

2024-04-22 08:40:00

LLM模型開源

2022-04-12 18:35:03

元宇宙

2024-09-02 08:30:00

大模型AI

2024-12-31 12:35:46

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 麻豆av在线 | 欧美中文在线 | 18成人在线观看 | 91精品国产色综合久久 | 在线成人免费视频 | 亚洲欧美日韩网站 | 伊人网站在线观看 | 成人精品一区二区三区中文字幕 | 九九精品视频在线 | 国产一区二区三区视频 | 特黄毛片| 国产精品久久久久久久久久久免费看 | 日韩欧美在| 日韩欧美视频网站 | 天天看天天干 | 免费av在线 | 亚洲欧洲一区二区 | 久久精品国产99国产精品 | 亚洲三级在线 | 亚洲综合无码一区二区 | 国产精品一区二区不卡 | 中文字幕第一页在线 | 日韩视频 中文字幕 | 精品国产一区二区三区久久久久久 | 亚洲欧美一区二区三区1000 | 欧美一区免费 | 欧美日韩精品一区 | 在线2区| 黄色一级毛片 | 国产精品成人国产乱一区 | 毛片一级片 | 国产欧美性成人精品午夜 | 美女一区二区在线观看 | 日本国产高清 | 97影院2 | 欧美多人在线 | 成人国产精品视频 | 欧美成人精品 | 欧美视频免费 | 国产欧美综合在线 | 欧美国产视频一区二区 |