成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)

發(fā)布于 2024-4-23 13:26

瀏覽

0收藏

開發(fā)一個(gè)安全、準(zhǔn)確的大模型評估基準(zhǔn)通常需要包含三個(gè)重要內(nèi)容：1）穩(wěn)定識別模型的能力；2）反映真實(shí)世界使用情況中的人類偏好；3）經(jīng)常更新以避免過擬合或測試集泄漏。

但傳統(tǒng)的基準(zhǔn)測試通常是靜態(tài)的或閉源的，同時(shí)大模型的技術(shù)發(fā)展和功能迭代比較，這凸顯了建立具有高可分離性評估基準(zhǔn)的必要性。

大模型研究組織Lmsys Org則開源了Arena-Hard。這是一個(gè)全新高質(zhì)量大模型評估基準(zhǔn)。

開源地址：https://github.com/lm-sys/arena-hard

Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

Lmsys將新的基準(zhǔn)測試平臺 Arena Hard v0.1 與當(dāng)前領(lǐng)先的聊天大模型基準(zhǔn)測試 MT Bench 進(jìn)行比較。

結(jié)果顯示，Arena Hard v0.1 相對于 MT Bench 提供了明顯更強(qiáng)的可分離性，且置信區(qū)間更窄。它還與 Chatbot Arena（僅限英文）的人類偏好排名具有更高的一致性（89.1%）。

Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

Arena-hard-v0.1與廣泛采用的大模型基準(zhǔn)相比顯示出最高的可分離性 (87.4%)，并且也便宜且運(yùn)行速度快（25 美元）。

Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

Arena-hard-v0.1構(gòu)建了一個(gè)管道，可以從通過 Chatbot Arena 收集的 200,000 個(gè)用戶查詢的數(shù)據(jù)集中自動(dòng)提取高質(zhì)量提示。這包括多樣性，提示集應(yīng)涵蓋廣泛的現(xiàn)實(shí)世界主題；提示質(zhì)量，每個(gè)提示都應(yīng)具有高質(zhì)量來衡量大模型的水平。

Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

為了確保提示多樣性，Lmsys在BERTopic中采用主題建模管道，首先使用 OpenAI 的嵌入 (text-embedding-3-small) 轉(zhuǎn)換每個(gè)提示，使用 UMAP 降維，并使用基于層次的聚類算法 (HDBSCAN) 來識別聚類然后使用 GPT-4-turbo 進(jìn)行總結(jié)。這有助于Lmsys識別涵蓋廣泛領(lǐng)域的 4000 多個(gè)主題。

但主題集群在大模型基準(zhǔn)測試中具有不同的質(zhì)量和可分離性。Lmsys為大模型開發(fā)了一個(gè)經(jīng)過校準(zhǔn)的系統(tǒng)提示，幫助其根據(jù)七個(gè)關(guān)鍵標(biāo)準(zhǔn)例如，特異性、領(lǐng)域知識、問題解決能力等選擇高質(zhì)量的用戶查詢。

Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

大模型Judge（GPT-3.5-Turbo、GPT-4-Turbo）對每個(gè)提示進(jìn)行注釋，從 0 到 7，以指示滿足多少個(gè)標(biāo)準(zhǔn)。然后，Lmsys根據(jù)提示的平均得分對每個(gè)簇進(jìn)行評分。

下面，Lmsys展示了從低到高平均分?jǐn)?shù)的主題集群示例。例如，游戲開發(fā)或數(shù)學(xué)證明。另一方面，得分較低的集群指向瑣碎或模糊的問題，例如“設(shè)計(jì)風(fēng)格和影響”。

Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

為了了解提示分?jǐn)?shù)是否與可分離性相關(guān)，Lmsys對每個(gè)分?jǐn)?shù)采樣 50 個(gè)提示，并比較 GPT-4 和 Llama-70b 的響應(yīng)，并以 GPT-4-Turbo 作為判斷。

Lmsys表示高潛在得分與 GPT-4 對 Llama-70b 的勝率之間存在很強(qiáng)的相關(guān)性。在其他模型對中也觀察到類似的趨勢，例如Claude Sonnet 與 Haiku 以及Mistral-large 與 Mixtral。

Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/fwsrEzdmVV2Wc-Qp7-hGMg??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

ICLR 2024 Spotlight | 無懼中間步驟，MUSTARD可生成高質(zhì)量數(shù)學(xué)推理數(shù)據(jù)

輕薄滴假象 ? 3551瀏覽 ? 0回復(fù)
Meta 聯(lián)合紐約大學(xué)和華盛頓大學(xué)提出MetaCLIP，帶你揭開CLIP的高質(zhì)量數(shù)據(jù)之謎。

輕薄滴假象 ? 2921瀏覽 ? 0回復(fù)
七個(gè)高質(zhì)量潤色論文和文章的指令

數(shù)師兄 ? 3747瀏覽 ? 0回復(fù)
CVPR 2024｜讓圖像擴(kuò)散模型生成高質(zhì)量360度場景，只需要一個(gè)語言模型

輕薄滴假象 ? 3463瀏覽 ? 0回復(fù)
Advanced RAG 08：使用 Self-RAG 打造高質(zhì)量、可追溯的 RAG System

Baihai_IDP ? 3212瀏覽 ? 0回復(fù)
靠Scaling Laws煉出4D版視頻生成模型，多倫多大學(xué)北交大等攜手開源81K高質(zhì)量數(shù)據(jù)集

Crystalcxt ? 2426瀏覽 ? 0回復(fù)
僅需1分鐘，文本生成高質(zhì)量3D模型—Meta 3D-Gen

Aceryt ? 3394瀏覽 ? 0回復(fù)
大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS

NLP工作站 ? 4061瀏覽 ? 0回復(fù)
快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst

angel ? 3271瀏覽 ? 0回復(fù)
1890美元訓(xùn)出11.6億參數(shù)高質(zhì)量文生圖模型

duhorse ? 2390瀏覽 ? 0回復(fù)
國外驚訝，中國文生視頻模型超高質(zhì)量！

Aceryt ? 3361瀏覽 ? 0回復(fù)
如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？

NLP工作站 ? 2751瀏覽 ? 0回復(fù)
視頻生成更高質(zhì)量，更連貫！關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開源

angel ? 3552瀏覽 ? 0回復(fù)
中科大&科大訊飛重磅開源OpenMusic：音樂生成更高質(zhì)量，更有樂感

angel ? 3773瀏覽 ? 0回復(fù)
3D生成基礎(chǔ)模型來了！只需5秒，高質(zhì)量3D資產(chǎn)規(guī)模化生成！南洋理工等重磅開源3DTopia-XL

angel ? 2684瀏覽 ? 0回復(fù)
LLaMA-Omni：專為與大型語言模型（LLMs）進(jìn)行低延遲、高質(zhì)量的語音交互而設(shè)計(jì)

Halo咯咯 ? 3847瀏覽 ? 0回復(fù)
大模型訓(xùn)練之訓(xùn)練數(shù)據(jù)準(zhǔn)備，即怎么準(zhǔn)備高質(zhì)量的訓(xùn)練數(shù)據(jù)集？

AI探索時(shí)代 ? 3757瀏覽 ? 0回復(fù)
關(guān)于打造高質(zhì)量RAG系統(tǒng)的問題記錄

AI探索時(shí)代 ? 1264瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 1473瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動(dòng)開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實(shí)測來了 0回復(fù)

上一篇： Leonardo新增圖片樣式引導(dǎo)，能精準(zhǔn)控制生成圖片啦！

下一篇： ChatGPT能預(yù)測未來特定事件，準(zhǔn)確率高達(dá)97%

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：国产大学生情侣呻吟视频 | 涩涩导航 | 91精品国产91久久久久久密臀 | 日韩日b视频| 日韩中文字幕网 | 一区二区国产精品 | 国产精品视频999 | 亚洲精品一区二三区不卡 | 国产一区二区免费在线 | 伊人久久成人 | 国产精品1区 | 日日av| 亚洲国产精品一区二区三区 | 国产日韩欧美在线播放 | 中文字幕国产视频 | 日韩久久久久 | 亚洲免费视频播放 | 久久综合久久久 | 99精品网| 免费大黄视频 | 欧美日韩国产一区二区三区 | 黄色三级毛片 | 久久久tv | 欧美精品一区二区三区在线 | 国产精品久久久久久久 | 成人在线观看免费视频 | 国产分类视频 | 欧美精品一区二区三 | 日韩理论电影在线观看 | www.色综合| 成人a网 | 日韩在线| a级黄色毛片免费播放视频国产精品视频在线观看 | 欧美日韩国产一区二区三区 | 激情五月激情综合网 | 自拍偷拍亚洲视频 | 逼逼网 | 中文日本在线 | 久久一二 | 亚洲成人播放器 | 午夜激情视频在线 |

<ins id="66161"></ins>