成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Arena-Hard:開源高質(zhì)量大模型評估基準(zhǔn)

發(fā)布于 2024-4-23 13:26
瀏覽
0收藏

開發(fā)一個(gè)安全、準(zhǔn)確的大模型評估基準(zhǔn)通常需要包含三個(gè)重要內(nèi)容:1)穩(wěn)定識別模型的能力;2)反映真實(shí)世界使用情況中的人類偏好;3)經(jīng)常更新以避免過擬合或測試集泄漏。

但傳統(tǒng)的基準(zhǔn)測試通常是靜態(tài)的或閉源的,同時(shí)大模型的技術(shù)發(fā)展和功能迭代比較,這凸顯了建立具有高可分離性評估基準(zhǔn)的必要性。

大模型研究組織Lmsys Org則開源了Arena-Hard。這是一個(gè)全新高質(zhì)量大模型評估基準(zhǔn)。

開源地址:https://github.com/lm-sys/arena-hard

Arena-Hard:開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

Lmsys將新的基準(zhǔn)測試平臺 Arena Hard v0.1 與當(dāng)前領(lǐng)先的聊天 大模型基準(zhǔn)測試 MT Bench 進(jìn)行比較。

結(jié)果顯示,Arena Hard v0.1 相對于 MT Bench 提供了明顯更強(qiáng)的可分離性,且置信區(qū)間更窄。它還與 Chatbot Arena(僅限英文)的人類偏好排名具有更高的一致性(89.1%)。

Arena-Hard:開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

Arena-hard-v0.1與廣泛采用的大模型基準(zhǔn)相比顯示出最高的可分離性 (87.4%),并且也便宜且運(yùn)行速度快(25 美元)。

Arena-Hard:開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

Arena-hard-v0.1構(gòu)建了一個(gè)管道,可以從通過 Chatbot Arena 收集的 200,000 個(gè)用戶查詢的數(shù)據(jù)集中自動(dòng)提取高質(zhì)量提示。這包括多樣性,提示集應(yīng)涵蓋廣泛的現(xiàn)實(shí)世界主題;提示質(zhì)量,每個(gè)提示都應(yīng)具有高質(zhì)量來衡量大模型的水平。

Arena-Hard:開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

為了確保提示多樣性,Lmsys在BERTopic中采用主題建模管道,首先使用 OpenAI 的嵌入 (text-embedding-3-small) 轉(zhuǎn)換每個(gè)提示,使用 UMAP 降維,并使用基于層次的聚類算法 (HDBSCAN) 來識別聚類然后使用 GPT-4-turbo 進(jìn)行總結(jié)。這有助于Lmsys識別涵蓋廣泛領(lǐng)域的 4000 多個(gè)主題。

但主題集群在大模型基準(zhǔn)測試中具有不同的質(zhì)量和可分離性。Lmsys為大模型開發(fā)了一個(gè)經(jīng)過校準(zhǔn)的系統(tǒng)提示,幫助其根據(jù)七個(gè)關(guān)鍵標(biāo)準(zhǔn)例如,特異性、領(lǐng)域知識、問題解決能力等選擇高質(zhì)量的用戶查詢。

Arena-Hard:開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

大模型Judge(GPT-3.5-Turbo、GPT-4-Turbo)對每個(gè)提示進(jìn)行注釋,從 0 到 7,以指示滿足多少個(gè)標(biāo)準(zhǔn)。然后,Lmsys根據(jù)提示的平均得分對每個(gè)簇進(jìn)行評分。

下面,Lmsys展示了從低到高平均分?jǐn)?shù)的主題集群示例。例如,游戲開發(fā)或數(shù)學(xué)證明。另一方面,得分較低的集群指向瑣碎或模糊的問題,例如“設(shè)計(jì)風(fēng)格和影響”。

Arena-Hard:開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)

為了了解提示分?jǐn)?shù)是否與可分離性相關(guān),Lmsys對每個(gè)分?jǐn)?shù)采樣 50 個(gè)提示,并比較 GPT-4 和 Llama-70b 的響應(yīng),并以 GPT-4-Turbo 作為判斷。

Lmsys表示高潛在得分與 GPT-4 對 Llama-70b 的勝率之間存在很強(qiáng)的相關(guān)性。在其他模型對中也觀察到類似的趨勢,例如Claude Sonnet 與 Haiku 以及Mistral-large 與 Mixtral。

Arena-Hard:開源高質(zhì)量大模型評估基準(zhǔn)-AI.x社區(qū)


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/fwsrEzdmVV2Wc-Qp7-hGMg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产大学生情侣呻吟视频 | 涩涩导航 | 91精品国产91久久久久久密臀 | 日韩日b视频| 日韩中文字幕网 | 一区二区国产精品 | 国产精品视频999 | 亚洲精品一区二三区不卡 | 国产一区二区免费在线 | 伊人久久成人 | 国产精品1区 | 日日av| 亚洲国产精品一区二区三区 | 国产日韩欧美在线播放 | 中文字幕国产视频 | 日韩久久久久 | 亚洲免费视频播放 | 久久综合久久久 | 99精品网| 免费大黄视频 | 欧美日韩国产一区二区三区 | 黄色三级毛片 | 久久久tv | 欧美精品一区二区三区在线 | 国产精品久久久久久久 | 成人在线观看免费视频 | 国产分类视频 | 欧美精品一区二区三 | 日韩理论电影在线观看 | www.色综合| 成人a网 | 日韩在线| a级黄色毛片免费播放视频 国产精品视频在线观看 | 欧美日韩国产一区二区三区 | 激情五月激情综合网 | 自拍偷拍亚洲视频 | 逼逼网 | 中文日本在线 | 久久一二 | 亚洲成人播放器 | 午夜激情视频在线 |