成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="ccegq"><acronym id="ccegq"></acronym></rt>

<rt id="ccegq"><acronym id="ccegq"></acronym></rt>

<center id="ccegq"><acronym id="ccegq"></acronym></center>

<rt id="ccegq"><acronym id="ccegq"></acronym></rt>

<li id="ccegq"></li>

<li id="ccegq"><dl id="ccegq"></dl></li>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

新測試基準發(fā)布，最強開源Llama 3尷尬了

發(fā)布于 2024-4-23 09:42

瀏覽

0收藏

如果試題太簡單，學(xué)霸和學(xué)渣都能考90分，拉不開差距……

隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發(fā)布，業(yè)界急需一款更難、更有區(qū)分度的基準測試。

大模型競技場背后組織LMSYS推出下一代基準測試Arena-Hard，引起廣泛關(guān)注。

Llama 3的兩個指令微調(diào)版本實力到底如何，也有了最新參考。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

與之前大家分數(shù)都相近的MT Bench相比，Arena-Hard區(qū)分度從22.6%提升到87.4%，孰強孰弱一目了然。

Arena-Hard利用競技場實時人類數(shù)據(jù)構(gòu)建，與人類偏好一致率也高達89.1%。

除了上面兩個指標(biāo)都達到SOTA之外，還有一個額外的好處：

實時更新的測試數(shù)據(jù)包含人類新想出的、AI在訓(xùn)練階段從未見過的提示詞，減輕潛在的數(shù)據(jù)泄露。

并且新模型發(fā)布后，無需再等待一周左右時間讓人類用戶參與投票，只需花費25美元快速運行測試管線，即可得到結(jié)果。

有網(wǎng)友評價，使用真實用戶提示詞而不是高中考試來測試，真的很重要。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

新基準測試如何運作？

簡單來說，通過大模型競技場20萬個用戶查詢中，挑選500個高質(zhì)量提示詞作為測試集。

首先，挑選過程中確保多樣性，也就是測試集應(yīng)涵蓋廣泛的現(xiàn)實世界話題。

為了確保這一點，團隊采用BERTopic中主題建模管道，首先使用OpenAI的嵌入模型（text-embedding-3-small）轉(zhuǎn)換每個提示，使用 UMAP 降低維度，并使用基于層次結(jié)構(gòu)的模型聚類算法 (HDBSCAN) 來識別聚類，最后使用GPT-4-turbo進行匯總。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

同時確保入選的提示詞具有高質(zhì)量，有七個關(guān)鍵指標(biāo)來衡量：

具體性：提示詞是否要求特定的輸出？
領(lǐng)域知識：提示詞是否涵蓋一個或多個特定領(lǐng)域？
復(fù)雜性：提示詞是否有多層推理、組成部分或變量？
解決問題：提示詞是否直接讓AI展示主動解決問題的能力？
創(chuàng)造力：提示詞是否涉及解決問題的一定程度的創(chuàng)造力？
技術(shù)準確性：提示詞是否要求響應(yīng)具有技術(shù)準確性？
實際應(yīng)用：提示詞是否與實際應(yīng)用相關(guān)？

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的注釋，判斷滿足多少個條件。然后根據(jù)提示的平均得分給每個聚類評分。

高質(zhì)量的問題通常與有挑戰(zhàn)性的話題或任務(wù)相關(guān)，比如游戲開發(fā)或數(shù)學(xué)證明。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

新基準測試準嗎？

Arena-Hard目前還有一個弱點：使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應(yīng)提示。

可以看出，最新兩個版本的GPT-4分數(shù)高過Claude 3 Opus一大截，但在人類投票分數(shù)中差距并沒有那么明顯。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

其實關(guān)于這一點，最近已經(jīng)有研究論證，前沿模型都會偏好自己的輸出。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

研究團隊還發(fā)現(xiàn)，AI天生就可以判斷出一段文字是不是自己寫的，經(jīng)過微調(diào)后自我識別的能力還能增強，并且自我識別能力與自我偏好線性相關(guān)。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

那么使用Claude 3來打分會使結(jié)果產(chǎn)生什么變化？LMSYS也做了相關(guān)實驗。

首先，Claude系列的分數(shù)確實會提高。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

但令人驚訝的是，它更喜歡幾種開放模型如Mixtral和零一萬物Yi，甚至對GPT-3.5的評分都有明顯提高。

總體而言，使用Claude 3打分的區(qū)分度和與人類結(jié)果的一致性都不如GPT-4。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

所以也有很多網(wǎng)友建議，使用多個大模型來綜合打分。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

除此之外，團隊還做了更多消融實驗來驗證新基準測試的有效性。

比如在提示詞中加入“讓答案盡可能詳盡”，平均輸出長度更高，分數(shù)確實會提高。

但把提示詞換成“喜歡閑聊”，平均輸出長度也有提高，但分數(shù)提升就不明顯。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

此外在實驗過程中還有很多有意思的發(fā)現(xiàn)。

比如GPT-4來打分非常嚴格，如果回答中有錯誤會狠狠扣分；而Claude 3即使識別出小錯誤也會寬大處理。

對于代碼問題，Claude 3傾向于提供簡單結(jié)構(gòu)、不依賴外部代碼庫，能幫助人類學(xué)習(xí)編程的答案；而GPT-4-Turbo更傾向最實用的答案，不管其教育價值如何。

另外即使設(shè)置溫度為0，GPT-4-Turbo也可能產(chǎn)生略有不同的判斷。

從層次結(jié)構(gòu)可視化的前64個聚類中也可以看出，大模型競技場用戶的提問質(zhì)量和多樣性確實是高。

新測試基準發(fā)布，最強開源Llama 3尷尬了-AI.x社區(qū)

這里面也許就有你的貢獻。

Arena-Hard GitHub：??https://github.com/lm-sys/arena-hard???
Arena-Hard HuggingFace：???https://huggingface.co/spaces/lmsys/arena-hard-browser???
大模型競技場：???https://arena.lmsys.org??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/-lZKrLWICRdnabzvoqvGKw??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

最強開源大模型易主，號稱超過Llama 2、Mixtral、Grok-1的DBRX是什么？

liutao988 ? 3643瀏覽 ? 0回復(fù)
Meta 發(fā)布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術(shù)棧 ? 4394瀏覽 ? 0回復(fù)
或與 Llama 3 發(fā)布有關(guān)？

開發(fā)者阿橙 ? 3569瀏覽 ? 0回復(fù)
大模型競技場全面測評結(jié)果出爐：Llama3 70B成開源模型中最強王者！

AIGC最前線 ? 6164瀏覽 ? 0回復(fù)
英偉達開源3400億巨獸，98%合成數(shù)據(jù)訓(xùn)出最強開源通用模型！性能對標(biāo)GPT-4o

duhorse ? 3098瀏覽 ? 0回復(fù)
【LLM】CRAG - 綜合性RAG基準測試

sbf_2000 ? 4813瀏覽 ? 0回復(fù)
太逼真了！Gen-3 Alpha重磅發(fā)布，Sora最強競爭對手！

Aceryt ? 3151瀏覽 ? 0回復(fù)
Llama-2 vs. Llama-3：利用微型基準測試（井字游戲）評估大模型

Baihai_IDP ? 3013瀏覽 ? 0回復(fù)
最強模型Llama 3.1 405B正式發(fā)布，扎克伯格：開源引領(lǐng)新時代

輕薄滴假象 ? 2517瀏覽 ? 0回復(fù)
蘋果發(fā)布新基準，重新定義大模型強弱！

51CTO技術(shù)棧 ? 2449瀏覽 ? 0回復(fù)
Llama 3.1 405B，教你白嫖使用最強開源大模型

小虎哦哦 ? 2950瀏覽 ? 0回復(fù)
騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主

恰似驚鴻 ? 2423瀏覽 ? 0回復(fù)
探索Llama 3：迄今為止最強的開源大型語言模型！

echo_ning ? 2306瀏覽 ? 0回復(fù)
最強開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2557瀏覽 ? 0回復(fù)
Pixtral Large：124B的最強開源多模態(tài)大模型

kede96 ? 3185瀏覽 ? 0回復(fù)
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準測試中超越了 GPT-4o

Halo咯咯 ? 1.2w瀏覽 ? 0回復(fù)
xAI 發(fā)布地表最強大模型Grok 3，同時宣布將開源Grok2

Syrupup ? 1944瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1744瀏覽 ? 0回復(fù)
2小時登頂全球最強開源模型！Qwen3力壓DeepSeek-R1和OpenAI o1，登頂開源王座！

算家計算 ? 1562瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實測來了 0回復(fù)

上一篇：輕松拿捏4K高清圖像理解！這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容，打工人簡直不要太方便

下一篇：實時可編輯3D重建！鼠標(biāo)拖拽就能控制，港大VAST浙大聯(lián)合出品

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：欧美激情精品久久久久久 | 国产精品色 | 不卡一区 | 男人天堂色 | 91在线精品秘密一区二区 | 成人av网站在线观看 | 在线观看中文字幕dvd播放 | 亚洲自拍另类欧美丝袜 | 日本a视频| www久久久 | 亚洲精品一区中文字幕乱码 | 91热在线 | 国产精品永久免费 | 成年网站在线观看 | 色av一区二区 | 91精品国产综合久久久久久丝袜 | 亚洲精品乱码久久久久久蜜桃 | 欧美精品一二区 | 中文在线观看视频 | 日韩色综合 | 国产精品久久久久一区二区三区 | 国产成人精品福利 | 国产精品视频综合 | 国产精品视频网站 | 欧美成人手机在线 | 久久久精品视频一区二区三区 | 国产成人网 | 国产在线一区二区 | av日韩一区| 国产精品高潮呻吟久久 | 一级做a爰片久久毛片免费看 | 麻豆av一区二区三区久久 | 国产精品精品久久久 | h视频网站在线观看 | 国产乱人伦精品一区二区 | 日本成年免费网站 | av在线免费观看网站 | 国产午夜精品一区二区三区四区 | 日韩中文久久 | 真人女人一级毛片免费播放 | 欧美精品1区 |

<li id="ccosw"></li>

<button id="ccosw"></button>