成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

原有的模型評測基準(zhǔn)OUT了!12歲高中生建立了一個網(wǎng)站, 讓AI模型發(fā)起 Minecraft 挑戰(zhàn) 原創(chuàng)

發(fā)布于 2025-3-21 13:05
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

由于傳統(tǒng)的AI 基準(zhǔn)測試技術(shù)已被證明不夠充分,AI 開發(fā)者開始采用更具創(chuàng)造性的方式來評估生成式 AI 模型的能力。對于一組開發(fā)者來說,這就是微軟旗下的沙盒建造游戲 Minecraft。

Minecraft Benchmark (或 MC-Bench)網(wǎng)站是合作開發(fā)的,目的是讓人工智能模型在面對面的挑戰(zhàn)中相互競爭,用 Minecraft 創(chuàng)作來回答提示。用戶可以投票選出哪個模型做得更好,只有在投票后,他們才能看到每個 Minecraft 構(gòu)建都是由哪個人工智能完成的。

原有的模型評測基準(zhǔn)OUT了!12歲高中生建立了一個網(wǎng)站, 讓AI模型發(fā)起 Minecraft 挑戰(zhàn)-AI.x社區(qū)

Minecraft 基準(zhǔn)測試

對于創(chuàng)辦 MC-Bench 的 12 年級學(xué)生 Adi Singh 來說,Minecraft 的價(jià)值不在于游戲本身,而在于人們對它的熟悉程度——畢竟,它是有史以來最暢銷的電子游戲。即使對于沒有玩過這款游戲的人來說,仍然可以評估哪種塊狀菠蘿表現(xiàn)更好。

“Minecraft 讓人們更容易看到(人工智能開發(fā)的)進(jìn)展,”辛格告訴 TechCrunch。“人們已經(jīng)習(xí)慣了 Minecraft,習(xí)慣了它的外觀和氛圍。”

MC-Bench 目前列出了 8 名志愿者。根據(jù) MC-Bench 網(wǎng)站,Anthropic、Google、OpenAI 和阿里巴巴已為該項(xiàng)目使用其產(chǎn)品運(yùn)行基準(zhǔn)測試提供補(bǔ)貼,但這些公司與其他公司并無關(guān)聯(lián)。

辛格說:“目前,我們只是在進(jìn)行簡單的構(gòu)建,以反思我們與 GPT-3 時代相比取得了多大的進(jìn)步,但我們可以預(yù)見到自己會擴(kuò)展到這些長期計(jì)劃和以目標(biāo)為導(dǎo)向的任務(wù)。”“游戲可能只是一種測試代理推理的媒介,它比現(xiàn)實(shí)生活中更安全,而且在測試方面更易于控制,在我看來,這更理想。”

其他游戲,如《精靈寶可夢紅》、  《街頭霸王》和《你畫我猜》也被用作人工智能的實(shí)驗(yàn)基準(zhǔn),部分原因是人工智能的基準(zhǔn)測試藝術(shù)非常棘手。

研究人員經(jīng)常在標(biāo)準(zhǔn)化評估中測試人工智能模型,但其中許多測試都讓人工智能擁有主場優(yōu)勢。由于訓(xùn)練方式的原因,模型天生擅長解決某些特定類型的問題,尤其是需要死記硬背或基本推斷的問題。

簡而言之,很難理解 OpenAI 的 GPT-4 可以在 LSAT 中取得 88% 的成績,但卻無法辨別“strawberry”這個詞中有多少個“R”。Anthropic的Claude 3.7 Sonnet在標(biāo)準(zhǔn)化軟件工程基準(zhǔn)測試中的準(zhǔn)確率為 62.3%,但它在玩 Pokémon 方面的表現(xiàn)卻比大多數(shù)五歲兒童還要差。

原有的模型評測基準(zhǔn)OUT了!12歲高中生建立了一個網(wǎng)站, 讓AI模型發(fā)起 Minecraft 挑戰(zhàn)-AI.x社區(qū)圖片來源:Minecraft Benchmark

MC-Bench 從技術(shù)上來說是一個編程基準(zhǔn),因?yàn)槟P捅灰缶帉懘a來創(chuàng)建提示的構(gòu)建,例如“雪人弗羅斯蒂”或“原始沙灘上迷人的熱帶海灘小屋”。

但對于大多數(shù) MC-Bench 用戶來說,評估雪人是否看起來更好比深入研究代碼更容易,這使得該項(xiàng)目具有更廣泛的吸引力 - 并因此有可能收集更多關(guān)于哪些模型持續(xù)得分更高的數(shù)據(jù)。

當(dāng)然,這些分?jǐn)?shù)是否對 AI 的實(shí)用性有重大影響還有待商榷。不過,Singh 堅(jiān)稱,這是一個強(qiáng)烈的信號。

“目前的排行榜與我自己使用這些模型的經(jīng)驗(yàn)非常接近,這與許多純文本基準(zhǔn)測試不同,”Singh 說。“也許 [MC-Bench] 可以幫助公司了解他們是否朝著正確的方向前進(jìn)。”

基準(zhǔn)鏈接:https://mcbench.ai/

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美日韩看片 | 日韩精品一区二区三区中文在线 | 日韩高清一区二区 | 超碰97在线免费 | 欧美一区日韩一区 | 欧美在线观看一区 | 久久免费香蕉视频 | 玖玖操| 久久国产综合 | 国产一区在线免费 | 国产精品一卡 | 一区二区三区高清 | 国产综合精品一区二区三区 | 黄久久久| 精品少妇一区二区三区日产乱码 | 免费在线视频一区二区 | 日本激情一区二区 | 性色av香蕉一区二区 | 一区二区三区视频免费看 | 亚洲综合区 | www.日本精品 | 精品视频一区二区三区在线观看 | 亚洲高清视频一区二区 | 亚洲精久久久 | 国产成人福利 | 免费黄色a视频 | 成人免费视频网站在线看 | 久久久久国产一区二区三区不卡 | 亚洲成人一区二区 | 久久成人免费视频 | 奇米久久久| 国产日韩精品久久 | 亚洲国产aⅴ成人精品无吗 欧美激情欧美激情在线五月 | 在线国产一区二区 | 一区二区免费在线 | 18性欧美| 亚洲精品天堂 | 久久国产精品偷 | 久久久视频在线 | 九九热视频这里只有精品 | 精品美女在线观看视频在线观看 |