成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI在《我的世界》PK蓋樓,新舊Claude差距過于明顯,網(wǎng)友:審美也是智力的一種

人工智能
測評大模型Agent能力,從未如此直觀。新舊兩版Claude 3.5 Sonnet在《我的世界》里PK蓋樓,差距不要太明顯,引來大量圍觀。

測評大模型Agent能力,從未如此直觀。

新舊兩版Claude 3.5 Sonnet在《我的世界》里PK蓋樓,差距不要太明顯,引來大量圍觀。

圖片圖片

如果讓AI不斷迭代,甚至能蓋出一片建筑群。

為了避免Claude團隊糟糕的命名方式造成混淆,下面跟隨adi暫且把“新版Claude 3.5 Sonnet”稱為“Sonnet 3.6”。

圖片圖片

作者adi戲稱其為目前“唯一可靠的評測基準(zhǔn)”。

Aidan Bench作者Aidan McLau認(rèn)為評測基準(zhǔn)界正需要這個,審美也與智力顯著相關(guān)。

他甚至愿意提供資金,把這個項目擴展成完整的評測。

圖片圖片

總之在開源社區(qū)幫助下,代碼迅速上架GitHub,更多模型測試結(jié)果陸續(xù)出爐中。

圖片圖片

比如以慢思考著稱的OpenAI o1系列,o1-preivew確實蓋的更慢,但結(jié)構(gòu)也更完整。o1-mini則無法勝任這個任務(wù)。

圖片圖片

最終在人類喜好評估(2000+網(wǎng)友投票中,Sonnet 3.6小贏了一手創(chuàng)意性。

圖片

如果不比創(chuàng)意比模仿真實建筑泰姬陵,o1-preview就占很大優(yōu)勢了。

圖片圖片

照這個趨勢下去,這款經(jīng)典游戲很快就要從《別人的世界》變成《AI的世界》了……

新型MC Bench火了,競技場模式開發(fā)中

大模型在《我的世界》里蓋樓,并不是靠接管鼠標(biāo)鍵盤,也不需要視覺理解能力。

而是通過文本提供上下文,并生成下一步操作指令,或許可以理解成根據(jù)棋盤行列編號下盲棋。

具體到游戲中,AI會控制一個角色,玩家只需要在聊天框中打字說明想要AI建造什么就可以了。

圖片圖片

網(wǎng)友Mckay Wrigley制作了視頻教程,在15分鐘內(nèi)就可以使用開源代碼設(shè)置好測試環(huán)境。(地址在文末獲取)

圖片圖片

使用mineflayer開源庫,可以把大模型生成的指令解析成可操作的API調(diào)用。

圖片圖片

mindcraft開源庫中則提供了適合任意模型玩《我的世界》的通用提示詞,和少量in-context learning示例。

圖片圖片

目前,MC Bench開源項目組打算進一步完善,做成類似Lmsys大模型競技場一樣的天梯機制,人類用戶投票,使用Elo算法記分排名。

圖片圖片

與此同時,更多其他模型的測試結(jié)果也在持續(xù)更新中。

更多AI作品

Claude Sonnet非常擅長以塔為主題自由發(fā)揮,只需給到足夠算力。

圖片圖片

圖片圖片

o1-preview則可以發(fā)揮慢思考能力,用不同顏色的方塊排列出太陽系。

不僅天體的順序是正確的,連相對體積都有所體現(xiàn),當(dāng)然如果太陽按真實比例會讓游戲崩潰……

圖片圖片

小模型難以規(guī)劃復(fù)雜的建筑,但理解和還原簡單指令方面,gemini-1.5-flash勝過gpt-4o-mini

圖片圖片

讓開源大模型Llama 3 405B蓋一個反應(yīng)它自己個性的東西,AI選擇了火坑上的鉆石墻。

圖片圖片

整體看下來,最有意思的或許還是這個:

讓o1-preview自由發(fā)揮,隨便蓋一個酷的東西。

AI選擇搭了一個機器人形象,并拼出GPT三個字母。

圖片圖片

作者透露,接下來會繼續(xù)測試一眾中等大小開源模型。

圖片圖片

目前初步結(jié)果,阿里Qwen 2.5-14B表現(xiàn)不錯。

圖片圖片

視頻教程:https://x.com/mckaywrigley/status/1849613686098506064

開源代碼:https://github.com/kolbytn/mindcrafthttps://github.com/mc-bench/orchestrator

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2010-06-07 09:29:21

云計算

2020-05-06 11:29:29

UX設(shè)計釣魚攻擊用戶體驗

2023-06-13 10:00:21

自動駕駛技術(shù)

2023-08-21 08:00:00

人工智能大型語言模型

2023-09-19 13:49:26

數(shù)據(jù)訓(xùn)練

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2014-03-05 10:15:46

女產(chǎn)品經(jīng)理逼婚

2011-05-24 15:54:54

前端開發(fā)bug

2010-06-10 11:51:22

Internet協(xié)議數(shù)據(jù)報

2020-06-17 09:59:17

人工智能

2020-12-23 10:10:23

Pythonweb代碼

2022-06-22 09:44:41

Python文件代碼

2022-07-07 10:33:27

Python姿勢代碼

2012-05-21 08:55:52

云計算安全成本

2020-12-09 10:15:34

Pythonweb代碼

2022-11-27 12:58:50

2023-01-26 11:56:31

Kubernete虛擬機k3s

2024-02-26 00:00:00

sessionredis項目

2018-03-20 09:25:19

AI

2010-09-15 16:01:47

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: www.精品一区 | 99精品久久久久久久 | 国产精品96久久久久久 | 日韩欧美亚洲 | 国产精品不卡 | 99精品国自产在线观看 | 中文字幕人成乱码在线观看 | 麻豆久久久久久久久久 | 亚洲国产成人av好男人在线观看 | 日日草夜夜草 | 日韩成人一区二区 | 国产精品久久久久久久免费大片 | av在线播放一区二区 | 亚洲精品99 | 一区中文字幕 | 欧美精品1区 | 91精品国产欧美一区二区 | 欧美一级欧美三级在线观看 | 日韩欧美一区二区三区免费观看 | 中文字幕在线精品 | 人人干人人玩 | 欧美日韩一区二区三区视频 | 色婷婷综合久久久中字幕精品久久 | 国产欧美视频一区二区三区 | 亚洲一区二区三区视频 | 99国产精品久久久久久久 | 艹逼网 | 日韩伦理一区二区三区 | 精品免费国产一区二区三区四区介绍 | 国产精品一区二区三区在线 | 日韩成人在线观看 | av免费观看在线 | 国产精品久久久久久吹潮 | 在线观看中文字幕 | 亚洲一区二区网站 | 91精品国产一区 | 97国产超碰 | 国产一区二区三区色淫影院 | 国产一区二区三区四区五区加勒比 | 一区影视| 午夜欧美|