成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<output id="ucmeh"></output>

<label id="ucmeh"><dl id="ucmeh"></dl></label>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

大模型實(shí)時(shí)打《街霸》捉對(duì)PK，GPT-4居然不敵3.5，新型Benchmark火了

2024-04-01 12:41:55

由于項(xiàng)目是在Mistral舉辦的黑客馬拉松活動(dòng)上開(kāi)發(fā)，所以開(kāi)發(fā)者只使用OpenAI和Mistral系列模型進(jìn)行了測(cè)試。排名結(jié)果也很出人意料。經(jīng)過(guò)342場(chǎng)對(duì)戰(zhàn)后，根據(jù)棋類(lèi)、電競(jìng)常用的ELO算法得出的排行榜如下：最新版gpt-3.5-turbo成績(jī)斷崖式領(lǐng)先，Mistral小杯排第二。更小的模型超過(guò)了更大的如GPT-4和Mistral中杯大杯。

讓大模型直接操縱格斗游戲《街霸》里的角色，捉對(duì)PK，誰(shuí)更能打？

GitHub上一種你沒(méi)有見(jiàn)過(guò)的船新Benchmark火了。

與llmsys大模型競(jìng)技場(chǎng)中，兩個(gè)大模型分別輸出答案，再由人類(lèi)評(píng)分不同——街霸Bench引入了兩個(gè)AI之間的交互，且由游戲引擎中確定的規(guī)則評(píng)判勝負(fù)。

這種新玩法吸引了不少網(wǎng)友來(lái)圍觀。

由于項(xiàng)目是在Mistral舉辦的黑客馬拉松活動(dòng)上開(kāi)發(fā)，所以開(kāi)發(fā)者只使用OpenAI和Mistral系列模型進(jìn)行了測(cè)試。

排名結(jié)果也很出人意料。

經(jīng)過(guò)342場(chǎng)對(duì)戰(zhàn)后，根據(jù)棋類(lèi)、電競(jìng)常用的ELO算法得出的排行榜如下：

最新版gpt-3.5-turbo成績(jī)斷崖式領(lǐng)先，Mistral小杯排第二。更小的模型超過(guò)了更大的如GPT-4和Mistral中杯大杯。

開(kāi)發(fā)者認(rèn)為，這種新型基準(zhǔn)測(cè)試評(píng)估的是大模型理解環(huán)境并根據(jù)特定情況采取行動(dòng)的能力。

與傳統(tǒng)的強(qiáng)化學(xué)習(xí)也有所不同，強(qiáng)化學(xué)習(xí)模型相當(dāng)于根據(jù)獎(jiǎng)勵(lì)函數(shù)“盲目地”采取不同行動(dòng)，但大模型完全了解自身處境并有目的的采取行動(dòng)。

考驗(yàn)AI的動(dòng)態(tài)決策力

AI想在格斗游戲里稱(chēng)王，需要哪些硬實(shí)力呢？開(kāi)發(fā)者給出幾個(gè)標(biāo)準(zhǔn):

反應(yīng)要快：格斗游戲講究實(shí)時(shí)操作，猶豫就是敗北
腦子要靈：高手應(yīng)該預(yù)判對(duì)手幾十步，未雨綢繆
思路要野：常規(guī)套路人人會(huì)，出奇制勝才是制勝法寶
適者生存：從失敗中吸取教訓(xùn)并調(diào)整策略
久經(jīng)考驗(yàn)：一局定勝負(fù)不說(shuō)明問(wèn)題，真正的高手能保持穩(wěn)定的勝率

具體玩法如下：

每個(gè)大模型控制一個(gè)游戲角色，程序向大模型發(fā)送屏幕畫(huà)面的文本描述，大模型根據(jù)雙方血量、怒氣值、位置、上一個(gè)動(dòng)作、對(duì)手的上一個(gè)動(dòng)作等信息做出最優(yōu)決策。

第一個(gè)挑戰(zhàn)是定位人物在場(chǎng)景中的位置，通過(guò)檢測(cè)像素顏色來(lái)判斷。

由于目前大模型數(shù)學(xué)能力還都不太行，直接發(fā)送坐標(biāo)值效果不好，最終選擇了將位置信息改寫(xiě)成自然語(yǔ)言描述。

所以對(duì)于AI來(lái)說(shuō)，實(shí)際上他們?cè)谕娴氖且环N奇怪的文字冒險(xiǎn)游戲。

再把大模型生成的動(dòng)作招式映射成按鍵組合，就能發(fā)送給游戲模擬器執(zhí)行了。

在試驗(yàn)中發(fā)現(xiàn)，大模型可以學(xué)會(huì)復(fù)雜的行為，比如僅在對(duì)手靠近時(shí)才攻擊，可能的情況下使用特殊招式，以及通過(guò)跳躍來(lái)拉開(kāi)距離。

從結(jié)果上可以看出，與其他測(cè)試方法不同，在這個(gè)規(guī)則下似乎更大的模型表現(xiàn)越差。

開(kāi)發(fā)者對(duì)此解釋到：

目標(biāo)是評(píng)估大模型的實(shí)時(shí)決策能力，規(guī)則上允許AI提前生成3-5個(gè)動(dòng)作，更大的模型能提前生成更多的動(dòng)作，但也需要更長(zhǎng)的時(shí)間。

在推理上的延遲差距是有意保留的，但后續(xù)或許會(huì)加入其他選項(xiàng)。

后續(xù)也有用戶(hù)提交了流行開(kāi)源模型的對(duì)戰(zhàn)結(jié)果，在7B及以下量級(jí)的戰(zhàn)斗中，還是7B模型排名更靠前。

從這個(gè)角度看，這種新型基準(zhǔn)測(cè)試為評(píng)估大模型的實(shí)用性提供了新思路。

現(xiàn)實(shí)世界的應(yīng)用往往比聊天機(jī)器人復(fù)雜得多，需要模型具備快速理解、動(dòng)態(tài)規(guī)劃的本領(lǐng)。

正如開(kāi)發(fā)者所說(shuō)，想要贏，要在速度和精度之間做好權(quán)衡。

GitHub項(xiàng)目：https://github.com/OpenGenerativeAI/llm-colosseum。

參考鏈接：
[1]https://x.com/nicolasoulianov/status/1772291483325878709。

[2]https://x.com/justinlin610/status/1774117947235324087。

責(zé)任編輯：姜華來(lái)源：量子位

大模型 AI 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：天天插日日操 | 国产ts人妖一区二区三区 | h视频免费在线观看 | 午夜精品久久久 | 成人午夜激情 | 欧美一级二级三级视频 | 亚洲喷水 | 欧美精品福利 | 国产精品视频综合 | 亚洲视频区 | а天堂中文最新一区二区三区 | 国产高清视频 | 亚洲精品乱码久久久久v最新版 | 在线免费观看毛片 | 日韩免费在线观看视频 | 久久久久亚洲 | 国产精品视频一二三区 | 久久伊人免费视频 | 欧洲亚洲视频 | 精品中文字幕一区二区三区 | 蜜桃在线视频 | 日韩精品在线播放 | www.47久久青青 | 国产精品视频97 | 成人免费在线电影 | 日本91av视频 | 91久久久久| 精品国产成人 | 成人久久久 | 精品福利在线 | 国产精品特级片 | 国产免费一区二区三区 | 日日干夜夜操天天操 | 日韩欧美在 | 国产精品视频一 | 欧美日韩一区二区在线 | 亚洲精品久久久久久久不卡四虎 | 日韩欧美第一页 | 久久久久国产一区二区三区 | 亚洲午夜视频在线观看 | 一本一道久久a久久精品综合 |

<label id="mpogh"><dl id="mpogh"></dl></label>

<abbr id="mpogh"><strong id="mpogh"></strong></abbr><ol id="mpogh"></ol>

<output id="mpogh"></output>

<abbr id="mpogh"></abbr>

<abbr id="mpogh"><dl id="mpogh"></dl></abbr>