AI在「賺錢錦標(biāo)賽」奪冠，比人類還會(huì)做生意！躺賺時(shí)代要來了？

2025-05-26 09:14:00

Vending-Bench模擬環(huán)境可以測(cè)試大模型管理自動(dòng)售貨機(jī)的能力，結(jié)果顯示，Claude 3.5 Sonnet表現(xiàn)最佳，人類屈居第四！

如何用AI賺錢，可能是這個(gè)時(shí)代最常見的問題。

有些人選擇用大模型寫小說、寫報(bào)告、寫文案等等，但這些場(chǎng)景只是讓模型在執(zhí)行一些「短期且孤立」的任務(wù)。

如果能找到合適的應(yīng)用場(chǎng)景，比如「用自動(dòng)駕駛跑網(wǎng)約車」，并且模型還能夠在長(zhǎng)時(shí)間內(nèi)保持連貫的輸出，再那豈不是就能躺賺了？

最近，有研究人員提出了一個(gè)自動(dòng)售貨機(jī)運(yùn)營(yíng)模擬環(huán)境Vending-Bench，專門用來測(cè)試基于大模型的智能體管理一個(gè)簡(jiǎn)單、長(zhǎng)期運(yùn)行業(yè)務(wù)場(chǎng)景的能力。

智能體必須平衡庫(kù)存、下訂單、設(shè)定價(jià)格以及處理日常費(fèi)用，這些任務(wù)單個(gè)執(zhí)行都非常簡(jiǎn)單，但綜合起來，在長(zhǎng)時(shí)間運(yùn)行（每次運(yùn)行超過兩千萬個(gè)token）的情況下，對(duì)大模型持續(xù)、連貫決策的能力來說是個(gè)很大的挑戰(zhàn)。

論文鏈接：https://arxiv.org/pdf/2502.15840

實(shí)驗(yàn)結(jié)果也顯示了不同大模型之間的性能方差很大：Claude 3.5 Sonnet和o3-mini在大多數(shù)運(yùn)行中能很好地管理機(jī)器并盈利，但所有模型都出現(xiàn)過運(yùn)營(yíng)失誤：

要么是由于誤解配送時(shí)間表、忘記訂單，要么是陷入細(xì)枝末節(jié)的「崩潰」循環(huán)，并且很少有模型能解決這些問題，也無法恢復(fù)運(yùn)營(yíng)。

而且，運(yùn)營(yíng)失敗與模型上下文窗口溢出時(shí)間沒有明顯的相關(guān)性，表明運(yùn)營(yíng)失敗并非源于內(nèi)存限制。

Vending-Bench設(shè)計(jì)理念

智能體（agent）可以讓生成式AI自主地采取行動(dòng)來完成指定任務(wù)，最簡(jiǎn)單的實(shí)現(xiàn)方式是「循環(huán)」，根據(jù)之前的迭代結(jié)果和任務(wù)目標(biāo)反復(fù)調(diào)用工具。

Vending-Bench框架下設(shè)計(jì)的智能體具有以下特點(diǎn)：

上下文管理：在每次迭代中，智能體都會(huì)將歷史記錄中的最后N個(gè)（實(shí)驗(yàn)設(shè)置為30,000個(gè)）token作為輸入傳遞給生成式人工智能進(jìn)行推理。

記憶工具：智能體可以對(duì)三種數(shù)據(jù)庫(kù)（草稿區(qū)、鍵值存儲(chǔ)和向量）進(jìn)行讀取、寫入和刪除，以彌補(bǔ)其記憶能力的限制。其中，向量數(shù)據(jù)庫(kù)基于OpenAI的「text-embedding-3-small」模型計(jì)算文本和嵌入向量，并使用余弦相似度進(jìn)行搜索。

任務(wù)相關(guān)工具：與自動(dòng)售貨機(jī)業(yè)務(wù)的運(yùn)營(yíng)相關(guān)。

一些可以通過遠(yuǎn)程操作完成的任務(wù)可以直接調(diào)用相關(guān)工具，比如閱讀和撰寫電子郵件、使用搜索引擎查找產(chǎn)品信息、查看當(dāng)前的庫(kù)存情況以及檢查資金余額等。

對(duì)于需要在現(xiàn)實(shí)世界中進(jìn)行物理操作的部分操作，研究人員實(shí)現(xiàn)了一個(gè)子智能體，模擬了與現(xiàn)實(shí)世界中人類的互動(dòng)，可以完成從倉(cāng)庫(kù)向自動(dòng)售貨機(jī)補(bǔ)充商品、收取現(xiàn)金、設(shè)置價(jià)格以及獲取自動(dòng)售貨機(jī)的庫(kù)存信息。

在技術(shù)實(shí)現(xiàn)上，研究人員開發(fā)了inspect-ai框架的一個(gè)擴(kuò)展模塊，可以讓主智能體將任務(wù)委托給子智能體，具體工具包括：

sub_agent_specs：返回子智能體的相關(guān)信息，包括可用工具的列表。

run_sub_agent：以字符串形式向子智能體發(fā)出指令并執(zhí)行。

chat_with_sub_agent：向子智能體提問，了解運(yùn)行過程中完成了什么操作。

系統(tǒng)中也有時(shí)間概念，智能體每次采取行動(dòng)都會(huì)推動(dòng)時(shí)間線，也可以選擇使用「wait_for_next_day」工具加速時(shí)間流逝。

每天早上，智能體會(huì)收到通知，告知購(gòu)買到哪些商品，以及是否收到了新的電子郵件。

為了成功完成售貨機(jī)運(yùn)營(yíng)任務(wù)，智能體需要做到：

發(fā)送電子郵件從供應(yīng)商處購(gòu)買商品
將商品補(bǔ)充到自動(dòng)售貨機(jī)中
設(shè)置的價(jià)格必須在市場(chǎng)上有競(jìng)爭(zhēng)力
定期收取收入
控制日常運(yùn)營(yíng)成本

任務(wù)環(huán)境還要求智能體模擬人類行為，包括與批發(fā)供應(yīng)商的溝通，以及顧客購(gòu)買等。

供應(yīng)商交流

在尋找供應(yīng)商前，智能體需要使用搜索引擎查找流行的自動(dòng)售貨機(jī)商品，然后尋找地址附近的批發(fā)商聯(lián)系方式并發(fā)送電子郵件，詢問商品信息。

當(dāng)新的一天開始時(shí)，批發(fā)商會(huì)回復(fù)一封由AI生成的電子郵件，回復(fù)內(nèi)容取決于真實(shí)數(shù)據(jù)和請(qǐng)求內(nèi)容。

決定購(gòu)買商品后，智能體必須在電子郵件中明確指定要購(gòu)買的商品名稱和數(shù)量、送貨地址以及批發(fā)商可以扣款的賬戶號(hào)碼。

商品發(fā)貨后，幾天就會(huì)到達(dá)庫(kù)存，并收到一封電子郵件通知。

根據(jù)預(yù)定價(jià)格，經(jīng)濟(jì)系統(tǒng)會(huì)彈性模擬每天顧客的購(gòu)買行為，如果商品價(jià)格定得過高，銷量就會(huì)下降。

環(huán)境配置

智能體一開始有500美元的初始資金，并且每天需要支付2美元的費(fèi)用來運(yùn)營(yíng)自動(dòng)售貨機(jī)。

自動(dòng)售貨機(jī)有四排，每排有三個(gè)格子，其中兩排用于放置小件商品，另外兩排用于放置大件商品，商品尺寸由GPT-4o在訂購(gòu)產(chǎn)品時(shí)確定。

智能體使用一個(gè)工具時(shí)，環(huán)境中的時(shí)間會(huì)向前推進(jìn)5分鐘、25分鐘、75分鐘或5小時(shí)，取決于所使用的工具；記憶容量為3萬個(gè)token

智能體每天運(yùn)行2000條消息，如果模型連續(xù)10天無法支付每日費(fèi)用而破產(chǎn)，運(yùn)營(yíng)就會(huì)提前結(jié)束。

評(píng)分方法

智能體的主要評(píng)分標(biāo)準(zhǔn)是游戲結(jié)束時(shí)的凈資產(chǎn)，即手頭現(xiàn)金、自動(dòng)售貨機(jī)中尚未取出的現(xiàn)金、已購(gòu)買但尚未售出的商品的價(jià)值。

除了凈資產(chǎn)之外，研究人員還會(huì)跟蹤智能體的資金余額、售出的商品數(shù)量以及對(duì)工具的使用情況。

實(shí)驗(yàn)結(jié)果

為了將不同模型的結(jié)果與人類表現(xiàn)進(jìn)行對(duì)比，研究人員搭建了一個(gè)基于聊天的界面，然后安排了一位人類參與者用五個(gè)小時(shí)來完成運(yùn)營(yíng)任務(wù)，參與者在開始之前對(duì)任務(wù)沒有任何預(yù)先了解，僅通過任務(wù)提示和與環(huán)境的互動(dòng)來理解任務(wù)的運(yùn)作方式。

每個(gè)模型運(yùn)行五次后，從結(jié)果中可以看出，Claude 3.5 Sonnet的凈資產(chǎn)表現(xiàn)最為出色，遙遙領(lǐng)先，而o3-mini則位居第二

在可靠性上，只對(duì)模型最差的一次運(yùn)行進(jìn)行評(píng)估后，發(fā)現(xiàn)人類基線表現(xiàn)最好，其次是Claude 3.5 Sonnet和Gemini 1.5 Pro

按照售出商品數(shù)量進(jìn)行的排名通常與凈資產(chǎn)排名一致，但即使是排名靠前的模型，有時(shí)也會(huì)出現(xiàn)一件商品都賣不出去的情況，凸顯了模型在長(zhǎng)周期內(nèi)的表現(xiàn)波動(dòng)很大。

研究人員還測(cè)量了模型在停滯之前能夠運(yùn)行的天數(shù)，即停止銷售商品的時(shí)間。

Claude 3.5 Sonnet在這個(gè)指標(biāo)上排名最高，可以看到如果自動(dòng)售貨機(jī)始終保持有貨，那么運(yùn)行時(shí)間越長(zhǎng)，銷售的機(jī)會(huì)就越多，不過所有模型最終都會(huì)停止。

為了更詳細(xì)地分析模型在模擬天數(shù)上的表現(xiàn)，研究人員主要分析了GPT-4o、Claude 3.5 Sonnet、o3-mini 和 Gemini 1.5 Pro的表現(xiàn)。

當(dāng)把評(píng)估限制在2000條消息，可以發(fā)現(xiàn)o3-mini在模擬中持續(xù)時(shí)間最長(zhǎng)，達(dá)到了222天。

從圖中陰影部分的不確定性區(qū)域（±1個(gè)標(biāo)準(zhǔn)差）可以看出，模型在五次運(yùn)行中都表現(xiàn)出非常高的波動(dòng)性。

對(duì)于所有模型，可以觀察到，隨著時(shí)間推移，在大約120天后，每日工具的使用頻率都在下降，其中o3-mini、Gemini 1.5 Pro和GPT-4o的下降最為明顯。

工具使用頻率降低通常意味著經(jīng)濟(jì)活動(dòng)的減少，在凈資產(chǎn)圖表中表現(xiàn)得尤為明顯：o3-mini在初期表現(xiàn)良好，但隨后其凈資產(chǎn)開始停滯甚至下降（沒有銷售且每天仍有費(fèi)用），與其工具使用頻率的下降模式相似。

相比之下，Gemini 1.5 Pro和GPT-4o在凈資產(chǎn)表現(xiàn)上最差，使用電子郵件功能的頻率也最低。

責(zé)任編輯：張燕妮來源：新智元

AI 模型數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI在「賺錢錦標(biāo)賽」奪冠，比人類還會(huì)做生意！躺賺時(shí)代要來了？

Vending-Bench設(shè)計(jì)理念

實(shí)驗(yàn)結(jié)果