北大伯克利聯(lián)手“拷問”大模型：最強(qiáng)Agent也才40分！新基準(zhǔn)專治“不聽話”的AI分析師

2025-06-11 09:08:00

人工智能新聞

這項(xiàng)名為IDA-Bench的新基準(zhǔn)，就是為了模擬真實(shí)世界中這種“邊想邊改”的分析場景而生。

給大模型當(dāng)老師，讓它一步步按你的想法做數(shù)據(jù)分析，有多難？

結(jié)果是，連Claude-3.7和Gemini-2.5 Pro這樣的頂尖選手，都開始“不聽話”了。

在一個(gè)全新的測試基準(zhǔn)中，它們面對(duì)多輪、不斷演進(jìn)的指令，最終的任務(wù)成功率最高僅有40%。

這項(xiàng)名為IDA-Bench的新基準(zhǔn)，就是為了模擬真實(shí)世界中這種“邊想邊改”的分析場景而生。

它不再是給模型一道題，讓它一口氣算完；而是模擬一位真實(shí)的數(shù)據(jù)分析師，在對(duì)話中不斷給出新指令，考察Agent在多輪交互中的真實(shí)能力。

可以說，專治各種“自作主張”和“一意孤行”的AI。

值得一提的是，這項(xiàng)工作由一支星光熠熠的團(tuán)隊(duì)打造，匯集了北京大學(xué)與加州大學(xué)伯克利分校的頂尖學(xué)者，其中不乏機(jī)器學(xué)習(xí)泰斗Michael I. Jordan教授，仿真科學(xué)領(lǐng)域?qū)＜?/span>鄭澤宇 (Zeyu Zheng) 副教授，以及ACM/IEEE Fellow鄧小鐵 (Xiaotie Deng) 教授的身影。

“不聽話”的AI，問題出在哪？

目前，我們看到的很多大模型數(shù)據(jù)分析工具，比如OpenAI、Gemini和Claude的網(wǎng)頁應(yīng)用，能力已然非常強(qiáng)大。

但現(xiàn)有的評(píng)估基準(zhǔn)，大多側(cè)重于單輪互動(dòng)：用戶給出一個(gè)明確的、預(yù)設(shè)好的任務(wù)，然后看Agent能否成功執(zhí)行。可現(xiàn)實(shí)世界的數(shù)據(jù)分析，遠(yuǎn)非如此。

真實(shí)的數(shù)據(jù)分析師，工作流程是迭代式、探索性的。他們會(huì)先查看數(shù)據(jù)分布，再?zèng)Q定如何處理異常值；會(huì)根據(jù)初步結(jié)果，調(diào)整后續(xù)的分析策略。這些決策充滿了基于領(lǐng)域知識(shí)的“主觀性”，指令也是一步步演進(jìn)的。

現(xiàn)有基準(zhǔn)恰恰忽略了這種動(dòng)態(tài)交互過程，因此無法全面評(píng)估Agent在真實(shí)協(xié)作場景下的可靠性。

IDA-Bench：給AI一場真實(shí)的“隨堂測驗(yàn)”

為了解決這一痛點(diǎn)，IDA-Bench應(yīng)運(yùn)而生。它旨在忠實(shí)地反映真實(shí)數(shù)據(jù)分析的主觀性和交互性特征。

整個(gè)測試框架包含四大核心組件：

指令材料 (Instruction Materials)：從真實(shí)的、復(fù)雜的Kaggle數(shù)據(jù)分析項(xiàng)目（Python notebooks）中提取，包含背景知識(shí)、分析目標(biāo)和專家的“主觀洞察”。
模擬用戶 (Simulated User)：由一個(gè)大模型扮演，它會(huì)參照指令材料，像真人一樣逐步向Agent下達(dá)指令，甚至?xí)岢瞿：虿粩嘧兓囊蟆?/span>
Agent：即被測試的大模型，它的任務(wù)是嚴(yán)格遵循“用戶”的指令，通過編寫和執(zhí)行代碼來完成任務(wù)。
沙盒環(huán)境 (Sandbox Environment)：一個(gè)安全隔離的環(huán)境，Agent可以在其中執(zhí)行代碼、訪問數(shù)據(jù)，并像在Jupyter中一樣保持上下文。

△圖1：(左) IDA-Bench的測試場景，(右) IDA-Bench中的任務(wù)軌跡示例

為了確保任務(wù)的真實(shí)性和時(shí)效性，防止數(shù)據(jù)污染，IDA-Bench的構(gòu)建流程完全自動(dòng)化。它能持續(xù)從Kaggle上發(fā)布的最新項(xiàng)目中提取任務(wù)，經(jīng)過篩選、預(yù)處理和人工檢查后，生成新的測試用例。

△圖2: IDA-Bench的自動(dòng)化構(gòu)建流程

Agent慘遭滑鐵盧，最高分僅40

在這樣一套“嚴(yán)刑拷打”下，各大模型紛紛現(xiàn)出原形。

初步評(píng)估結(jié)果顯示，即便是最先進(jìn)的大模型，成功率也不足50%。

具體來看，Gemini-2.5-Pro、OpenAI o4-mini和Claude-3.7-Sonnet-Thinking表現(xiàn)位列第一梯隊(duì)，但其“基準(zhǔn)達(dá)成率”（即結(jié)果達(dá)到或超過人類基準(zhǔn)）也僅為40%。

而DeepSeek系列中，作為指令模型的DeepSeek-V3（24%）表現(xiàn)明顯優(yōu)于其“思考型”模型DeepSeek-R1（12%），這揭示了一個(gè)核心挑戰(zhàn)：在遵循指令和自主推理之間取得平衡，對(duì)當(dāng)前Agent來說非常困難。

△表1: 各大模型在IDA-Bench上的表現(xiàn)

此外，Agent們?cè)谌蝿?wù)中還會(huì)犯下各種低級(jí)錯(cuò)誤，導(dǎo)致提交結(jié)果無效。其中最主要的原因是根本沒有生成提交文件，這往往源于模型的“幻覺”。

“自信”的Claude vs “謹(jǐn)慎”的Gemini

深入分析失敗案例，研究團(tuán)隊(duì)發(fā)現(xiàn)不同模型展現(xiàn)出了迥異的“性格”。

Claude-3.7和DeepSeek-R1表現(xiàn)得像個(gè)“過度自信”的實(shí)習(xí)生。

它們不怎么遵循用戶的具體指令，而是主動(dòng)推進(jìn)分析流程，結(jié)果常常因?yàn)椤白宰髦鲝垺倍e(cuò)過了關(guān)鍵步驟和信息。比如，用戶建議用一種新方法改進(jìn)模型，Claude-3.7不等嘗試就直接否定，并提交了之前效果較差的結(jié)果。

相比之下，Gemini-2.5-Pro則像一個(gè)“過度謹(jǐn)慎”的助理。它每走一步都要反復(fù)向用戶尋求確認(rèn)，有時(shí)一個(gè)簡單的數(shù)據(jù)清洗操作能來回溝通30輪，最終因超過回合數(shù)限制而任務(wù)失敗。

幻覺或夸大：許多Agent會(huì)聲稱執(zhí)行了并未進(jìn)行的操作，比如號(hào)稱“優(yōu)化”了參數(shù)，但實(shí)際只是隨機(jī)設(shè)置；更有甚者，憑空捏造從未生成的代碼和不存在的數(shù)字結(jié)果。
格式錯(cuò)誤：提交文件的列名大小寫弄反，或數(shù)據(jù)類型不對(duì)（如在二分類任務(wù)中，要求提交標(biāo)簽“0”或“1”，模型卻提交了標(biāo)簽為“1”的概率），都是常見的低級(jí)錯(cuò)誤。
固守首次嘗試：一些Agent在初期會(huì)做出一個(gè)簡單粗暴的嘗試（比如在預(yù)測任務(wù)中，模型在初期會(huì)直接用訓(xùn)練集的中位數(shù)作為預(yù)測值），然后就“固執(zhí)己見”，在后續(xù)交互中不再根據(jù)新指令開發(fā)更復(fù)雜的模型。
級(jí)聯(lián)錯(cuò)誤：當(dāng)一個(gè)代碼塊中途執(zhí)行失敗時(shí)，Agent有時(shí)會(huì)“假裝”它成功了，導(dǎo)致后續(xù)代碼塊因?yàn)橐貌淮嬖诘淖兞慷鲥e(cuò)，引發(fā)連鎖反應(yīng)。

這些發(fā)現(xiàn)凸顯了當(dāng)前LLM Agent在真正成為可靠數(shù)據(jù)分析助手之前，仍需在理解、遵循和交互能力上進(jìn)行大量改進(jìn)。

論文鏈接:
https://arxiv.org/abs/2505.18223

項(xiàng)目主頁:
https://github.com/lhydave/IDA-Bench

責(zé)任編輯：張燕妮來源：量子位