成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型轉行土木工程!首個「打灰人」評估基準:檢驗讀、改工程圖紙能力

人工智能 新聞
首個工程自動化任務評估基準DrafterBench,可用于測試大語言模型在土木工程圖紙修改任務中的表現(xiàn)。通過模擬真實工程命令,全面考察模型的結構化數(shù)據(jù)理解、工具調用、指令跟隨和批判性推理能力,研究結果發(fā)現(xiàn)當前主流大模型雖有一定能力,但整體水平仍不足以滿足工程一線需求。

在AI競速的今天,大語言模型(LLM)早已不滿足只在象牙塔里「背書解題」。

當GPT-4o刷題通過物理奧賽、DeepSeek熟練搭建網站之后,LLM必須直面一個更現(xiàn)實的問題:

這些號稱「專家級」的大模型,能不能真的下工地?能不能幫工程打工人減負?在鋼筋水泥的圖紙世界里,它們是得力助手,還是紙上談兵?

答案尚未揭曉,但DrafterBench邁出了評估的第一步。

來自加拿大麥吉爾大學AIS實驗室的研究團隊與加州大學圣芭芭拉分校(UCSB)合作,正式推出面向工程自動化任務的大模型評估基準——DrafterBench

這是首個針對「一線工程圖紙修改任務」設計的大規(guī)模評測套件,旨在驗證和揭示現(xiàn)有LLMs能否勝任土木工程等領域中真實的「打工任務」。

圖片

論文鏈接:https://arxiv.org/abs/2507.11527

代碼鏈接:https://github.com/Eason-Li-AIS/DrafterBench

數(shù)據(jù)鏈接:https://huggingface.co/datasets/Eason666/DrafterBench

為什么需要DrafterBench?

工程圖紙修改,是土木工程、建筑設計等領域最耗時間、最高頻的任務之一,也是自動化改造迫切程度極高的一環(huán)。

每天成千上萬的一線工程師、制圖員在重復地處理「改一根梁的位置」「把這根管道直徑加粗一點」「為這個構件增加標注」這類十分瑣碎但又關系重大的任務。

圖片

這類工作往往工作量大、標準高、容錯低,但技術門檻不高,對工作者在「任務理解、細節(jié)處理、任務鏈配合」方面的綜合執(zhí)行力要求極強。

于是研究團隊提出問題:

如果大模型能讀懂圖紙指令,調用工具鏈,精確修改圖元,它就不只是「寫PPT的高手」,更是「工程打工人福音」

DrafterBench怎么做的?

DrafterBench以圖紙修改為核心任務,在20個真實項目中收集并設計了1920個高質量任務,涵蓋12類指令類型,模擬了各種難度、不同風格的真實工程命令

圖片

DrafterBench不僅讓模型「按部就班」,而是全面考察以下四大任務能力維度。

結構化數(shù)據(jù)理解能力:模型是否能從不同風格語句中準確提取出關鍵細節(jié);

工具調用能力:模型能否組合多個工具形成有效的操作鏈,并正確調用順序與參數(shù);

指令跟隨能力:面對一條包含多個修改目標的長指令,是否能做到任務不漏項、執(zhí)行不斷鏈;

批判性推理能力:模型能否識別指令中的信息缺失、不合理內容,并嘗試補全模糊的細節(jié)、完成修正。

這不是紙面作文,是工程實戰(zhàn)。

圖片

DrafterBench如何評估模型?

在DrafterBench中,模型要以「代碼調用工具」的方式完成任務。

這些工具涵蓋圖元編輯、標注調整、繪圖邏輯等,彼此之間還有輸入輸出依賴,形成一個「工程任務鏈」。

但問題來了:

工具調用是否正確?是否合理組合?

中間步驟是否成功傳遞?是否使用了冗余或錯誤命令?

直接看圖紙輸出無法判斷。因此DrafterBench設計了一整套對偶工具系統(tǒng)(Dual function system)。

所有工具都有一份「替身」,不實際修改圖紙,但記錄調用順序、參數(shù)值、變量狀態(tài),并以結構化JSON形式輸出,清晰還原模型「行動路徑」。

DrafterBench不只看模型有沒有答對,而是看它「為什么答錯,哪一步出錯,錯在哪里」。

模型表現(xiàn)如何? 喜憂參半!

DrafterBench評測了主流SOTA大語言模型,分別為:OpenAI GPT-4o / o1系列、Claude 3.5 Sonnet、Deepseek-V3-685B、Qwen2.5-72B-Instruct、以及LLaMA3-70B-Instruct。

圖片

綜合來看,這些模型表現(xiàn)都達到一定水準,得分普遍超過65分

其中,OpenAI o1以79.9的綜合分領跑,Claude3.5 Sonnet和Deepseek-V3-685B表現(xiàn)也非常接近,分別為73.79和73.09。

這說明當前主流大模型具備一定的工程任務處理能力,尤其在簡單指令執(zhí)行上表現(xiàn)穩(wěn)定。

但與此同時,模型整體水平仍遠未達到工業(yè)一線對執(zhí)行精度、流程完整性的實際要求。

更重要的是,不同模型在四大能力維度上呈現(xiàn)出顯著差異。

圖片

比如,在結構化數(shù)據(jù)理解任務中,模型整體表現(xiàn)穩(wěn)定,對語言風格的魯棒性較強。

但在工具調用方面,準確率波動明顯,平均可達9個百分點。對于指令跟隨能力,部分模型表現(xiàn)出較強的任務承載能力,如OpenAI o1和Claude3.5 Sonnet抗噪聲能力較好,能保持基本的任務完整性。

而在批判性推理任務中,模型間能力分化尤為顯著。

OpenAI o1在識別指令中信息缺失、篩選關鍵信息方面表現(xiàn)突出,而Qwen2.5則在細節(jié)補充上更具優(yōu)勢。

其余模型則在這兩個維度中存在大幅度波動,表現(xiàn)不一。

研究團隊進一步使用自動化錯誤分析工具,對每一個任務的失敗原因進行結構化溯源。

結果表明,模型常見錯誤類型包括參數(shù)定義不清、變量傳遞失敗、函數(shù)調用結構錯亂、工具選擇偏差以及多工具組合邏輯混亂。

更關鍵的是,即便多個步驟執(zhí)行正確,只要某一關鍵環(huán)節(jié)出現(xiàn)偏差,就會導致最終圖紙修改失敗。

這也解釋了為何多數(shù)模型的單項能力準確率維持在60%左右,但整體目標修改完成度卻顯著偏低,僅在40%左右。

結論與展望

這些評估結果說明,盡管當前的大模型已有一定能力拆解復雜任務結構、調用工程工具,但它們仍難以穩(wěn)健掌握完整任務鏈的所有細節(jié),對實際場景的適應能力尚不足以支撐工程一線需求。

如果說過去的大模型評測多數(shù)還停留在「會不會」,那么DrafterBench的貢獻在于首次讓模型接受了「干不干得好」的落地考核。

工程現(xiàn)場需要的是高容錯、強判斷、懂規(guī)則、能執(zhí)行的助手,而DrafterBench正是在為這一目標提供數(shù)據(jù)支持與路徑驗證。

接下來,研究團隊還將擴展任務類型至圖紙校審、規(guī)范檢測、施工日志智能生成等更多工程應用場景,持續(xù)拓展模型能力邊界。

你有模型,DrafterBench有任務。

看看你的模型,能不能真在圖紙上動真格。

責任編輯:張燕妮 來源: 新智元
相關推薦

2019-07-26 05:52:04

土木工程物聯(lián)網IOT

2011-09-08 14:33:15

HP大幅面打印機

2023-08-21 13:49:34

首席信息官CIO

2021-03-10 15:30:38

人工智能智能建筑服務機器人

2011-11-02 09:34:54

HP大幅面打印機

2021-05-26 05:38:55

人工智能AI地震預測

2025-04-28 14:04:03

Gemini模型AI

2025-02-19 13:50:00

明星編程軟件

2025-07-17 09:21:11

2012-05-02 16:55:04

HP大幅面打印機

2011-12-28 15:48:12

惠普大幅面打印機

2011-03-24 09:57:28

PowerDesign逆向工程

2011-10-20 13:40:04

惠普大幅面打印機

2011-10-07 17:12:18

惠普大幅面打印機

2023-11-05 15:09:35

模型AI

2011-09-23 14:30:05

惠普大幅面打印機

2011-11-17 13:57:13

惠普大幅面打印機

2024-04-11 14:12:53

2023-05-08 15:36:50

模型AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久激情视频 | 久草视频网站 | 日韩成人免费 | 久草香蕉视频 | 欲望岛av | 免费在线观看黄色片 | 国产999视频 | 天天射天天操天天干 | 久久精品综合 | 看片地址| 日韩免费视频 | 日韩午夜在线观看 | 999毛片| 日韩成人免费 | 亚洲视频免费观看 | 青青久操 | 一区二区福利视频 | 久久九九免费视频 | 亚洲欧美视频在线观看 | 在线伊人 | 亚洲一区精品视频 | 亚洲综合三区 | 在线视频亚洲 | 99中文字幕 | 日韩伦理一区 | 一区二区三区视频在线 | 大色av| 欧美黑粗大 | 超碰成人在线观看 | 一级黄片毛片 | 看免费毛片 | 欧美 日韩 国产 在线 | 国产一区二三区 | 成人性生活片 | 国产精品无 | 国产乱淫av | 在线视频亚洲 | 日韩中文字幕第一页 | 中文字幕在线免费看 | 三级在线看 | 91欧美激情一区二区三区成人 |