全球首個歷史基準!普林復旦打造AI歷史助手,AI破圈人文學科
歷史是關于時間中的人的科學。
——馬克·布洛赫
人工智能已在諸多自然科學領域成為有力的研究助手,然而面對承載著文化意涵與歷史記憶的人文學科,卻仍舊表現得捉襟見肘。
究其原因,AI當前最缺乏的并非工具性能力,而是對人類智慧與文化的理解能力——這正是人文學科探究的核心。
在眾多人文學科中,歷史學因其海量的數據規(guī)模、多元的史料類型以及復雜的跨文化、跨時空特性,成為檢驗AI深度認知能力的理想試驗場。
因此,AI不僅需要強大的識記能力,更需要深刻理解、精準判斷與嚴謹推理的能力,才能夠處理紛繁復雜的文獻材料。
為此,普林斯頓大學AI實驗室與復旦大學歷史學系聯(lián)合打造了HistBench與HistAgent,拉開了歷史研究的AI時代的序幕。
論文地址:http://arxiv.org/abs/2505.20246
代碼鏈接: https://github.com/CharlesQ9/HistAgent
HistBench作為全球首個歷史領域評測基準,涵蓋414道歷史學者撰寫的研究問題,橫跨29種古今語言,覆蓋全球多文明的歷史演化脈絡。
測試顯示,主流大模型HistBench上準確率不足20%,暴露了通用AI在歷史領域的認知短板。
而專為歷史研究打造的HistAgent,集成文獻檢索、OCR識別、多語言翻譯、檔案檢索與圖像解譯等核心工具,首次實現AI智能體在歷史研究領域的深度定制與優(yōu)化,在HistBench測試中準確率遠超現有模型,并在GAIA通用基準斬獲60%成績,充分證明專業(yè)定制與通用能力可兼得!
HistBench:AI與歷史的極限挑戰(zhàn)
HistBench數據集共收錄414道高質量歷史問題,最初面向全球征集數千道題目,經由三輪篩選流程層層遴選而來:首先是初篩與標準化;其次由大模型初步預判以剔除低難度問題;最后由歷史學專家進行復核校正,確保問題具備足夠的研究價值與挑戰(zhàn)強度。
參與出題與審核的專家層級涵蓋面廣,從歷史學本科生、研究型碩博生,到海內外高校青年教師和資深教授,構成了一支多維度、跨年齡段的知識共同體,使題目既有理論深度,也具實踐張力。
與傳統(tǒng)知識問答不同,HistBench 強調方法論挑戰(zhàn)與推理深度,特別注重AI在處理史料中的表現,如破損手稿、殘缺碑銘、古地圖、模糊音頻等復雜材料。
長期以來,AI 評測體系主要由理工科主導,人文學科缺席,評估內容缺乏語言、模態(tài)與領域的多樣性,也缺乏針對史學特點的精細化設計。
HistBench 正是在這一背景下誕生,旨在填補這一空白,推動AI在人文領域的系統(tǒng)性測試與能力突破。
全面覆蓋歷史研究的廣度與深度
- 多語言覆蓋:打破英語中心主義,覆蓋29種語言,體現人文學科全球視野。
- 多模態(tài)史料:涵蓋手稿、圖像、音視頻、歷史文物等多種史料,真實模擬歷史研究情境。
- 精細分級:問題從基礎史料讀取到跨學科深度分析均清晰分層,讓模型表現一目了然。
HistBench覆蓋20多個歷史區(qū)域、36個子領域。這些子領域包括但不限于:
- 古典時代研究,涵蓋古希臘、古羅馬、中原漢唐、印度吠陀、兩河與尼羅河流域等多個文明軸心區(qū)域的語言學、歷史學與哲學文獻傳統(tǒng)
- 史學史與史學理論,歷史學科的發(fā)展演變、范式更替與方法論革新;
- 全球史,包括人口遷徙、跨洋貿易、知識傳播等;
- 傳統(tǒng)史學研究,政治史、經濟史和思想史,包括改革與革命、產業(yè)發(fā)展和觀念流變等;
- 新文化史,包括性別史、城市史、日常生活史和物質文化研究等;
- 藝術史,包括圖像史、雕塑史、電影史和音樂史等;
- 環(huán)境史,包括環(huán)保運動、生態(tài)思想和能源與資源管理等;
- 科學技術與醫(yī)學史,包括早期科學機構、東西方科技交流、生物學、天文學、疫病史、衛(wèi)生建制、醫(yī)療社會史等;
- 交叉學科:考古學、文學史、哲學史、新聞史、翻譯史和歷史地理學。
難度分層
HistBench精心設計三類難度等級,模擬真實歷史研究挑戰(zhàn):
- Level 1(基礎):166題,原則上由歷史背景助理設計,聚焦基本信息檢索和提取。
- Level 2(進階):172題,原則上由研究生撰寫,要求在材料處理或邏輯推理上構成一定難度。
- Level 3(挑戰(zhàn)):76題,原則上由資深學者設計,涉及小/死語言語言讀取、多模態(tài)史料處理和跨學科分析。
HistAgent:AI歷史研究助手
在歷史學研究中,提出問題只是一個開始,真正重要的是如何處理材料并找到答案。
為此,團隊研發(fā)了專為歷史學研究服務的智能系統(tǒng)——HistAgent,它不是通用型AI的「人文拓展版」,而是從底層結構就面向史學研究進行功能搭建與優(yōu)化的專業(yè)助手,從任務分解到工具集成,完全嵌入歷史學者的工作流程。
HistAgent能夠檢索文獻和史料,處理手稿、圖像和地圖等多模態(tài)材料,并結合歷史知識輔助推理,幫助研究者梳理線索、整合信息、形成學術判斷。
與GPT-4o、DeepSeek、Grok等通用大模型相比,HistAgent針對性更強。主流模型雖擅長公式和代碼,卻難以處理古希臘碑文、敦煌殘卷、滿文檔案等歷史材料,更缺乏嚴謹的學術推理能力。
HistAgent 的設計理念正是要填充AI在歷史研究領域的空白,是一套包含多個子模塊的多智能體協(xié)作系統(tǒng),能夠模擬歷史研究的流程,將復雜任務拆解為不同的子任務,并根據每個子任務的需求調用最合適的工具,完成多模態(tài)、多語言和跨學科的指令。
通過這樣的設計架構,HistAgent不僅能檢索學術信息和處理歷史材料,更能深入問題、形成推理、得出答案,成為歷史研究者得力的助手。
HistAgent的「多智能體協(xié)作系統(tǒng)」
HistAgent的架構由以下幾個核心模塊組成:
- 文本搜索模塊:支持多步網頁搜索與頁面解析,可檢索學術網站和歷史資料,提供權威背景信息和證據支持。
- OCR模塊:支持識別手稿、碑銘和古地圖等文檔。其中針對字母文字材料,專門引入了 Transkribus 平臺——歷史學界公認的一流手稿識別服務平臺,能顯著提高識別的準確率與排版轉錄質量。
- 翻譯模塊:支持多種語言互譯,包括古典語言與小眾語言。HistAgent不僅能翻譯文本的表面意思,還能結合語境優(yōu)化譯文,提供流暢準確的片段。
- 圖像分析模塊:支持圖片反向搜索、文物識別等任務。能夠為歷史圖像材料尋找出處、補充背景、解析含義。
- 音頻處理模塊:支持處理歷史演講和訪談記錄等音頻材料。
- 視頻分析模塊:支持處理各類影像視頻材料,能從中抽幀、分析場景、輔助理解歷史事件。
- 文獻搜索模塊:支持解析 PDF、DOCX、XLSX、PPTX 等多種格式,便于處理研究資料。
- 文件處理模塊:支持PDF、DOCX、XLSX、PPTX等文檔解析,方便處理多格式的歷史材料和研究文件。
這一切的背后,離不開一個中央調度模塊(Manager Agent)的有機協(xié)調:
HistAgent會根據任務需求,智能判斷調用子模塊的范圍和順序、并整合多模態(tài)結果,從而最終輸出符合歷史學科規(guī)范的完整回答。
當需要OCR時,就會調用OCR Agent,當需要查論文時,就會調用文獻搜索Agent,當需要多語言處理時,就會調用翻譯Agent。
正如一場舞臺劇,多個「演員」各司其職,共同完成復雜的歷史研究任務。
HistAgent如何破解「歷史迷宮」?
為了全面評估 HistAgent 的能力,團隊設計了一輪系統(tǒng)測試,選用了三個評測集,涵蓋不同類型的任務:HistBench、HLE 歷史子集,以及GAIA通用任務。這三個評測集共同構成了對歷史推理能力和通用任務適應能力的全方位檢驗。
實驗結果顯示,HistAgent在各項測試中均表現出顯著優(yōu)勢。
在HistBench上,GPT-4o(帶網絡搜索)的準確率為18.60%,而HistAgent pass@2達到了36.47%,提升幅度接近一倍。
在HLE歷史子集中,HistAgent的pass@1為28.57%,遠高于GPT-4o(8.9%)和ODR-smolagents(17.9%);pass@3更是達到42.86%
即便在GAIA這類綜合性多模態(tài)任務上,HistAgent也保持了60.00%的pass@1成績,超過baseline模型ODR-smolagents 5個百分點,展現出良好的通用性。
這些結果表明,HistAgent能夠有效處理復雜的歷史任務,同時具備一定的通用任務能力,驗證了其作為多模態(tài)歷史推理助手的適用性和優(yōu)勢。
AI與歷史的對話,才剛剛開始
HistBench和HistAgent的發(fā)布,是AI歷史推理領域的重要突破。
它們不僅為AI處理復雜歷史問題提供了系統(tǒng)性基準與工具框架,也為評估和提升AI在人文學科中的能力開辟了新路徑。
HistBench與HistAgent的發(fā)布只是起點,團隊計劃將繼續(xù)擴展題庫,吸納更多來自全球史學專家的真實研究問題,并根據用戶反饋和研究需求,不斷升級HistAgent的各模塊能力。
研究人員的目標是打造一個始終與史學前沿并行進化的AI助手,讓它真正成為歷史學家可信賴的研究伙伴。
AI是否能真正成為歷史學家?
至少在今天,還遠未達到這種程度。但通過HistBench的測試與HistAgent的嘗試,至少擁有了一把探索歷史的新鑰匙,不僅是AI技術的發(fā)展,更是一次AI與人文學科共塑認知邊界的嘗試。
這只是一個開始,AI與歷史的故事,仍在繼續(xù)。
HistBench和HistAgent的意義絕不僅是提供一個正確的回答本身,而是回應了科技與人文的關系這一宏大而深遠的議題,勾勒出了AI如何走入和參與人類的文明記憶構建的無限可能。