大模型結構化推理優勢難復制到垂直領域!最新法律AI評估標準來了,抱抱臉評測集趨勢第一
大模型推理,無疑是當下最受熱議的科技話題之一。
但在數學和物理等STEM之外,當LLM落到更多實際應用領域之中,大模型的推理能力又有多大的潛能和局限?
比如,如何評估大模型的推理能力在法律領域的應用,就在當前備受關注。
為此,來自蘇黎世聯邦理工學院、瑞士聯邦最高法院、馬克斯-普朗克研究所及蘇黎世大學等多個機構的研究人員聯合發起并發布了一項全新的、多語言法律推理基準數據集——LEXam。
LEXam法律推理基準集發布一周以來下載量1.7k+,在Hugging Face Evaluation Datasets趨勢榜上排名第一。
法律推理基準測試:更復雜、更精確
近年來,以ChatGPT、Claude等為代表的生成式大語言模型(LLM)迅猛發展,在多個領域內取得了令人矚目的成果,甚至在數學和物理等STEM科目基準測試中頻頻逼近或超過了人類表現。
然而,雖然LLM在推理類任務上進展顯著,但在更為復雜與微妙的法律領域,這類模型的實際表現仍然存在很大的未知和諸多疑問。
這是因為法律推理涵蓋了諸多現有機器學習優化框架亟待解決的挑戰,包括但不限于:
- 基于事實與證據的推理(Fact/evidence-based reasoning)
- 高度依賴細致推導的證據檢索(Reasoning-dense retrieval)
- 主觀評價與客觀事實的平衡(Subjectivity vs. Objectivity)
- 以及全流程推理的準確性(Process accuracy)
上述挑戰不僅存在于法律領域,在醫學診斷、社會科學研究決策、歷史文本分析等眾多非結構化推理任務中同樣廣泛存在,值得更多通用機器學習領域研究者的關注與研究。
這些問題尚未在目前主流的推理框架,如RLHF/RLVR優化路徑中得到充分體現與解決;而現有LLM優化框架更多是集中在數學計算或程序代碼等結構化推理任務對推導過程或答案進行規范性調整與優化。
可是不同于可以直接運用公式或標準方法的數學、物理問題,現實法律推理中通常涉及復雜、多層次的分析,既需要精確的規則回憶(rule recall),也要求多層次的規則適用(rule application),還涉及對案件事實和證據進行敏銳具體的識別(issue spotting);甚至要基于先例法律條文進行深層次的推理和論證。
這些特性使得大模型在法律推理領域可能面臨以往訓練中所未曾遇到的考驗:一旦LLM出現推理錯誤甚至“幻覺”,就可能導致嚴重的現實法律風險,甚至影響公信力。
LEXam:一個專注法律推理的開創性多語言基準數據集
LEXam專門設計了高質量的數據集,包含來自瑞士蘇黎世大學法學院的340場不同課程、不同級別(本科與碩士)的真實法律考試,覆蓋瑞士、歐洲及國際法,以及法學理論和法律歷史領域。整個數據集共有4886道問題,其中包括:
- 2841道長篇問答題(long-form open-ended questions)
- 2045道多項選擇題(MCQ)
這些題目分別使用英語和德語撰寫,結合了大陸法(強調成文法和法典)及普通法系(強調判例)的多元法律文化背景。
上圖為展示的是開發和測試數據集中,按法律領域、語言和司法管轄區劃分的開放性問題和MCQ分布情況。
重要的是,每一道長篇題目不僅提供了標準答案(reference answers),還詳細說明了對應的推理分析路徑:例如清晰地規定需要使用的問題識別方法(issue spotting)、法律規則回憶(rule recall)或特定規則下的事實適用(rule application)。
這種設計使得我們可以深入理解LLM在復雜法律推理中的能力缺陷,而非僅僅局限于評估最終的正確性。
LLM-as-a-Judge:構建可靠且可擴展的推理評估體系
LEXam團隊最新的實證研究表明:
- 現有最先進的大模型仍顯著難以應對長篇的開放性法律問答題。特別是涉及多步分析、復雜規則應用的情境下,LLM表現尤為困難。
- 即便是現有被公認最先進的LLM模型,難以有效且穩定地完成嚴格的、結構化的多步法律推理任務,這為后續模型研究與開發指明了重要方向。
與傳統僅關注最終答案正確與否的評估方式不同,LEXam的另一大重要創新在于引入了可信的“LLM-as-a-Judge”模式,即使用大模型本身來評估其他模型生成的法律推理步驟的質量。
通過先讓模型生成中間法律推理步驟,再由其他模型以清晰的標準對這些推理步驟進行評估和打分,并最終與專家工評估結果做嚴格比較驗證。
驗證結果發現,這一模型擔任法官的評估方法與人工專家的評分擁有高度一致性(高相關性),這種方法為法律推理的評估提供了高效的自動化支持,克服了以往基準測試僅對最終正確答案做評估的局限。
這一方法提供了一種全新的自動化評估路徑,使得法律推理能力評估體系更加透明、可靠、可規模化,也為未來研究者們提供了可輕松復用的工具。
模型評測總體表現
LEXam團隊針對不同類別的大語言模型進行了測試。
包括“專精推理優化”的模型(如Gemini-2.5-Pro、Claude-3.7-Sonnet、DeepSeek-R1、o3-mini和QwQ-32B);
一些“旗艦級”的大型通用LLM(如GPT-4及其變種、DeepSeek-V3、Llama-4-Maverick);
以及小尺寸模型(如Gemma、Phi-4、EuroLLM等)。
上表展示的是大語言模型在長式開放問題和MCQ上的表現及標準誤差(S.E.)。
開放題由GPT-4o判定,Temperature為0。Judge S.E.表示GPT-4o判定的3個樣本(1個樣本采用貪婪解碼,2個樣本采用temperature=0.5)的平均S.E.。結果按得分從高到低排序。
從評測結果看,專門的推理型模型展現出最高的性能。
其中Gemini-2.5-Pro達到最高平均分(82.2分),其次是Claude-3.7-Sonnet(77.6分)。
這證實了對推理任務做過明確優化的模型比傳統大規模通用型LLM更適合復雜的法律推理任務。
在非專門設計推理的通用大型模型中,GPT-4.1(68.2分)和GPT-4o(66.2分)表現優異,明顯領先于其他傳統模型(DeepSeek-V3、Llama-4-Maverick等),顯示出GPT系列對復雜指令遵循和一般常識理解的卓越能力。
同時,較小的LLMs和老一代模型的性能普遍偏低。
但值得注意的是,小型模型中的Gemma-3-12B-it表現優于體積比它大33倍的Llama-3.1-405B-Instruct模型(Gemma-3-12B-it得分50.9,Llama-3.1-405B-Instruct為48.9),這可能得益于Gemma對多語言任務的特殊優化設計。
LEXam團隊檢查了大語言模型在不同語言、法律領域和司法管轄區分組的開放性問題的表現,可以看到:
- 專精推理優化模型再次領先,尤其是Claude-3.7-Sonnet(準確率57.2%)和Gemini-2.5-Pro(準確率55.7%)。
- 大型通用LLM中,GPT-4.1表現突出,(54.4%),與推理特化模型相距不遠。
- 小尺寸模型整體表現明顯不如其他類別,但GPT-4o-mini(41.0%)與Phi-4(40.7%)兩款小尺寸模型表現相對突出。
LEXam團隊進一步分析了模型在不同維度上的表現(包括語言、法律領域及司法轄區),發現:
- 整體而言,所有類型和尺寸的LLM在英文任務上的表現明顯優于德語任務,這可能與模型訓練語料庫的語言分布密切相關。
- 從法律領域角度看,跨學科和公法領域的表現普遍高于刑法和私法。這可能體現出刑法及私法涉及更細致的推理鏈條和更嚴格的邏輯確定性要求。
- 在司法轄區方面,國際法和通用法律題目的總體得分普遍高于地區(以瑞士法律為例)法律任務的得分,這顯示地區法律知識對模型的挑戰更大。
- 在選項的表述上,推理模型面對否定式的問題時(例如:以下表述哪些是錯誤的?)表現明顯低于肯定式的問題;而且,這一點在推理模型上尤為明顯。
上表展示的是不同上下文長度下的大語言模型準確度(Acc.)和Bootstrap標準誤差(S.E.)百分比。
為了深入探討模型性能穩定性,LEXam團隊額外進行了一系列多選題擾動測試,對模型的判斷選項數量進行了擴展(4、8、16、32個選項),以了解模型在更復雜多選情境下的性能變化,發現:
- 模型準確度在選項數量增加時均明顯下降。例如,Gemini-2.5-Pro準確率從4選項時的68.6%下降到了32選項時的35.6%。
- 類似情況也出現在Claude、DeepSeek-R1與GPT等主流模型中。這表明模型表現有顯著的選項數量依賴性,擴展選項明顯暴露了模型可能存在的猜測和依賴淺層特征的缺陷。
- 此項測試說明在實踐中,標準多選題的測試可能會造成模型性能被高估,必須特別謹慎處理和解釋此類測試的結果。
項目主頁:https://lexam-benchmark.github.io/數據:https://huggingface.co/datasets/LEXam-Benchmark/LEXam論文:https://arxiv.org/abs/2505.12864