成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

長鏈推理表象下,大模型精細表征張冠李戴的本質

人工智能 新聞
我們構建了等效交互理論體系,發表了幾十篇論文,在一定程度上證明并成功實現了對大部分神經網絡的符號化解釋。

近些年,大模型的發展可謂是繁花似錦、烈火烹油。從 2018 年 OpenAI 公司提出了 GPT-1 開始,到 2022 年底的 GPT-3,再到現在國內外大模型的「百模爭鋒」,DeepSeek 異軍突起,各類大模型應用層出不窮。

然而,無論在學術界還是在工業界,目前對大模型應用的評測都是單純在模型輸出層面判斷結果的準確性,而沒有從大模型內在精細決策邏輯的角度來分析模型的可靠性。類比到人類社會,「實現內在精細邏輯對齊」才是實現人與人互信的基礎。

圖片

  • 論文標題:Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs
  • Arxiv 地址:https://arxiv.org/abs/2410.09083

無法在內在邏輯上與人類認知溝通,也恰恰是黑盒智能模型無法取得信任的本質——在可信問題上的「人」「機」有別,其主要問題并不在哲學、社會學方面,而是一個數學問題:能否嚴格地證明神經網絡在單個樣本上輸出背后的千萬種不同變換,都可以在數值上嚴格表示為一個簡單的邏輯圖模型。

但是,因為神經網絡的復雜結構與所需要的清晰邏輯解釋是天然沖突的,所以「從數學上嚴格地解釋大模型內在的精細決策邏輯」長期以來被認為是一個不可能完成的問題。好在沉舟側畔千帆過,柳暗花明又一村。我們構建了等效交互理論體系,發表了幾十篇論文,在一定程度上證明并成功實現了對大部分神經網絡的符號化解釋。

相關鏈接:

https://zhuanlan.zhihu.com/p/693747946

https://mp.weixin.qq.com/s/MEzYIk2Ztll6fr1gyZUQXg

大模型金玉其外,敗絮其中

一旦有了嚴謹的解釋性理論工具,當我們可以清晰地解構出大模型的內在決策邏輯時,我們驚訝地發現,哪怕大模型在特定任務上展現出再高的準確率,其內在的決策邏輯表征可謂是一塌糊涂,甚至一半以上都是混亂的、完全與正常推理邏輯不沾邊的。

很多應用需求是創造出來的。比如,在新的研究 [3] 中,我們以法律大模型為例,目前幾乎所有的法律大模型應用僅僅關注判案結果的正確性,而忽視了法律推理過程中可能潛在的不公平和倫理風險。

然而,當你第一次確切地解構出一個法律大模型所使用的大量復雜、卻又一塌糊涂的決策邏輯時,當你在各種情景中驗證了這些錯誤邏輯的客觀存在及其數值嚴謹性時,很多認知就回不去了,就像見過元素周期表以后,五行煉丹也就回不去了。

我們發現,法律大模型經常錯誤地將與案件無關的時間、位置信息視為法律判決的理由,或者「張冠李戴」地將一個被告的行為引為其他被告的判案依據。

時代洪流滾滾向前,讓我們看看都發生了什么。

圖片

圖 1. 對 SaulLM-7B-Instruct 在案例 1 的解釋

讓我們考慮一個輸入案例圖片,它包含圖片個輸入變量(這里可以是案例中的各個短語),我們用集合圖片表示這些輸入變量的全集。由大模型生成的一個包含圖片個 tokens 的自然語言序列,圖片。這樣,大模型輸出結果的置信度得分圖片可以定義為:

圖片

其中,圖片表示在生成第圖片個 token 之前的前圖片個tokens 組成的序列。圖片表示給定輸入句子圖片和前圖片個tokens 的條件下生成第圖片個token的概率。

這樣,我們可以構造出一個「與或交互邏輯模型」。

圖片

這個邏輯模型中包含「與交互」和「或交互」兩類操作。觸發函數圖片表示一個「與交互」,當且僅當集合圖片中全部輸入變量都被包含(沒有被遮擋)在樣本圖片時,函數圖片被激活,并返回 1;否則返回 0。

類似地,觸發函數圖片表示一個「或交互」,當集合圖片中任一輸入變量被包含(沒有被遮擋)在樣本圖片時,函數圖片被激活,并返回 1;否則返回 0。

無限擬合性:我們證明,無論我們如何隨機遮擋圖片個輸入單元,得到圖片個不同的遮擋輸入,構造出的與或交互模型總可以精確近似出神經網絡在這所有圖片個遮擋狀態下對生成目標的輸出置信度得分。

圖片

這里圖片表示遮擋輸入樣本圖片中屬于集合圖片中的輸入單元,僅保留屬于集合圖片中的輸入單元的遮擋樣本。

圖片

圖 2. 與或交互的無限擬合性

需要注意的是,與或交互解釋顯示,不同于驚艷的應用性能所展示的對大模型推理能力的想象,大模型的大部分決策邏輯并不是嚴密的、清晰的、層次化的邏輯鏈條,大部分交互概念僅僅表示詞匯之間的統計關聯性。類似于「詞袋」模型,當大模型基于輸入 prompt 生成下一個單詞或 token 時,其所依賴的交互效用大部分并沒有利用輸入上下文之間的邏輯關系,大部分決策依賴于詞匯間最淺表的統計關聯性來「盲猜」目標單詞。

比如,在上文案例中,大模型僅僅根據「chased」為生成的判決結果「Assault」給出了 0.3811 的置信度,而單獨一個「with an axe」短語也會為「Assault」判決增加 0.4632 的置信度。

固然這些單詞與判決結果有統計意義的強相關性,但是大模型的決策依據并沒有試圖建模這些單詞與犯罪嫌疑人之間的切實關系,并沒有理解哪些犯罪嫌疑人做了什么事兒,也就導致了大模型可能產生一些看似正確的結果,但是其推理過程中可能潛在巨大的倫理風險。

例如,在下面的案例中我們將展示大模型常常將不同犯罪嫌疑人的行為進行張冠李戴,使其他犯罪嫌疑人的行為影響到目標犯罪嫌疑人的判罰。

案例:張冠李戴,根據其他犯罪嫌疑人的行為做出判決

模型:BAI-Law-13B [1]

輸入:On the morning of December 22, 2013, the defendants Andy and Bob deceived Charlie and the three of them had an argument. Andy chased Charlie with an axe and bit Charlie, causing Charlie to be slightly injured. Bob hit Charlie with a shovel, injuring Charlie and shovel causing Charlie's death.

輸出:Intentional Injury,輸出置信度數值 2.3792

圖片

圖 3. 對 BAI-Law-13B 模型和 SaulLM-7B-Instruct 模型在案例 1 上的解釋

法律 LLM 很大一部分交互模式錯誤地使用了犯罪嫌疑人的行為來對另一個無關的犯罪嫌疑人做出判決,顯示出大模型存在的一種典型缺陷——張冠李戴。

大模型傾向于記憶敏感詞語(如武器)與輸出結果之間的相關性,而不是理解輸入 prompt 中真正的邏輯,例如識別誰做了哪些行為。

案例顯示,Andy 咬傷 Charlie,構成傷害罪,隨后 Bob 用鐵鍬擊打 Charlie,導致 Charlie 死亡。案例經由法律專家將與判決相關的實體行為標記為相關詞語,與判決不相關的詞語標記為不相關詞語,以及將不應影響判決的不正確的實體行為標記為禁止詞語。

在這起案件中,當法律大模型判決 Andy 行為的后果時,「hit」「with a shovel」「injuring」和「death」等描述 Bob 的行為和后果的詞語應被標記為禁止詞語,與Andy沒有直接關系。

在英文法律大模型 SaulLM-7B-Instruct 前 50 個最突出的 AND-OR 交互模式中,有 26 個 AND 交互模式和 24 個 OR 交互模式。如圖 1,可以看出 AND 交互模式圖片,AND 交互模式圖片,OR 交互模式 圖片分別對 Andy 的判決貢獻了顯著的可靠交互效應 = 0.47、= 0.33、= 0.09。然而,大模型也使用了描述 Bob 的行為和后果的禁止詞語得出對 Andy 的判決,例如,AND 交互模式圖片圖片圖片等對 Andy 的判決產生不可靠的交互效應 = -1.04、= 0.93、= 0.19。

在中文法律大模型 BAI-Law-13B 前 50 個最突出的 AND-OR 交互模式中,有 17 個 AND 交互模式和 33 個 OR 交互模式。如圖 3,可以看出 AND 交互模式  圖片,AND 交互模式圖片,OR 交互模式 圖片 分別對 Andy 的判決貢獻了顯著的可靠交互效應 = 0.33、= 0.17、= 0.06。然而,大模型也使用了描述 Bob 的行為和后果的禁止詞語得出對 Andy 的判決,例如,AND 交互模式 圖片,OR 交互模式圖片圖片 等對 Andy 的判決產生不可靠的交互效應 = -0.43、= -0.09、= -0.04。

這里大模型用的不可靠交互比例為 55.5%-58.5%。

圖片

圖 4.交互概念解釋率先揭示了大模型精細表征邏輯的隱患。大模型沒有建模長鏈推理」邏輯,而使用大量「張冠李戴」的局部信息來生成判決結果,引起了不容忽視的倫理問

圖 4 展示了 BAI-Law-13B 模型在中文案例上的解釋,判案所依據的大部分交互概念都是與目標犯罪嫌疑人無關的張冠李戴的交互概念。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-08 17:00:11

2024-10-21 16:41:17

2023-01-05 09:33:37

視覺模型訓練

2024-12-12 17:30:00

模型測評AI

2023-06-05 10:01:18

模型測評

2025-04-30 16:48:07

2023-10-11 12:32:53

AI模型

2025-02-17 14:43:51

2023-05-05 13:29:04

模型推理

2024-07-08 12:18:13

2024-04-15 12:50:00

大型語言模型ReFT

2025-02-10 09:35:00

2025-05-26 08:40:00

2024-09-09 08:31:15

2023-09-01 15:37:56

2023-09-14 15:41:22

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-05-13 05:11:00

推理模型微調

2023-11-23 07:41:54

因果推斷大模型

2023-12-25 09:23:07

模型技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久国产一区二区三区 | 伊人久久国产 | 91玖玖| 91精品在线播放 | 亚洲久久 | 国产一区二区精 | 婷婷色网 | 国产精品一二三区 | 午夜视频导航 | 久久久久久久网 | 农村妇女毛片精品久久久 | av中文字幕在线观看 | 欧美久久国产精品 | 涩涩视频在线观看 | 日韩成人在线播放 | 欧美大片一区 | 成人精品鲁一区一区二区 | 我爱操 | 国产在线精品一区二区 | 91色网站| 男女激情网站免费 | 久久九九色| 国产一级一级毛片 | 日韩在线视频一区 | 日韩高清成人 | 成人国产精品久久 | 亚洲福利免费 | 日本一区二区不卡 | 亚洲综合在线网 | 亚洲91精品 | 亚洲精品在线观看视频 | 国产精品一区在线观看 | 国产成人精品一区二区三区网站观看 | 欧美综合一区 | 久久久精品网 | 高清久久久 | 99精品一级欧美片免费播放 | 欧美日韩91 | 一级免费在线视频 | aaa综合国产 | 亚洲精品成人av久久 |