成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

打破大模型黑盒,徹底分解神經(jīng)元!OpenAI對頭Anthropic擊破AI不可解釋性障礙

人工智能 新聞
距離破除大模型「黑箱」難題又近了一步!近日,來自Anthropic的研究團(tuán)隊通過采用稀疏自動編碼器的弱字典學(xué)習(xí)算法,從512個神經(jīng)元中提取出來了4000多個可解釋特征。

長久以來,我們都無從理解AI是如何進(jìn)行決策和輸出的。

模型開發(fā)人員只能決定算法、數(shù)據(jù),最后得到模型的輸出結(jié)果,而中間部分——模型是怎么根據(jù)這些算法和數(shù)據(jù)輸出結(jié)果,就成為了不可見的「黑箱」。

所以就出現(xiàn)了「模型的訓(xùn)練就像煉丹」這樣的戲言。

但現(xiàn)在,模型黑箱終于有了可解釋性!

來自Anthropic的研究團(tuán)隊提取了模型的神經(jīng)網(wǎng)絡(luò)中最基本的單位神經(jīng)元的可解釋特征。

這將是人類揭開AI黑箱的里程碑式的一步。

Anthropic激動地表示:

「如果我們能夠理解模型中的神經(jīng)網(wǎng)絡(luò)是如何工作的,那么診斷模型的故障模式、設(shè)計修復(fù)程序,并讓模型安全地被企業(yè)和社會采用就將成為觸手可及的現(xiàn)實!」

在Anthropic的最新研究報告,Towards Monosemanticity: Decomposing Language Models With Dictionary Learning(《走向單語義性:用字典學(xué)習(xí)分解語言模型》),研究人員通過字典學(xué)習(xí)將包含512個神經(jīng)元的層分解出了4000多個可解釋的特征。

研究報告地址:https://transformer-circuits.pub/2023/monosemantic-features/index.html

這些特征分別表示DNA序列,法律語言,HTTP請求,希伯來文本,營養(yǎng)成分說明等。

當(dāng)孤立地觀察單個神經(jīng)元的激活時,這些模型屬性中的大多數(shù)都是不可見的。

這是由于大多數(shù)神經(jīng)元都是「多語義」的,單個神經(jīng)元與網(wǎng)絡(luò)行為沒有對應(yīng)一致的關(guān)系。

例如,在一個小型語言模型中,單個神經(jīng)元在許多不相關(guān)的上下文中都很活躍,包括:學(xué)術(shù)引文、英語對話、HTTP 請求和韓語文本。

而在經(jīng)典視覺模型中,單個神經(jīng)元會對貓的臉和汽車的前臉做出反應(yīng)。

不少研究都證實了一個神經(jīng)元的激活在不同的語境中可能意味著不同的含義。

而神經(jīng)元多語義的一個潛在原因是疊加,這是一種假設(shè)的現(xiàn)象,即神經(jīng)網(wǎng)絡(luò)通過為每個特征分配自己的神經(jīng)元線性組合,來表示數(shù)據(jù)的獨立「特征」多于它的神經(jīng)元數(shù)量。

如果將每個特征視為神經(jīng)元上的一個向量,那么特征集就構(gòu)成了網(wǎng)絡(luò)神經(jīng)元激活的一個過完備線性基礎(chǔ)。

在Anthropic之前的Toy Models of Superposition(《疊加玩具模型》)論文中,證明了稀疏性在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中可以消除歧義,幫助模型更好地理解特征之間的關(guān)系,從而減少激活向量的來源特征的不確定性,使模型的預(yù)測和決策更可靠。

這一概念類似于壓縮感知中的思想,其中信號的稀疏性允許從有限的觀測中還原出完整的信號。

但在Toy Models of Superposition中提出的三種策略中:

(1)創(chuàng)建沒有疊加的模型,或許可以鼓勵激活稀疏性;

(2)使用字典學(xué)習(xí)在表現(xiàn)出疊加態(tài)的模型中尋找過完備特征;

(3)依賴于兩者結(jié)合的混合方法。

方法(1)不足以防止多義性,方法(2)則存在著嚴(yán)重的過度擬合問題。

因此,這次Anthropic的研究人員使用了一種稱為稀疏自動編碼器的弱字典學(xué)習(xí)算法,從經(jīng)過訓(xùn)練的模型中生成學(xué)習(xí)到的特征,這些特征提供了比模型神經(jīng)元本身更單一的語義分析單位。

具體來說,研究人員采用了具有512個神經(jīng)元的MLP單層transformer,并通過從80億個數(shù)據(jù)點的MLP激活上訓(xùn)練稀疏自動編碼器,最終將MLP激活分解為相對可解釋的特征,擴(kuò)展因子范圍從1×(512個特征)到256×(131,072個特征)。

為了驗證本研究發(fā)現(xiàn)的特征比模型的神經(jīng)元更具可解釋性,采用了盲審評估,讓一位人類評估員對它們的可解釋性進(jìn)行評分。

可以看到,特征(紅色)的得分比神經(jīng)元(青色)高得多。

證明了研究人員找到的特征相對于模型的內(nèi)部神經(jīng)元來說更易理解。

此外,研究人員還采用了「自動解釋性」方法,通過使用大型語言模型生成小型模型特征的簡短描述,并讓另一個模型根據(jù)該描述預(yù)測特征激活的能力對其進(jìn)行評分。

同樣,特征得分高于神經(jīng)元,證明了特征的激活及其對模型行為的下游影響具有一致的解釋。

并且,這些提取出的特征還提供了一種有針對性的方法來引導(dǎo)模型。

如下圖所示,人為激活特征會導(dǎo)致模型行為以可預(yù)測的方式更改。

這些被提取的可解釋性特征可視化圖如下:

點擊左邊的特征列表,就能與神經(jīng)網(wǎng)絡(luò)中的特征空間進(jìn)行交互式探索。

研究報告概要

這份來自Anthropic的研究報告,Towards Monosemanticity: Decomposing Language Models With Dictionary Learning,主要可以分為四個部分。

問題設(shè)置,研究人員介紹了研究動機(jī),并闡述訓(xùn)練的transfomer和稀疏自動編碼器。

單個特征詳細(xì)調(diào)查,證明了研究發(fā)現(xiàn)的幾個特征是功能上特定的因果單元。

全局分析,論證了典型特征是可解釋的,并且它們可以解釋MLP層的重要部分。

現(xiàn)象分析,描述了特征的幾個屬性,包括特征分割、普遍性,以及它們?nèi)绾涡纬深愃朴凇赣邢逘顟B(tài)自動機(jī)」的系統(tǒng)來實現(xiàn)復(fù)雜的行為。

結(jié)論包括以下7個:

1. 稀疏自動編碼器能提取相對單一的語義特征。

2. 稀疏自編碼器能產(chǎn)生可解釋的特征,而這些特征在神經(jīng)元基礎(chǔ)中實際上是不可見的。

3. 稀疏自動編碼器特征可用于干預(yù)和引導(dǎo)變壓器的生成。

4. 稀疏自編碼器能生成相對通用的特征。

5. 隨著自動編碼器大小的增加,特征有「分裂」的傾向。

6. 僅512個神經(jīng)元就能代表數(shù)以萬計的特征。

7. 這些特征在類似「有限狀態(tài)自動機(jī)」的系統(tǒng)中連接起來,從而實現(xiàn)復(fù)雜的行為,如下圖。

具體詳細(xì)內(nèi)容可見報告。

但對這份研究報告,Anthropic認(rèn)為想要將本研究報告中小模型的成功復(fù)制到更大的模型上,我們今后面臨的挑戰(zhàn)將不再是科學(xué)問題,而是工程問題。

而這意味著為了在大模型上實現(xiàn)解釋性,需要在工程領(lǐng)域投入更多的努力和資源,以克服模型復(fù)雜性和規(guī)模帶來的挑戰(zhàn)。

包括開發(fā)新的工具、技術(shù)和方法,以應(yīng)對模型復(fù)雜性和數(shù)據(jù)規(guī)模的挑戰(zhàn);也包括構(gòu)建可擴(kuò)展的解釋性框架和工具,以適應(yīng)大規(guī)模模型的需求。

這將是解釋性AI和大規(guī)模深度學(xué)習(xí)研究領(lǐng)域的最新趨勢。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-10-07 13:16:40

ChatGPT神經(jīng)元模型

2023-05-10 15:45:08

GPT-4AI模型

2024-05-28 08:00:00

人工智能機(jī)器學(xué)習(xí)

2019-08-29 18:07:51

機(jī)器學(xué)習(xí)人工智能

2023-12-01 14:34:42

AnthropicAILLM

2024-12-09 09:30:00

AI模型

2022-02-07 15:49:15

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-05-14 08:40:57

神經(jīng)網(wǎng)絡(luò)決策樹AI

2023-03-07 16:48:54

算法可解釋性

2024-08-23 13:40:00

AI模型

2021-01-08 10:47:07

機(jī)器學(xué)習(xí)模型算法

2025-03-10 08:34:39

2019-11-08 10:17:41

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-10-20 10:51:57

AI 數(shù)據(jù)人工智能

2023-10-06 13:35:11

AI數(shù)據(jù)

2023-08-11 13:54:31

AI因果

2021-01-25 21:41:59

人工智能深度學(xué)習(xí)自動駕駛

2025-01-13 08:13:18

2024-10-24 13:40:00

AI大模型

2021-12-30 20:20:46

機(jī)器學(xué)習(xí)銷售語言
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日日射影院 | 一区二区三区久久久 | 日韩免费一区二区 | 青青草在线视频免费观看 | 天天狠狠| 亚洲日日夜夜 | 久久精品91久久久久久再现 | 精品视频一区二区三区在线观看 | 亚洲成人精品在线 | 一道本在线 | 中文字幕国产日韩 | 久久精品国产一区二区电影 | 欧美激情国产日韩精品一区18 | 奇米超碰 | 亚洲一区二区三区高清 | 国产a视频| 国产精品伦理一区 | 国产人成精品一区二区三 | 成人精品鲁一区一区二区 | 成人av看片 | 中文字幕一区二区在线观看 | 日韩电影中文字幕在线观看 | 午夜免费av | 波多野结衣一二三区 | 日韩成人在线网址 | 久久精品一区 | 国产区视频在线观看 | 四虎影院美女 | 免费观看色| 精品国产一区二区三区四区在线 | 日韩在线免费观看视频 | av免费观看在线 | 在线观看亚洲精品 | 久久99精品久久久久 | 欧美性生交大片免费 | 国产精品视频网 | 羞羞的视频网站 | 亚洲欧美成人 | 中文字幕一区二区三区精彩视频 | 九九综合 | 一区二区高清在线观看 |