成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI最強競品訓練AI拆解LLM黑箱,意外窺見大模型「靈魂」

人工智能
Anthropic的模型可解釋性團隊,從大模型中看到了它的「靈魂」——一個可解釋的更高級的模型。

為了拆開大模型的「黑箱」,Anthropic可解釋性團隊發表了一篇論文,講述了他們通過訓練一個新的模型去理解一個簡單的模型的方法。

Anthropic發表的一項研究聲稱能夠看到了人工智能的靈魂。它看起來像這樣:

圖片圖片

圖片圖片

論文地址:https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

在研究者看來,這個新的模型能準確地預測和理解原本模型中神經元的工作原理和組成機制。

Anthropic的可解釋性團隊最近宣布他們成功分解了一個模擬AI系統中的抽象高維特征空間。

創建一個可解釋的AI去理解「AI黑盒」

研究人員首先訓練了一個非常簡單的512神經元AI來預測文本,然后訓練了另一個名為「自動編碼器」的AI來預測第一個AI的激活模式。

自動編碼器被要求構建一組特征(對應更高維度AI中的神經元數量),并預測這些特征如何映射到真實AI中的神經元。

結果發現,盡管原始AI中的神經元本身不易理解,但是新的AI中的這些模擬神經元(也就是「特征」)是單義的,每特征都表示一個指定的概念或功能。

例如,特征#2663代表「God」這個概念。

圖片圖片

激活它的訓練語句中最強的一條來自「Josephus」的記錄中「當God降下暴雪時,他前往Sepphoris」。

可以看到頂端的激活都是關于「God」的不同用法。

這個模擬神經元似乎是由一組真實神經元(包括407,182和259)組成的。

這些真實神經元本身與「God」沒有太大關系,例如神經元407主要對非英語(尤其是重音拉丁字母)和非標準文本(如HTML標簽)有響應。

但是在特征層面,一切都是井井有條的,當特征2663被激活時,它會增加文本中出現「bless」、「forbid」、「damn」或「-zilla」的概率。

這個AI并沒有將「God」這個概念與怪獸名字中的「God」區分開來。這可能是因為這個簡易AI沒有足夠的神經元資源來專門處理這個事。

但隨著AI具備的特征數量增加,這種情況會發生改變:

圖片圖片

在這棵樹的底部,你可以看到當這個AI具有越來越多的特征時,它在數學術語中對「the」的理解是如何變化的。

首先,為什么會有一個數學術語中「the」的特定特征?這很可能是由于AI的預測需求——知道某些特定的「the」之后應該會跟隨一些數學詞匯,比如「numerator」或者「cosine」。

在研究人員訓練的最小的那個只有512個特征的AI中,只有一個表示「the」的特征,而在具有16384個特征的最大AI中,這個特征已經分支出了一個表示機器學習中「the」的特征,一個表示復分析中「the」的特征,以及一個表示拓撲學和抽象代數中「the」的特征。

因此,如果能將系統升級到一個具有更多模擬神經元的AI,那表示「God」的特征很可能會分裂成兩個——一個表示宗教中「God」的含義,另一個表示怪獸名字中「God」的含義。

后來,可能會有基督教中的God、猶太教中的God、哲學中的God等等。

研究小組對412組真實神經元和相應的模擬神經元進行了主觀可解釋性評估,發現模擬神經元的可解釋性整體上比較好:

圖片圖片

一些特征,比如表示「God」的特征,是用于特定概念的。

許多其他高度可解釋的特征,包括一些最可解釋的,是用于表示文本的「格式」,比如大寫或小寫字母、英語或其他字母表等。

圖片圖片

這些特征有多常見呢?也就是說,如果你在相同的文本數據上訓練兩個不同的4096個特征的AI,它們會有大部分相同的4096個特征嗎? 它們會都有某些代表「God」的特征嗎?

或者第一個AI會將「God」和「哥斯拉」放在一起,而第二個AI會將它們分開?第二個AI是否就完全不會有表示「God」的特征,而是用那個空間存儲一些第一個AI不可能理解的其他概念?

研究小組進行了測試,發現他們的兩個AI模型是非常相似的!

平均而言,如果第一個模型中有一個特征,第二個模型中最相似的特征會有0.72的中值相關性。

圖片圖片

看到了AI的靈魂

后續的工作將是什么呢?

今年五月,OpenAI試圖讓GPT-4(非常大)理解GPT-2(非常小)。他們讓GPT-4檢查了GPT-2的個307200個神經元,并報告它發現的內容。

GPT-4找到了一系列有趣的結果和一堆隨機廢話,因為他們還沒有掌握將真實神經元投射到模擬神經元并分析模擬神經元的技巧。

盡管結果效果不明顯,但這確實是非常雄心勃勃的嘗試。

與Anthropic可解釋性文章中的這個AI不同,GPT-2是一個真實的(盡管非常小)AI,曾經也給大眾留下了深刻印象。

但是研究的最終目的是要能夠解釋主流的AI系統。

Anthropic的可解釋性團隊承認他們還沒有做到這一點,主要基于以下幾個原因:

首先,擴大自動編碼器的規模是一個很困難的事情。為了解釋GPT-4(或Anthropic的等效系統Claude)這樣的系統,你需要一個差不多同樣大小的解釋器AI。

但是訓練這樣規模的AI需要巨大的算力和資金支持。

其次,解釋的可擴展性也是一個問題。

即使我們找到了所有關于God、哥斯拉以及其他一切的模擬神經元,并畫出它們之間如何相連的巨大關系圖。

研究人員任然需要回答一些更復雜的問題,解決這些問題需要涉及成百上千萬的特征和連接的復雜交互。

所以需要一些自動化的流程,也就是某種更大規模的「讓GPT-4告訴我們GPT-2在做什么」。

最后,所有這些對理解人類大腦有什么啟發?

人類也使用神經網絡進行推理和處理概念。

人類大腦中有很多神經元,這一點和GPT-4是一樣的。

人類獲得的數據也非常稀疏——有很多概念(如烏賊)在日常生活中很少出現。

我們是否也在模擬一個更大的大腦?

目前這還是一個非常新的研究領域,但已經有一些初步的發現,表明人類視覺皮層中的神經元確實以某種超定位的方式編碼特征,與AI模型中觀察到的模式相似。

參考資料:https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-fsa

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-05-22 09:19:19

2023-09-09 06:56:55

螞蟻集團開源AI

2024-03-12 13:33:40

2025-04-01 09:54:09

AI算法大模型AI

2023-08-08 13:43:57

人工智能智能體GPU

2024-02-04 13:56:03

2023-04-21 10:14:22

開源AI

2024-04-03 12:48:00

2025-01-09 08:01:10

2024-07-12 14:53:42

2025-02-21 13:45:00

2020-08-26 11:50:25

谷歌開源工具

2023-10-06 20:30:33

大模型LLMtoken

2020-05-06 11:04:52

Elasticsear架構運維

2024-03-05 09:16:32

AI模型GPT-4

2023-10-16 12:51:32

2025-02-28 08:20:00

2023-11-10 07:11:02

OpenAIAI

2024-06-18 14:01:17

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色.com| 天天干成人网 | 亚洲精品在线国产 | 欧美成人激情 | www.国产一区 | 亚洲福利一区二区 | 久久精品成人 | 久久精品成人 | 亚洲视频在线看 | 久夜精品| 日韩精品一区二区三区免费观看 | 一区二区在线观看免费视频 | 国产乱码精品一区二区三区五月婷 | 91精品国产综合久久久动漫日韩 | 亚洲综合伊人 | 亚洲一区二区av | 色婷婷综合在线观看 | 日韩免费视频一区二区 | 99精品视频免费观看 | 日韩在线一区视频 | 亚洲视频在线免费观看 | 欧美日韩网站 | 日本在线免费视频 | 日韩视频―中文字幕 | 高清一区二区视频 | 欧美激情五月 | 欧美日韩国产在线 | av网站免费在线观看 | 成人久久久 | 日韩电影免费在线观看中文字幕 | 少妇一级淫片免费放播放 | 国产精品综合色区在线观看 | 一级做a爰片性色毛片视频停止 | 精品久久久久久久久久 | 婷婷综合激情 | 久久99国产精品 | 欧美一级小视频 | 国产美女网站 | 综合久久久 | 羞羞视频在线网站观看 | 日韩欧美字幕 |