OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

作者：機器之心 2023-05-10 14:54:23

這就是 GPT 的「抽象」，和人類的抽象不太一樣。

雖然 ChatGPT 似乎讓人類正在接近重新創造智慧，但迄今為止，我們從來就沒有完全理解智能是什么，不論自然的還是人工的。

認識智慧的原理顯然很有必要，如何理解大語言模型的智力？OpenAI 給出的解決方案是：問問 GPT-4 是怎么說的。

5 月 9 日，OpenAI 發布了最新研究，其使用 GPT-4 自動進行大語言模型中神經元行為的解釋，獲得了很多有趣的結果。

可解釋性研究的一種簡單方法是首先了解 AI 模型各個組件（神經元和注意力頭）在做什么。傳統的方法是需要人類手動檢查神經元，以確定它們代表數據的哪些特征。這個過程很難擴展，將它應用于具有數百或數千億個參數的神經網絡的成本過于高昂。

所以 OpenAI 提出了一種自動化方法 —— 使用 GPT-4 來生成神經元行為的自然語言解釋并對其進行評分，并將其應用于另一種語言模型中的神經元 —— 此處他們選擇了 GPT-2 為實驗樣本，并公開了這些 GPT-2 神經元解釋和分數的數據集。

論文地址：https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
GPT-2 神經元圖：https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html
代碼與數據集：https://github.com/openai/automated-interpretability

這項技術讓人們能夠利用 GPT-4 來定義和自動測量 AI 模型的可解釋性這個定量概念：它用來衡量語言模型使用自然語言壓縮和重建神經元激活的能力。由于定量的特性，我們現在可以衡量理解神經網絡計算目標的進展了。

OpenAI 表示，利用他們設立的基準，用 AI 解釋 AI 的分數能達到接近于人類的水平。

OpenAI 聯合創始人 Greg Brockman 也表示，我們邁出了使用 AI 進行自動化對齊研究的重要一步。

具體方法

使用 AI 解釋 AI 的方法包括在每個神經元上運行三個步驟：

步驟一：用 GPT-4 生成解釋

給定一個 GPT-2 神經元，通過向 GPT-4 展示相關文本序列和激活來生成對其行為的解釋。

模型生成的解釋：對電影、角色和娛樂的引用。

步驟二：使用 GPT-4 進行模擬

再次使用 GPT-4，模擬被解釋的神經元會做什么。

步驟三：對比

根據模擬激活與真實激活的匹配程度對解釋進行評分 —— 在這個例子上，GPT-4 的得分為 0.34。

主要發現

使用自己的評分方法，OpenAI 開始衡量他們的技術對網絡不同部分的效果，并嘗試針對目前解釋不清楚的部分改進技術。例如，他們的技術對較大的模型效果不佳，可能是因為后面的層更難解釋。

OpenAI 表示，雖然他們的絕大多數解釋得分不高，但他們相信自己現在可以使用 ML 技術來進一步提高他們產生解釋的能力。例如，他們發現以下方式有助于提高分數：

迭代解釋。他們可以通過讓 GPT-4 想出可能的反例，然后根據其激活情況修改解釋來提高分數。
使用更大的模型來進行解釋。隨著解釋模型（explainer model）能力的提升，平均得分也會上升。然而，即使是 GPT-4 給出的解釋也比人類差，這表明還有改進的余地。
改變被解釋模型（explained model）的架構。用不同的激活函數訓練模型提高了解釋分數。

OpenAI 表示，他們正在將 GPT-4 編寫的對 GPT-2 中的所有 307,200 個神經元的解釋的數據集和可視化工具開源。同時，他們還提供了使用 OpenAI API 上公開可用的模型進行解釋和評分的代碼。他們希望研究界能夠開發出新的技術來生成更高分的解釋，同時開發出更好的工具來通過解釋探索 GPT-2。

他們發現，有超過 1000 個神經元的解釋得分至少為 0.8 分，這意味著根據 GPT-4，它們占據了神經元的大部分頂級激活行為。這些得到很好解釋的神經元中的大多數都不是很有趣。然而，他們也發現了許多有趣但 GPT-4 并不理解的神經元。OpenAI 希望隨著解釋的改進，他們可能會迅速發現對模型計算的有趣的定性理解。

以下是一些不同層神經元被激活的例子，更高的層更抽象：

看起來，GPT 理解的概念和人類不太一樣？

OpenAI 未來工作

目前，該方法還存在一些局限性，OpenAI 希望在未來的工作中可以解決這些問題：

該方法專注于簡短的自然語言解釋，但神經元可能具有非常復雜的行為，因而用簡潔地語言無法描述；
OpenAI 希望最終自動找到并解釋整個神經回路實現復雜的行為，神經元和注意力頭一起工作。目前的方法只是將神經元的行為解釋為原始文本輸入的函數，而沒有說明其下游影響。例如，一個在周期（period）上激活的神經元可以指示下一個單詞應該以大寫字母開頭，或者增加句子計數器；
OpenAI 解釋了神經元的這種行為，卻沒有試圖解釋產生這種行為的機制。這意味著即使是得高分的解釋在非分布（out-of-distribution）文本上也可能表現很差，因為它們只是描述了一種相關性；
整個過程算力消耗極大。

最終，OpenAI 希望使用模型來形成、測試和迭代完全一般的假設，就像可解釋性研究人員所做的那樣。此外，OpenAI 還希望將其最大的模型解釋為一種在部署前后檢測對齊和安全問題的方法。然而，在這之前，還有很長的路要走。

責任編輯：張燕妮來源：機器之心

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

具體方法

主要發現

OpenAI 未來工作