成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用LLaVA解讀數萬神經元,大模型竟然自己打開了多模態智能黑盒

人工智能 新聞
LMMs-Lab 團隊使用 LLaVA-OV-72B 對 LLaVA-NeXT-8B 中的神經元進行了自動解讀,獲得了非常多有趣的結果。

本文主要作者來自LMMs-Lab團隊與新加坡南洋理工大學,分別是張愷宸、沈逸飛、李博,指導老師為MMLab@NTU劉子緯教授。LMMs-Lab是一個由學生,研究人員和教師組成的團隊,致力于多模態模型的研究,主要研究方向包括多模態模型的訓練以及全面評估,此前的工作包括多模態測評框架 LMMs-Eval,以及多模態模型 LLaVA-OneVision,長視頻理解模型LongVA等。

圖片

多模態大模型(LMMs)給語言模型裝上了 “眼睛”,讓 AI 更接近通用智能。但它們的大腦里每個神經元到底在干啥?南洋理工大學 LMMs-Lab 團隊用 “模型看模型” 的方法,成功解鎖了數十萬神經元的秘密。

以 GPT4V 為代表的多模態大模型(LMMs)在大語言模型(LLMs)上增加如同視覺的多感官技能,以實現更強的通用智能。雖然 LMMs 讓人類更加接近創造智慧,但迄今為止,我們并不能理解自然與人工的多模態智能是如何產生的。

像 LLaVA 一樣的開源模型是理解多模態智能的一個契機。但這些模型(在未來)可能比人類更加聰明,如何去理解他們的智力呢?來自南洋理工大學的 LMMs-Lab 團隊給出的解決方案是:問問 LLaVA 自己是怎么說的。

LMMs-Lab 團隊使用 LLaVA-OV-72B 對 LLaVA-NeXT-8B 中的神經元進行了自動解讀,獲得了非常多有趣的結果。

傳統的可解釋性的研究是人工去檢查每個神經元并且解讀他們的含義。這樣的操作很難拓展到多模態大模型上:其一,多模態大模型的神經元數量是傳統模型的成百上千倍,人工檢查成本過于高昂;其二,根據神經科學中的分布式表示原理,一個神經元可能會有多個含義,一個語義可能分布在多個神經元當中。 

在大語言模型中,OpenAI 和 Anthropic 提出了使用稀疏自編碼機來解離特征表示,或者用更大的語言模型來解讀小模型里面的神經元。比如使用 GPT-4 解讀 GPT-2。但這些工作尚未被應用到多模態模型當中,圖像作為比語言更加自然的信號,解讀圖像與文字的交互能讓人們更加理解智能的產生。LMMs-Lab 基于這些工作對于 LLaVA-NeXT-8B 做出了初步的嘗試:使用稀疏自編碼機(SAEs)來把多語義神經元解離為單語義神經元,并且用 LLaVA-OV-72B 對單語義神經元進行自動解釋,解釋能夠接近人類水平。

圖片

  • 論文地址:arxiv.org/abs/2411.14982
  • 代碼:EvolvingLMMs-Lab/multimodal-sae: Auto Interpretation Pipeline and many other functionalities for Multimodal SAE Analysis.
  • 5k 個神經元解讀樣例:lmms-lab/llava-sae-explanations-5k?Datasets at Hugging Face

這個項目能夠讓自動挖掘多模態大模型中神經元的語義信息,讓后續研究工作可以通過修改神經元的激活來改變模型行為,包括減少幻覺和增加安全性。

圖片

(a) 把 SAE 放在 Llava 的某一層并且在 Llava-NEXT 所有數據上訓練;(b) 找到一個神經元的最大激活的圖片和區域,讓 Llava 找出公共點;(c) 刺激神經元可以改變模型行為

具體方法

使用 LMMs 解釋 LMMs 分為以下個步驟:

步驟一:用 SAEs 獲得單語義神經元

SAE 是一個可以追溯到 1996 年的經典解釋性的方法 [1] ,其本質是對特征找到一組互相關性很小的基,把特征分解為這組基的一個稀疏表示。因為基的互相關性很小,所以這些基很可能是單語義的。這篇文章使用了 OpenAI 的兩層 SAE 實現:

圖片

其中 z 是稀疏表示也是 SAEs 的神經元,W_2 是一組基。

步驟二:使用 LLaVA 解釋單語義神經元

對于上一步當中 SAE 的每個神經元 z,獲得訓練集里面激活最大的 K 張圖片,以及激活最大的圖像區域,把這些圖像給 LLaVA-OV-72B 找出共同點。

模型對神經元生成的解釋:炸薯條。

圖片

步驟三:刺激對應的神經元

把 SAE 神經元的激活值調高,看看模型如何表現。

圖片


圖片

可以看到,無論是否包含圖像輸入或者是純文字輸入,LMM 與 LLM 的不同之處在于能夠理解視覺輸入,我們在稀疏編碼器的神經元中也找到了許多與 LLM 不一樣的地方。在進行神經元探測時,我們發現不同于先前的 LLM 工作,往往激活最強烈的神經元并不是與高層級概念直接相關的,而是許多低層級的感知神經元。這體現了模型的思考步驟,先看懂物體是什么,再去思考更高層級的抽象概念,譬如情感等概念。

LMMs 獨特的神經元

低層級感知神經元:對線條形狀紋理激活的神經元

圖片

物體神經元

圖片

感情與共情神經元

這種方法找到了很多情感神經元,在刺激這些神經元之前,模型是一個冰冷的 AI,刺激這些神經元能夠引發模型的共情。

圖片

多模態一致性神經元

對動作場景,以及對應文字圖像都激活的神經元。下圖描繪了對于吃和 hungry 文字都激活的神經元,這樣的神經元在人腦中也存在 [2] 。

圖片

定位模型錯誤原因

圖片

LMM 在實際應用使往往會產生許多幻覺,上面便是 LLaVA-NeXT-8B 在實際場景下產生幻覺的一個例子,圖片中并未標注玻利維亞但模型仍舊回答了 “Yes”。為了研究為何產生這一現象以及如何通過刺激神經元的方式抑制這一現象,我們效仿了 [3,4] 的方法進行探究。

圖片

通過探究發現,造成模型輸出 Yes 的罪魁禍首并不在圖像的理解能力上,模型能夠很好的找到需要關注的點,并準確的找到各個國家的名字。然而,在文字上面,我們發現模型過分的關注了 Bolivia 這一詞,導致了最后的輸出產生幻覺。通過這一探究,我們思考如何能夠抑制這一幻覺現象并展開了實驗。

圖片

圖片

我們展示了兩個例子用刺激神經元的方式成功抑制了這一現象。我們嘗試激活 OCR 相關的神經元,強行讓模型關注點集中在圖像上,而這成功使得模型 “回心轉意”,不再依賴文字的輸出。

可能的應用以及局限性

因為這超出了文章的范圍,這篇文章只給出了一個應用:找到引起幻覺的神經元并糾正。在未來,這樣的方法可以找出模型有危害、不誠實行為的原因并加以修正,真正達到可控的 AGI。但到達這個目標還有很多問題需要一一攻克:

1. 更高效的自動可解釋流程 —— 由于稀疏編碼器中的神經元數量眾多且需要緩存大量激活值,解釋所有神經元在目前代價十分高昂。

2. 自動激活神經元的流程 —— 自動且高效地尋找并刺激神經元從而達到控制模型輸出的目的

3. 更準確的自動解釋流程 —— 由于模型的局限性,許多神經元的解釋往往存在錯誤,隨著多模態大模型的推理能力逐漸增強,我們相信這一問題將會被慢慢攻克

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-07 13:16:40

ChatGPT神經元模型

2023-05-10 15:45:08

GPT-4AI模型

2023-10-08 13:44:00

數據研究

2025-01-08 08:21:16

2024-10-14 14:10:00

大模型AI開源

2022-10-31 15:17:49

AI系統

2023-04-28 15:27:06

微軟模型

2023-08-21 10:48:25

2024-12-12 00:25:09

2024-12-30 00:01:00

多模態大模型Python

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-02-12 13:31:33

2019-10-11 14:48:42

技術研發指標

2024-12-31 15:18:42

2024-10-28 08:55:19

2024-09-25 14:53:00

2025-04-25 02:30:00

機械臂大模型多模態

2023-04-24 09:23:27

數據訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美理论| 狠狠操你| 亚洲一区在线观看视频 | 欧美一级大片 | 国产午夜精品一区二区三区在线观看 | 欧美成人自拍 | 农村真人裸体丰满少妇毛片 | 精品麻豆剧传媒av国产九九九 | 超碰最新在线 | 伊人亚洲 | 99九九视频 | 国产一区在线免费 | 久久久噜噜噜www成人网 | 亚洲一区 中文字幕 | 中文字幕免费 | 青青激情网 | 91资源在线观看 | 欧美亚洲综合久久 | 国产精品久久久久久久久久久久 | 99热首页 | 亚洲嫩草| 97色在线视频 | 黑人粗黑大躁护士 | 欧美 日韩 亚洲91麻豆精品 | 一级毛片免费完整视频 | 欧美日韩一区二区三区在线观看 | 狠狠操天天干 | 欧美精品在线一区二区三区 | 欧美精品久久久 | 精品一区二区三区在线视频 | 亚洲精品福利视频 | 欧美乱人伦视频 | 国产欧美精品一区二区三区 | 2018国产精品 | 成年人免费在线视频 | 国产精品久久久久久中文字 | 日本黄视频在线观看 | 一区二区三区国产视频 | 日韩精品一区二区三区 | 亚洲精品久久久久中文字幕二区 | av第一页|