成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

華盛頓大學撰文反駁微軟,我們無法刪除大模型關于哈利波特的記憶

發布于 2024-4-3 09:33
瀏覽
0收藏

引言:探索記憶消除的界限

在人工智能的發展過程中,一個引人入勝的議題是機器學習模型是否能夠被訓練以忘記其曾經學到的信息。近期,Ronen Eldan和Mark Russinovich在其研究“誰才是哈利·波特?”[1]中提出了一種創新技術,聲稱能夠從LLMs中“抹去”特定數據集的記憶,尤其是針對《哈利·波特》這樣的知名作品。他們的方法引發了業界的廣泛關注,并被認為是在LLMs“遺忘”技術領域的一大突破。

但是,本文將對Eldan和Russinovich的研究成果提出質疑,認為這樣的聲明可能過于寬泛。本文通過一系列輕量級實驗,探索記憶消除的界限,尤其是針對深度學習模型是否真的能夠徹底忘記哈利·波特系列內容的可能性。

論文標題:
THE BOY WHO SURVIVED: REMOVING HARRY POTTER FROM AN LLM IS HARDER THAN REPORTED

論文鏈接:
???https://arxiv.org/pdf/2403.12082.pdf??

Eldan和Russinovich的方法概述

在Eldan和Russinovich的研究中,他們提出了一種針對LLMs的“遺忘”技術,這一技術的核心在于通過微調(finetuning)過程,有選擇性地從模型中移除特定信息。具體來說,他們的方法首先通過強化學習(reinforcement learning)來訓練一個模型,使其對目標數據集(例如《哈利·波特》系列)有更深入的理解。然后,他們利用這個強化后的模型來識別與目標數據集最相關的詞匯和表達,通過替換這些特定的表達為更通用的詞匯,以此來“遺忘”原始數據集中的信息。

下圖比較了在不同微調步驟中,對于句子“Harry Potter studies”下一個詞匯的概率分布,展示了最可能的下一個詞匯是如何逐漸從“magic”轉變為通用完成形式的。

華盛頓大學撰文反駁微軟,我們無法刪除大模型關于哈利波特的記憶-AI.x社區

Eldan和Russinovich聲稱,通過這種方法,他們能夠在大約1個GPU小時的微調后,有效地抹去模型對《哈利·波特》系列的記憶(下圖比較了Llama-7b微調前后的變化)。

華盛頓大學撰文反駁微軟,我們無法刪除大模型關于哈利波特的記憶-AI.x社區

他們通過在多個常見的語言模型基準測試中評估模型的性能,如Winogrande、HellaSwag、ARC等,發現模型在這些測試中的表現幾乎沒有受到影響(下圖),從而得出結論,認為他們的技術能夠在不影響模型整體性能的前提下,實現對特定內容的“遺忘”。

華盛頓大學撰文反駁微軟,我們無法刪除大模型關于哈利波特的記憶-AI.x社區

實驗設置與設計:挑戰LLM遺忘哈利·波特內容的可能性

本文作者在2019年的iMac上運行了一系列實驗,并通過Ollama工具進行了測試。

實驗的設計主要在以下三個方面:

1. 原型測試:檢驗與哈利·波特相關的核心概念

在原型測試中,我們探索了與哈利·波特強烈關聯的概念,例如“樓梯下的男孩”和“幸存的男孩”。這些原型提示旨在測試作為相關標記集群的“想法”,而不是特定的標記序列。

2. 遺漏術語測試:探索可能被忽略的特定詞匯

我們還測試了作者可能遺漏的術語,如“麻瓜”和“泥巴種”。這些測試旨在發現在嘗試從模型中刪除哈利·波特相關內容的過程中可能被忽視的特定詞匯。

3. 不可消除短語測試:評估難以移除的特定句子

最后,我們對那些作者可能無法消除的短語進行了測試,例如“不可名狀的他”。與原型不同,這些短語測試是針對特定的標記序列。

實驗結果與討論:對知識“消除”目標的批判性思考

1. 討論記憶消除的定義和評估方法

華盛頓大學撰文反駁微軟,我們無法刪除大模型關于哈利波特的記憶-AI.x社區

記憶消除,或所謂的“memory-hole”過程,指的是從LLMs中刪除特定知識的嘗試。Shostack通過少量不到十二次的試驗,模型不僅明確提到了哈利波特,還多次“接近”提及,例如提到了“harry harris series”(上圖)和“Voldemar Grunther”(下圖),這些都與哈利波特系列有著密切的聯系。

華盛頓大學撰文反駁微軟,我們無法刪除大模型關于哈利波特的記憶-AI.x社區

這些實驗結果引發了對記憶消除定義和評估方法的深入思考。首先,我們必須明確“消除”知識的含義:它是否意味著模型完全不再生成與目標內容相關的任何信息,還是僅僅減少了這類信息的生成頻率?其次,評估記憶消除的有效性需要一套嚴謹的方法論。例如,是否應該僅僅依賴于模型的直接輸出,或者還應該考慮模型生成的內容與目標知識的相似度?

2. 錨定效應和安全分析的重要性

在進行記憶消除的實驗時,避免錨定效應至關重要。錨定效應是指個人在面對不確定性時,會過分依賴(或錨定于)第一個接收到的信息。Shostack在實驗中未完全閱讀Eldan和Russinovich的論文,這反而避免了他在實驗設計上受到原有結論的影響。這種無意識的實驗設計可能更能揭示模型記憶消除的真實效果。

此外,安全分析在評估記憶消除的過程中也扮演了重要角色。安全分析關注的是在消除特定知識后,模型是否仍可能產生有害或不當的輸出。例如,盡管模型可能不再直接提及“哈利波特”,但它可能會生成與哈利波特相關的隱晦內容,這仍然可能觸發版權或其他法律問題。

總結:對LLM記憶消除能力的反思與展望

1. 實驗結果的反思

實驗結果顯示,盡管模型經過調整以避免生成哈利波特相關內容,但在多次嘗試中,模型仍然能夠產生與哈利波特相關的回應。例如,模型曾經提到“harry harris series”和“Voldemar Grunther”,這些都與哈利波特系列有著密切的聯系。這表明,盡管模型被訓練以忘記特定的信息,但它仍然能夠通過不同的方式回憶起這些信息,或者至少是與之相關的概念。

2. 記憶消除的挑戰

記憶消除的過程比預期中更為復雜。盡管可以通過調整模型來減少特定信息的生成,但完全消除模型中的某個特定知識點似乎是一項艱巨的任務。這不僅僅是因為信息可能以多種形式存在于模型中,而且因為語言本身的復雜性和多樣性使得完全避免某些話題變得極其困難。

3. 未來的展望

展望未來,我們需要更深入地理解LLM如何存儲和檢索信息,以及如何更有效地進行記憶消除。這可能需要開發新的技術和方法,以更精細地控制模型的輸出,并確保它們不會無意中泄露被遺忘的信息。此外,我們還需要考慮如何評估記憶消除的效果,以及如何確保這一過程不會損害模型的其他功能和性能。


本文轉載自夕小瑤科技說,作者:Tscom

原文鏈接:??https://mp.weixin.qq.com/s/3R8VlGvMXdVF4YK9wXEn4g??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 中文字幕一区在线观看视频 | 国产精品日本一区二区不卡视频 | 午夜视频大全 | 精品国产一区二区三区日日嗨 | 午夜一区 | 成人性视频免费网站 | 婷婷毛片 | 成人影院免费视频 | 国产精品一区二区久久 | 一区二区三区国产精品 | 五月综合激情在线 | 成人性生交大免费 | 天天天堂| 欧美八区 | 久久久亚洲一区 | 99国产精品视频免费观看一公开 | 亚洲福利 | 欧美一级免费看 | 国产精品久久国产精品 | 久久大香 | 自拍视频一区二区三区 | 国产精品久久久久久久久久久久久 | 国内成人免费视频 | a欧美| 一区二区三区电影网 | 成人在线a| 高清黄色毛片 | 欧美群妇大交群中文字幕 | 久久综合一区 | 国产剧情一区二区三区 | 91亚洲免费| 国产精品久久久久久久久久免费 | 色欧美综合 | 一区二区视频 | 亚洲精品一区久久久久久 | 一区二区三区四区在线视频 | 欧美亚洲视频在线观看 | 四虎影院在线免费观看 | 日韩成人在线播放 | 亚洲婷婷六月天 | 精品国产乱码久久久久久a丨 |