成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大發現!谷歌證明反學習,無法讓大模型刪除不良信息

發布于 2024-8-28 09:46
瀏覽
0收藏

谷歌DeepMind的研究人員發現,反學習(Unlearning)作為解決大模型輸出不良信息的有效解決方案之一,在實際應用中效果并不是很好,會出現“UnUnlearning”的情況

這是因為反學習的過程在移除模型中已有知識時,可能面臨技術上的復雜性和局限性,導致無法徹底清除所有不良信息。


此外,由于大模型的訓練數據非常龐大且復雜,也可能會根據其他已知的信息重新構建出這部分被遺忘的內容。例如,即使大模型忘記了“炸彈”的定義,但如果它了解化學知識,就能根據上下文線索重新推斷出制作炸彈的方法。


論文地址:https://arxiv.org/abs/2407.00106

大發現!谷歌證明反學習,無法讓大模型刪除不良信息-AI.x社區

在AI大模型領域,數據的類型可以被劃分為公理、定理以及派生三大類。公理是模型中的基本事實或特征,它們是構建更復雜概念的基石;


定理則是基于這些公理推導出的結論,代表了模型對輸入信息的理解和解釋;派生則是從公理和定理中進一步推導或組合得到的知識,它體現了模型的推理能力。


例如,考慮一個簡單的動物分類模型。在這個模型中,"有耳朵"、"有眼睛"和"有尾巴"可以被視為公理,而"是貓"則是一個基于這些公理的定理。

大發現!谷歌證明反學習,無法讓大模型刪除不良信息-AI.x社區

如果模型進一步學習到"大"和"條紋"的特征,它可能會推導出"是老虎"的新定理。這里的"是老虎"就是一個派生知識,因為它是基于原始公理和已存在的定理得出的。


而谷歌發現的UnUnlearning情況證明,即便一些特定不良數據通過Unlearning技術進行了忘記和刪除,大模型仍然可能通過對上下文的學習重新獲得這些知識


這是因為,被刪除的數據可能只是模型中的一個定理,而構成這個定理的公理仍然存在于模型中。當模型接收到與這些公理相關的新上下文信息時,它可能會重新組合這些公理,從而再次推導出被刪除的定理。


我們還是繼續說上面的老虎案例,在這個例子中,大模型被賦予了六個基本公理:耳朵、眼睛、尾巴、大、有條紋和奔跑。基于這些公理,模型定義了三個主要的概念:貓、老虎和斑馬。


如果一個實體具有耳朵、眼睛、尾巴,那么它就被認為是一只貓;如果一只貓同時大且有條紋,那么它就是一只老虎;如果一個實體大、有條紋和奔跑,那么可能就是一匹斑馬。

大發現!谷歌證明反學習,無法讓大模型刪除不良信息-AI.x社區

假設現在我們需要確保模型不會處理關于老虎的任何查詢,也就是說,我們需要模型完全忘記“老虎”這個信息。可以使用精確的Unlearning技術來移除所有與老虎相關聯的數據。


但是,由于構成老虎的公理仍然保留在模型中,這些公理還被其他概念斑馬和大所使用,所以,老虎這個數據很容易會被大模型重新自我學習


此外,UnUnlearning現象還引發了關于知識歸屬和責任歸屬的哲學和倫理問題。如果一個模型通過上下文學習重新獲得了被刪除的知識,并基于這些知識做出了不當的推理,那么責任應該由誰來承擔呢?


本文轉自  AIGC開放社區 ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/JoA17I2bqDoMVFT5jjdEew??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 蜜臀av日日欢夜夜爽一区 | 成人激情视频在线观看 | 国产成人精品在线播放 | 免费观看成人性生生活片 | 国产高清精品一区二区三区 | 欧美激情精品久久久久久变态 | 久久99视频免费观看 | 日本韩国电影免费观看 | 欧美一级黄色片免费观看 | 久久99国产精品久久99果冻传媒 | 一级片av| 亚洲精品久久 | 亚洲国产精品久久久久秋霞不卡 | 丝袜久久| 日韩精品专区在线影院重磅 | 久久里面有精品 | 国产91黄色 | 香蕉久久久 | 日韩中文电影 | 国产精品99久久久久久久久久久久 | 成人av免费在线观看 | 亚洲人成人一区二区在线观看 | 九九久久精品视频 | 日韩精品一区中文字幕 | 亚洲精品欧美 | 国产精品欧美一区二区三区不卡 | 欧美一级视频免费看 | 欧美亚洲国产一区二区三区 | 亚洲精品成人网 | 成人小视频在线 | 婷婷二区 | 日韩一区二区三区四区五区六区 | 国产精品明星裸体写真集 | 日韩欧美一区二区三区 | 免费在线日韩 | 免费啪啪| 久久精品国产久精国产 | 欧美日韩在线观看一区 | 国产欧美一区二区在线观看 | av大片| 麻豆av免费观看 |