成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無需額外訓練提升模型30%性能!DeepMind科學家點贊MIT博士生實習成果

人工智能 新聞
只需對Transformer的特定層進行一種非常簡單的修剪,即可在縮小模型規模的同時顯著提高模型性能。

一個來自MIT博士生的驚人發現:

只需對Transformer的特定層進行一種非常簡單的修剪,即可在縮小模型規模的同時顯著提高模型性能。

圖片

效果主要體現在文本理解任務上,最高可達30%

這在3個模型(LLama2、GPT-J和Roberta)和8個不同數據集上都得到了驗證(包含認知推理、世界知識等)。

圖片

除了文本理解,它也適用于強化學習。

當然,更重要的是,這個操作只需在模型訓練完成之后進行,不需要額外的參數和數據

DeepMind研究科學家看完都來點贊了:

圖片

那么,它具體怎么做的?

方法概述

該方法全稱“ Layer-Selective Rank Reduction”,簡稱“LASER”。

這是一種選擇性地去除LLM權重矩陣高階組件(components)的干預措施,操作就在Transformer模型的特定權重矩陣和層中進行。

研究發現,即使完全去除90%以上,模型性能一般也不會下降。

具體而言,LASER通過rank-k近似來替換Transformer模型中的特定權重矩陣(W),有時僅減少包含前1%組件的矩陣,也能達到不錯的效果。

一個單步LASER干預措施包含三個參數:

類型(T)、層號(? )降秩(ρ,全稱rank reduction)

這些值組合在一起描述哪個矩陣將被其低階近似所取代,以及近似的程度。

其中參數類型對我們將要干預的矩陣進行分類,而矩陣W來自MLP和注意力層。

層號表示我們要介入的層(第一層從0開始索引)。比如Llama-2有32層,因此? ∈{0,1,2,···31}。

最后,ρ∈[0,1)描述在進行低秩近似時應該保留最大秩的分數。

下圖為LASER操作的一個示例,它更新的是第L層Transformer塊中MLP的第一層權重矩陣。

圖片

實驗發現:

不同層類型之間的降秩效果并不統一,主要可在MLP層的后續transformer塊中執行LASER操作觀察到,在注意力層中則很微弱。

圖片

同時,如果我們一氣兒在多個層上執行LASER還可以進一步增強模型性能,超越單層所帶來的改進。

具體而言,有時可以超過模型原始性能的2倍

圖片

除了最高可提升模型30%的文本理解性能,它還對強化學習有效。

在此,作者評估了LASER對一個訓練和評估Sokoban游戲(通過移動塊推入洞中)的決策transformer模型的影響。

結果發現,有了LASER,模型可以多解決3%的任務。

圖片

原因分析

為什么這樣一個簡單操作就能帶來模型性能如此的提升?

作者用GPT-J模型的結果來分析(選該模型主要是該它的訓練數據DT rain是公開的),即通過計算訓練數據中“糾正事實”發生的頻率,來弄清究竟是哪些數據點從中受益。

結果發現,性能最大的提升發生在低頻樣本上。

如下圖所示c,條形圖顯示了LASER為數據提供的提升量,準確性的最大改進來自于訓練數據中出現頻率較低的數據點。

圖片

作者解釋,這很明顯,消除高階組件“去噪”了模型,并有助于恢復隱藏的、頻率較低的信息。

對此,DeepMind研究員表示相當有道理:

LLM必須對大量錯誤的推理和不準確的信息進行建模,而剔除它們所學到的一些知識會有所幫助。

那么問題又來了:矩陣中的高階組件究竟存儲了哪些會破壞模型的內容?

通過近似這些組件的以學習權重矩陣,作者發現:

當原始的、未修改的模型不能正確回答時,高階組件偶爾會用一些沒有實際含義的高頻詞(例如“a”、“the”、“of”)來回答問題,或者直接預測與正確答案具有相同語義類型但不正確的實體。

而使用LASER去除這些高階組件后,就可以解決這個問題,使模型正確響應。

圖片

總的來說,這項研究對于理解信息如何存儲在LLM中、如何壓縮模型規模以及更廣泛地理解大型語言模型的行為影響有很大用處。

目前也還有很多亟待解決的問題,比如:

1、為什么權重矩陣中的高階組件在訓練過程中會積累噪聲答案?

2、模型架構和結構選擇對這種現象的發生有何影響?

作者介紹

本文一共三位作者,一作為MIT EECS在讀博士生,她在微軟實習時產出了這項研究。

圖片

剩下兩位都是她本次研究的指導老師,全部為微軟紐約研究院高級研究員,具有同等指導貢獻。

一位是Jordan T. Ash,博士畢業于普林斯頓大學,研究方向為深度學習和順序決策相關問題。

另一位是Dipendra Misra,研究方向為交互式學習、NLP和表征學習。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-03-11 16:33:26

機器狗訓練

2017-08-04 15:53:10

大數據真偽數據科學家

2012-12-06 15:36:55

CIO

2022-01-14 14:47:06

量子AI龍卷風

2025-06-26 08:56:59

2024-12-12 14:00:00

谷歌科學AI

2023-07-14 09:56:24

人工智能模型

2012-12-26 10:18:47

大數據數據科學家

2012-12-26 10:51:20

數據科學家

2022-11-03 14:13:24

騰訊科學家

2018-12-24 08:37:44

數據科學家數據模型

2024-12-30 07:00:00

GPT-4AGI人工智能

2024-12-06 09:00:00

2023-08-14 08:30:32

2018-02-28 15:03:03

數據科學家數據分析職業

2018-10-16 14:37:34

數據科學家數據分析數據科學

2023-04-08 12:32:56

WiFi信號連網

2012-06-12 09:33:59

2018-05-31 21:41:57

數據手冊人工智能數據集

2020-12-09 06:25:19

ETL數據分析數據科學家
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产在线二区 | 久久久久久成人 | 99精品欧美一区二区三区 | 色综合久久天天综合网 | 日本天天操 | 欧美色综合一区二区三区 | 亚洲vs天堂 | 欧产日产国产精品v | 成年人黄色一级片 | 久久久久久久久国产精品 | 成人综合在线视频 | 国产精品国产三级国产aⅴ原创 | 伊人伊人 | 欧美v在线| 欧洲免费毛片 | 日韩精品在线观看网站 | 欧美视频成人 | 国产成人综合在线 | 色天堂影院 | 亚洲国产成人av好男人在线观看 | 中文字幕av亚洲精品一部二部 | 日韩一区二区在线视频 | 欧美在线视频一区二区 | av网站在线看 | 精品九九在线 | 国产精品久久久久久久久久久久 | 久久久www成人免费精品 | 日本久久一区 | 色网站在线免费观看 | 亚洲精品1区 | 91精品亚洲 | 国产四区 | 老司机67194精品线观看 | 国产在线一区二区 | 中文字幕日韩欧美一区二区三区 | 亚洲精品一二区 | 久久国内精品 | 亚洲国产情侣自拍 | 国产精品视频一区二区三 | 久久aⅴ乱码一区二区三区 91综合网 | 亚洲精品在线看 |