成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM進入「拖拽時代」!只靠Prompt,幾秒定制一個大模型,效率飆升12000倍

人工智能 新聞
最近,來自NUS、UT Austin等機構的研究人員創新性地提出了一種「拖拽式大語言模型」(DnD),它可以基于提示詞快速生成模型參數,無需微調就能適應任務。不僅效率最高提升12000倍,而且具備出色的零樣本泛化能力。

現在的大模型基本都具備零樣本泛化能力,但要在真實場景中做特定的適配,還是得花好幾個小時來對模型進行微調。

即便是像LoRA這樣的參數高效方法,也只能緩解而不能消除每個任務所需的微調成本。

剛剛,包括尤洋教授在內的來自新加坡國立大學、得克薩斯大學奧斯汀分校等機構的研究人員,提出了一種全新的「拖拽式大語言模型」——Drag-and-Drop LLMs!

圖片

論文地址:https://arxiv.org/abs/2506.16406

DnD是一種基于提示詞的參數生成器,能夠對LLM進行無需訓練的自適應微調。

通過一個輕量級文本編碼器與一個級聯超卷積解碼器的組合,DnD能在數秒內,僅根據無標簽的任務提示詞,生成針對該任務的LoRA權重矩陣。

顯然,對于那些需要快速實現模型專業化的場景,DnD可以提供一種相較于傳統微調方法更強大、靈活且高效的替代方案。

圖片

總結來說,DnD的核心優勢如下:

  • 極致效率:其計算開銷比傳統的全量微調低12,000倍。
  • 卓越性能:在零樣本學習的常識推理、數學、編碼及多模態基準測試中,其性能比最強大的、需要訓練的LoRA模型還要高出30%。
  • 強大泛化:僅需無標簽的提示詞,即可在不同領域間展現出強大的泛化能力。

圖片

DnD實現方法

通過觀察,研究人員發現,LoRA適配器無非是其訓練數據的一個函數:梯度下降會將基礎權重「拖拽」至一個特定任務的最優狀態。

如果能夠直接學習從提示到權重的映射,那么就可以完全繞過梯度下降過程。

圖片

DnD通過兩個核心步驟獲得「拖拽」能力:準備訓練數據(左上)與訓練參數生成器(右上)。

  • 在準備數據時,將模型參數(權重)與特定數據集的條件(提示詞)進行顯式配對。
  • 在訓練時,DnD模型將條件作為輸入來生成參數,并使用原始的LoRA參數作為監督信號進行學習。

基于這些洞見,團隊提出了「拖拽式大語言模型」,它無需微調即可生成任務專屬的權重。

團隊首先在多個不同數據集上分別訓練并保存相應的LoRA適配器。

為了賦予模型「拖拽」的能力,團隊將這些數據集的提示詞與收集到的LoRA權重進行隨機配對,構成DnD模型的訓練數據——即「提示詞-參數」對。

參數生成器是一個由級聯卷積塊構成的解碼器。

參數生成器的模塊細節如下:每個超卷積塊包含三個超卷積模塊,用于在不同維度上提取并融合特征信息。

圖片

訓練時,團隊采用一個現成的文本編碼器提取提示詞的嵌入向量,并將其輸入生成器。

生成器會預測出模型權重,團隊利用其與真實LoRA權重之間的均方誤差(MSE)損失來對其進行優化。

圖片

在推理階段,團隊只需將來自全新數據集(訓練中未見過)的提示詞輸入DnD,僅需一次前向傳播,即可獲得為該任務量身定制的參數。

效果評估

零樣本學習效果

圖片

圖片

在新的(測試)數據集上的泛化能力。

在所有未曾見過的數據集上,DnD在準確率上都顯著超越了那些用于訓練的LoRA模型。

圖片

DnD能為數學、代碼和多模態問答等更復雜的任務生成參數。

在這些任務上依然展現出強大的零樣本學習能力。

圖片

圖片

DnD在多種任務上超越了基座LLM,展現出顯著的「拖拽」增強效果。

圖片

DnD能夠很好地擴展至更大的7B基座模型,并在更復雜的LiveCodeBench基準測試中保持強勁性能。

通過利用已微調的LoRA作為訓練數據,DnD成功地在輸入提示詞與模型參數之間建立了聯系。

團隊向DnD輸入其訓練階段從未見過的數據集提示詞,讓它為這些新任務直接生成參數,以此來檢驗其零樣本學習能力。

DnD在權重空間中生成的參數與原始參數分布接近,并且在性能上表現良好。

圖片

實驗結果表明,在零樣本測試集上,團隊的方法相較于訓練所用的LoRA模型的平均性能,取得了驚人的提升,并且能夠很好地泛化到多種真實世界任務和不同尺寸的LLM。

對比其他微調方法

為了進一步展示DnD的強大能力,團隊將其與全量樣本微調(full-shot tuning)、少樣本學習(few-shot)以及上下文學習(in-context learning)進行了對比。

令人驚訝的是,DnD的性能超越了LoRA全量微調的效果,同時速度快了2500倍。

雖然經過更多輪次的迭代,全量微調的性能會超過DnD,但其代價是高達12000倍的推理延遲。

此外,在樣本數少于256個時,DnD的性能穩定地優于少樣本學習和上下文學習。

尤其值得注意的是,少樣本學習和上下文學習都需要依賴帶標簽的答案,而DnD僅僅需要無標簽的提示詞。

圖片

DnD能夠達到與全量樣本相當甚至更優的性能,同時速度提高了2500-12000倍

作者介紹

Zhiyuan Liang

圖片

Zhiyuan Liang目前在新加坡國立大學高性能計算人工智能實驗室實習,師從尤洋教授。同時,也得到了Kai Wang博士和Wangbo Zhao的指導。

此前,他在中國科學技術大學獲得人工智能學士學位。并曾在北卡羅來納大學教堂山分校Huaxiu Yao教授的指導下進行實習,以及在中國科學技術大學數據科學實驗室跟著導師Xiang Wang度過了兩年的時光。

他的研究興趣主要集中在高效機器學習與參數生成,希望從權重空間學習的視角,探索實現更高層次智能的有效路徑。

Zhangyang(Atlas) Wang

圖片

Zhangyang Wang目前是德克薩斯大學奧斯汀分校錢德拉家族電氣與計算機工程系的終身副教授,并榮膺坦普爾頓基金會第7號捐贈教席。

他同時也是該校計算機科學系以及奧登研究所計算科學、工程與數學項目的核心教員。

他于2016年獲伊利諾伊大學厄巴納-香檳分校電氣與計算機工程博士學位,師從計算機視覺泰斗黃煦濤(Thomas S.Huang)教授;并于2012年獲中國科學技術大學電子工程與信息科學學士學位。

他的研究興趣主要聚焦于為生成式AI與神經符號AI定堅實的理論與算法基礎。

核心目標是創建結構化、模塊化的模型表示:1)在過參數化模型空間中實現高效、魯棒的學習;2)與符號知識及推理進行無縫連接。

Kai Wang

Kai Wang目前是新加坡國立大學HPC-AI實驗室的研究員,接受尤洋教授的指導。

此前,他在新加坡國立大學獲得數據科學與機器學習博士學位,在中國科學院深圳先進技術研究院獲得計算機技術碩士學位,在北京師范大學珠海校區獲得學士學位。

他的研究方向聚焦于參數生成與高效機器學習,尤其注重通過探索簡潔的基線方法,來深入洞察深度學習的內在機理。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-08-12 15:55:51

2015-10-15 11:06:59

2022-02-28 00:14:30

人工智能數據機器學習

2015-07-27 10:34:55

大數據大忽悠

2015-10-14 13:04:37

阿里云云棲大會

2023-09-12 14:45:18

2023-11-16 15:58:00

訓練數據

2022-11-13 10:07:22

SpringSpringBoot

2025-03-31 00:05:00

2024-07-19 09:59:31

2024-07-03 14:01:42

2025-02-18 10:25:10

2009-01-09 23:13:00

2016-09-26 17:26:20

2023-01-03 12:30:25

架構CPUGPU

2023-09-10 12:37:38

模型英偉達

2010-04-15 15:23:41

2017-10-27 13:53:34

2024-09-09 08:31:15

2022-02-24 11:46:38

區塊鏈技術NFT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美在线播放 | 午夜视频精品 | 精品一级毛片 | 欧美精品在线观看 | 欧美国产日韩一区二区三区 | 午夜国产羞羞视频免费网站 | 久久久做| 日本电影免费完整观看 | 精品在线免费观看视频 | 中文字幕精品视频在线观看 | 四虎影视免费在线 | 亚洲欧美日韩中文字幕一区二区三区 | 日韩一区二区在线视频 | 亚洲成人免费视频在线观看 | 欧美成人精品一区二区男人看 | 久草视频观看 | 偷拍自拍网址 | 久久香蕉网 | 婷婷成人在线 | 亚洲免费网址 | 天堂精品 | 日韩视频免费在线 | 久草成人| 国产激情精品视频 | 午夜电影网站 | 久久久久久久久蜜桃 | 国产成人午夜高潮毛片 | 国产精品久久久久久久久 | 国产午夜精品一区二区三区四区 | 99视频免费看| 超碰97免费在线 | 岛国精品 | 999www视频免费观看 | 国内精品久久久久久久影视简单 | 日本亚洲精品成人欧美一区 | 色婷婷综合在线观看 | 日韩一区二区三区在线 | 国产日韩欧美电影 | 国产成人精品一区二区三区 | 日韩精品一区二区三区 | 国产精品久久 |