成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="immsu"></center>

<center id="immsu"><acronym id="immsu"></acronym></center>

<abbr id="immsu"><tbody id="immsu"></tbody></abbr>

<abbr id="immsu"><source id="immsu"></source></abbr>

<abbr id="immsu"><source id="immsu"></source></abbr>

<rt id="immsu"><acronym id="immsu"></acronym></rt>

<rt id="immsu"><tr id="immsu"></tr></rt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了

輕薄滴假象

發(fā)布于 2024-5-27 09:06

瀏覽

0收藏

本文介紹了香港科技大學（廣州）的一篇關于大模型高效微調（LLM PEFT Fine-tuning）的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」，本文被 ICML 2024 接收，代碼已開源。

ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了-AI.x社區(qū)

論文地址：https://arxiv.org/abs/2405.03003
項目地址：https://github.com/Chaos96/fourierft

背景

大型基座模型在自然語言處理（NLP）和計算機視覺（CV）領域都獲得了矚目的成就。微調（Finetuning）大型基座模型，使其更加適應特殊的下游任務，成為了一項熱門研究課題。然而，在模型越來越大，下游任務越來越多樣的今天，微調整個模型帶來的計算、存儲消耗已大到不再能被接受。LoRA 采用低秩擬合微調增量的方案，成功降低了大量的此類消耗，但每個適應器（adapter）的大小仍然是不可忽視的。這激發(fā)了本文的核心問題：相比 LoRA，如何進一步大幅減少可訓練參數？此外，一個有趣的附加問題是能否采用更少的參數量得到高秩增量矩陣。

方法

傅立葉基底在各類數據壓縮應用中廣泛使用，例如一維向量信號和二維圖像的壓縮。在這些應用中，稠密的空域信號通過傅立葉變換被轉化為稀疏的頻域信號?；谶@一原理，作者推測模型權重的增量也可以被視為一種空域信號，其對應的頻域信號可以通過稀疏表示來實現。

在這一假設的基礎上，作者提出了一種新的方法，用于在頻域中學習增量權重信號。具體來說，該方法通過隨機位置的稀疏頻域信號來表示空域權重增量。在加載預訓練模型時，首先隨機選擇 n 個點作為有效的頻域信號，然后將這些信號拼接成一個一維向量。在前向傳播過程中，這個一維向量被用來通過傅立葉變換恢復空域矩陣；在反向傳播過程中，由于傅里葉變換的可導性，可以直接對此可學習的向量進行更新。這種方法不僅有效減少了模型微調時所需的參數數量，同時保證了微調性能。通過這種方式，作者不僅實現了對大規(guī)?；A模型的高效微調，還展示了傅立葉變換在機器學習領域中的潛在應用價值。

ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了-AI.x社區(qū)

得益于傅立葉變換基底的高信息量，僅需很小的 n 值即可達到與 LoRA 相當甚至超過 LoRA 的表現。一般來說，傅立葉微調的可訓練參數僅為 LoRA 的千分之一到十分之一。

實驗

1. 自然語言理解

作者在自然語言理解的 GLUE 基準測試上對傅立葉微調方法進行了評估。基線對比方法包括全量微調（FF，Full Finetuning）、Bitfit、適應器微調（Adapter Tuning）、LoRA、DyLoRA 和 AdaLoRA。下表展示了各種方法在 GLUE 各個任務上的表現及其所需的訓練參數量。結果表明，傅立葉微調以最少的參數量達到了甚至超越了其他微調方法的性能。

ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了-AI.x社區(qū)

2. 自然語言指令微調

大模型的自然語言生成是目前模型微調的重要應用領域。作者在 LLaMA 系列模型、MT-Bench 任務和 Vicuna 任務上評估了傅立葉微調的性能。結果顯示，傅立葉微調以極低的訓練參數量達到了與 LoRA 相似的效果，進一步驗證了傅里葉微調方法的通用性和有效性。

ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了-AI.x社區(qū)

3. 圖像分類

作者在 Vision Transformer 上測試了傅里葉微調的性能，涵蓋了 8 個常見的圖像分類數據集。實驗結果表明，雖然在圖像分類任務中傅立葉微調相較LoRA的壓縮率提升并不比自然語言任務中顯著，但其仍然以遠小于 LoRA 的參數量超越了 LoRA 的效果。這進一步展示了傅立葉微調在不同應用領域中的有效性和優(yōu)勢。

ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了-AI.x社區(qū)

4. 突破低秩

在 GLUE 基準的 RTE 數據集上，FourierFT 可以實現明顯高于 LoRA (通常為 4 或 8) 的增量的秩。

ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了-AI.x社區(qū)

5.GPU 資源消耗

微調過程中，FourierFT 可以實現比 LoRA 更少的 GPU 消耗。下圖為采用單張 4090 顯卡在 RoBERTa-Large 模型上的巔峰內存消耗。

ICML 2024 | 脫離LoRA架構，訓練參數大幅減少，新型傅立葉微調來了-AI.x社區(qū)

結論

作者介紹了一種名為傅立葉微調的高效微調方法，通過利用傅里葉變換來減少大基礎模型微調時的可訓練參數數量。該方法通過學習少量的傅里葉譜系數來表示權重變化，顯著降低了存儲和計算需求。實驗結果顯示，傅立葉微調在自然語言理解、自然語言生成、指令調優(yōu)和圖像分類等任務上表現優(yōu)異，與現有的低秩適應方法（如 LoRA）相比，傅立葉微調在保持或超過 LoRA 性能的同時，所需的可訓練參數大幅減少。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/jaYeIfByJaWU5-4jBmnrzQ??

標簽

贊

收藏

回復

舉報

回復

相關推薦

大模型微調新范式：當LoRA遇見MoE

zhangyannni ? 3858瀏覽 ? 0回復
單GPU實現LLM多LoRA微調

angel ? 4527瀏覽 ? 0回復
LLM高效微調詳解-從Adpter、PrefixTuning到LoRA

angel ? 4115瀏覽 ? 0回復
新型多智能體系統(tǒng)MESA，探索效率大幅提升

AI論文解讀 ? 4114瀏覽 ? 1回復
ICML 2024 | 大語言模型預訓練新前沿：「最佳適配打包」重塑文檔處理標準

輕薄滴假象 ? 2661瀏覽 ? 0回復
LoRA數學編程任務不敵全量微調 | 哥大&Databricks新研究

Crystalcxt ? 2910瀏覽 ? 0回復
ICML 2024：從視覺語言基礎模型反饋中進行強化學習

AIGC最前線 ? 4133瀏覽 ? 0回復
原作者帶隊的Mamba 2來了，新架構訓練效率大幅提升

輕薄滴假象 ? 2832瀏覽 ? 0回復
LLM微調技術LoRA圖解

51CTO內容精選 ? 3317瀏覽 ? 0回復
ICML 2024 Oral｜外部引導的深度聚類新范式

輕薄滴假象 ? 3077瀏覽 ? 0回復
ETH北航字節(jié)推出LoRA新范式 | ICML 2024

Crystalcxt ? 2670瀏覽 ? 0回復
谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024

duhorse ? 3170瀏覽 ? 0回復
ICML 2024：AI對齊與可變和可影響獎勵函數

AIGC最前線 ? 2841瀏覽 ? 0回復
ICML 2024｜Transformer究竟如何推理？基于樣例還是基于規(guī)則

輕薄滴假象 ? 3014瀏覽 ? 0回復
ICML 2024高分論文 | 零階優(yōu)化器微調大模型，大幅降低內存

輕薄滴假象 ? 3081瀏覽 ? 0回復
深入理解預訓練與微調，為什么需要預訓練，什么是微調？

AI探索時代 ? 4279瀏覽 ? 0回復
參數高效微調-Prefix Tuning、Adapter Tuning、LoRA

大模型自然語言處理 ? 3781瀏覽 ? 0回復
使用Unsloth微調與運行Gemma 3，速度提升1.6倍，VRAM使用減少60%

sbf_2000 ? 3266瀏覽 ? 0回復
強化微調來襲！如何讓AI真正“聽懂”人類需求

Halo咯咯 ? 861瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實現提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

下一篇： Bengio等人新作：注意力可被視為RNN，新模型媲美Transformer，但超級省內存

社區(qū)精華內容

目錄

主站蜘蛛池模板：欧美日韩精品专区 | 亚洲精品免费在线观看 | 久久久久久久电影 | 黄色一级大片在线免费看产 | 日韩精品在线观看一区二区三区 | 精精国产xxxx视频在线 | 亚洲国产成人久久久 | 手机三级电影 | 人人九九精 | 中文字幕电影在线观看 | www.日日夜夜 | a在线视频 | 91成人在线视频 | 91在线一区| 亚洲欧美日韩电影 | 久久男女视频 | 97国产精品 | 小川阿佐美pgd-606在线 | 一区视频在线免费观看 | 黄网址在线观看 | 麻豆av在线 | 成人日韩av| 欧美久操网 | 色综合美女| 久久久999成人 | a级在线 | 精品国产视频 | 中文字幕国产 | 欧美在线一区二区三区 | 成年视频在线观看福利资源 | 日韩欧美国产精品一区 | av一级| 国产成人精品一区二区三区四区 | a免费在线 | 夜夜艹天天干 | 久久99精品久久久久久琪琪 | 国产成人精品一区二区三区视频 | 欧美日韩久久精品 | 国产精品高潮呻吟久久av野狼 | 亚洲精品一区二区三区中文字幕 | 国产成人一区二区三区电影 |

<rt id="myogo"></rt>

<li id="myogo"></li>