突破瓶頸,嵌入式AI神經持續學習引擎—Replay4NCL
阿聯酋大學、紐約大學阿布扎比分校以及巴基斯坦國立科技大學的研究人員,聯合推出了一種高效內存重放方法Replay4NCL,以解決嵌入式 AI 系統在動態環境中持續學習的難題。
值得一提的是,該研究成果已經被第62屆設計自動化大會(DAC)審核通過,會在2025年6月在舊金山舉辦的大會上展示。
隨著AI技術的快速迭代發展,嵌入式 AI 系統在各種應用場景中扮演著越來越重要的角色,例如,移動機器人、無人駕駛、無人機等。這些系統需要具備持續學習的能力,以適應動態變化的環境,同時避免災難性遺忘。
但傳統的持續學習方法在嵌入式系統中面臨著顯著的延遲、能量消耗和內存占用問題,而Replay4NCL通過優化記憶重放過程,為嵌入式 AI 系統提供了一種高效的神經形態持續學習解決方案。
Replay4NCL核心架構介紹
Replay4NCL的第一個核心創新模塊是時序優化。在脈沖神經網絡中,時序是一個關鍵參數,決定了神經元在每個時間步內處理信息的頻率。
傳統的 SNN 模型通常采用較長的時序,以確保網絡能夠充分處理輸入數據并達到較高的精度。然而,長時序也帶來了顯著的處理延遲,這對于需要快速響應的嵌入式 AI 系統來說是不可接受的。
Replay4NCL通過實驗研究了不同時序設置對網絡精度和延遲的影響。研究人員發現,將時序從傳統的 100 降低到 40,雖然會導致精度略有下降,但仍然能夠保持在可接受的范圍內,同時顯著減少了處理時間。這一發現為優化時序提供了理論依據。此外,
Replay4NCL還引入了一種基于減少時序的數據壓縮 - 解壓縮機制,進一步減少了潛在數據(舊知識)的內存占用。通過這種機制,潛在數據在存儲時被壓縮,而在使用時再進行解壓縮,從而在不損失信息的前提下,顯著減少了潛在數據的存儲空間。
時序的減少雖然降低了延遲和內存占用,但也帶來了新的挑戰。由于時序減少,神經元接收到的脈沖數量減少,這可能導致神經元的膜電位難以達到閾值電位,從而影響網絡的性能。為了解決這一難題,Replay4NCL提出了參數調整模塊,通過調整神經元的閾值電位和學習率來彌補信息損失。
研究人員降低了閾值電位 Vthr 的值,使得神經元更容易發射脈沖,即使在脈沖數量較少的情況下,也能夠保持與原始預訓練模型相近的脈沖活動。同時,學習率也被降低,以減緩網絡的學習速度。這一調整確保了在訓練階段,網絡能夠更加謹慎地更新權重,尤其是在脈沖數量較少的情況下,從而提高了網絡對舊知識的保持能力和對新知識的學習能力。
Replay4NCL的另一個核心創新是其動態訓練策略,可將時序優化、參數調整和潛在重放數據插入策略有機地結合起來,形成了一種高效的訓練機制。
在預訓練階段,SNN 模型首先被訓練以學習所有預訓練任務。在準備網絡進行持續學習訓練階段時,模型會生成LR 數據激活,并根據選定的層將網絡分割為兩部分:凍結層和學習層。凍結層負責將輸入脈沖傳遞到學習層,而學習層則在訓練新任務時進行更新。
在持續學習訓練階段,網絡會動態調整閾值電位和學習率。通過這種方式,網絡能夠在處理較少脈沖的情況下,仍然保持高效的權重更新和學習能力。
實驗數據
為了測試Replay4NCL 的性能,研究人員在Spiking Heidelberg Digits、Class-Incremental Learning上進行了綜合評估,來檢測其精度、處理延遲和內存占用等關鍵參數。
實驗結果顯示,Replay4NCL在保持舊知識方面表現出色,其 Top-1 精度達到了 90.43%,相比現有的最先進方法SpikingLR提高了 4.21 個百分點。同時,在學習新任務時,Replay4NCL 方法也展現出了良好的性能,其精度與 SpikingLR 方法相當。
在處理延遲方面,Replay4NCL 方法取得了顯著的改進。與時序為100的 SpikingLR 方法相比,Replay4NCL方法通過采用 40 時序的設置,將處理延遲降低了 4.88 倍。這一改進使得嵌入式 AI 系統能夠更快地響應輸入信號,提高了系統的實時性。
在潛在數據內存占用方面,Replay4NCL 方法也取得了顯著的節省。由于采用了減少時序的數據壓縮 - 解壓縮機制,Replay4NCL 方法將潛在數據的內存占用減少了20%。這一節省對于資源受限的嵌入式 AI 系統來說至關重要,因為它可以顯著減少系統的存儲需求,從而降低硬件成本和功耗。
在能量消耗方面,Replay4NCL 方法同樣表現出色。實驗結果表明,與 SpikingLR 方法相比,Replay4NCL 方法將能量消耗降低了 36.43%。這一節能效果主要得益于減少的時序設置,因為它減少了脈沖的生成和處理數量,從而降低了系統的能量消耗。