成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

基于Mamba架構的，狀態空間音頻分類模型AUM

發布于 2024-7-19 12:21

瀏覽

0收藏

Transformer憑借強大的自注意力機制，成為文本、音頻、視頻等模型的基礎架構之一。但其計算復雜度隨著序列長度的增加而呈指數級增長，這在處理長序列數據時會出現嚴重的效率問題。

韓國高等科學技術院的研究人員受最新的Mamba架構啟發，開發了首個沒有自注意力機制純粹狀態空間的音頻分類模型Audio Mamba（下面簡稱“AUM”）。

狀態空間是Mamba架構的核心功能之一，這是一種用于描述和預測系統狀態隨時間變化的數學模型，通過維護一個隱藏狀態來映射輸入序列到輸出，可幫助模型能夠以線性時間復雜度高效處理數據，無論序列多長都沒有問題。

論文地址：https://arxiv.org/abs/2406.03344

基于Mamba架構的，狀態空間音頻分類模型AUM-AI.x社區

AUM架構簡單介紹

在AUM架構中，先通過傅里葉變換方法，將原始的音頻波形首先被轉換成頻譜圖。把得到的頻譜圖隨后被劃分成一系列規則的 “patches”塊。每個patch都是一個正方形矩陣，代表了音頻信號的一個局部特征區域。通過這種方式，將音頻信號被分解為一系列的局部特征，為后續的數據處理奠定了基礎。

基于Mamba架構的，狀態空間音頻分類模型AUM-AI.x社區

接著，每個patch通過一個線性投影層被嵌入到一個高維空間中。在這個嵌入過程不僅將原始的音頻特征轉換為模型可以處理的形式，而且還通過引入一個特殊的分類標記來增強模型的分類能力。

這個分類標記被放置在嵌入序列的中間位置，將作為模型訓練和推理過程中的關鍵元素，幫助模型集中注意力于音頻數據中最重要的部分。

再從序列的末尾開始，通過反向卷積層和狀態空間模型來提取特征，幫助AUM模型能從不同的角度理解音頻數據，增強了模型對音頻信號全局上下文的理解能力。

基于Mamba架構的，狀態空間音頻分類模型AUM-AI.x社區

此外，AUM還采用了一種現代化的硬件優化掃描方法，能夠從輸入序列的開始到結束進行單向掃描，同時更新模型的隱藏狀態。不僅提高了模型的處理效率，還使得模型能夠選擇性地更新其隱藏狀態，從而更有效地捕捉輸入序列中的相關信息。

實驗測試與數據集

為了測試AUM的性能，研究人員使用了AudioSet、VGGSound、VoxCeleb、Speech Commands V2和EPIC-SOUNDS等多個知名音頻數據集進行了綜合評估。

這些數據集不僅在規模上有所不同，在音頻樣本的多樣性和復雜性上也各有特點。例如，AudioSet數據集包含了超過200萬個10秒長的音頻剪輯，涵蓋了527個不同的標簽；而VGGSound則包含了近20萬個視頻剪輯，每個剪輯都有10秒長，標注了309種不同的聲音類別。

基于Mamba架構的，狀態空間音頻分類模型AUM-AI.x社區

結果顯示，AuM在AudioSet上的平均精準度達到了32.43%，比知名的Audio Spectrogram Transformers（簡稱“AST”）模型高出3.33%；在VGGSound上，準確率提高到42.58%，比AST提升了5.33%。

在VoxCeleb、Epic-Sounds和Speech Commands V2，AuM也顯示出了卓越的數據序列處理性能。

基于Mamba架構的，狀態空間音頻分類模型AUM-AI.x社區

除了性能優秀，AuM對計算效率和內存消耗也比AST強很多。在處理長序列音頻數據時，AuM顯示出了顯著的內存效率，這得益于其基于狀態空間模型的架構，能夠在保持性能的同時減少內存使用。

此外，AuM在推理階段的效率也比AST快，這意味著在實際應用中，AuM能夠提供更快的推理響應，對于需要實時音頻處理的業務場景尤為重要。

本文轉自AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/r-03S5PW3l89zphf2IsbyQ??

標簽

贊

收藏

回復

舉報

回復

相關推薦

VideoMamba：用于高效視頻理解的狀態空間模型

爛漫樹林 ? 4097瀏覽 ? 0回復
首個基于Mamba的MLLM來了！模型權重、訓練代碼等已全部開源

輕薄滴假象 ? 3642瀏覽 ? 0回復
原作者帶隊的Mamba 2來了，新架構訓練效率大幅提升

輕薄滴假象 ? 2826瀏覽 ? 0回復
力壓Transformer，詳解Mamba和狀態空間模型

小虎哦哦 ? 3919瀏覽 ? 0回復
Jamba-1.5：大規模混合Transformer-Mamba模型

sbf_2000 ? 3333瀏覽 ? 0回復
AdaBoost分類器完全圖解

51CTO內容精選 ? 2727瀏覽 ? 0回復
NVIDIA AI 推出 Fugatto：一個 25 億參數的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音

Halo咯咯 ? 2561瀏覽 ? 0回復
FLOAT：基于流匹配的音頻驅動說話者頭像生成模型

angel ? 2576瀏覽 ? 0回復
基于CNN＋PyTorch實現視覺檢測分類

51CTO內容精選 ? 2299瀏覽 ? 0回復
基于時頻特征融合的高創新時間序列分類模型

Tang_Lan ? 2642瀏覽 ? 0回復
多模態大語言模型的空間智能探秘：突破與挑戰

十一月雨_55 ? 2601瀏覽 ? 0回復
基于 Gemini AI 實現音頻和視頻解析

丟翅膀的魚 ? 3132瀏覽 ? 0回復
xLSTM：拳打Transformer，腳踢Mamba？！

魯班模錘1 ? 2349瀏覽 ? 0回復
Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節

大模型自然語言處理 ? 2307瀏覽 ? 0回復
基于1D-GRU+2D-MTF-ResNet-CBAM的分類模型

Tang_Lan ? 2447瀏覽 ? 0回復
基于LangGraph的智能文章生成Agent架構設計思路

九歌AI大模型 ? 2294瀏覽 ? 0回復
騰訊Hunyuan-T1來襲：Mamba架構重塑語言模型推理能力

Halo咯咯 ? 1788瀏覽 ? 0回復
PixelFlow：基于流的像素空間生成模型

AIRoobt ? 966瀏覽 ? 0回復
MCP 實踐：基于 MCP 架構實現知識庫系統

玄姐聊AGI ? 2552瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

剛剛，OpenAI發布GPT-image-1模型，更強吉卜力版本來啦 2025-04-24 09:57:36發布
字節跳動開源多模態AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： OpenAI發布PVG：用小模型驗證大模型輸出，解決“黑盒”難題

下一篇：提升5.69倍，高效RAG上下文壓縮方法COCOM

社區精華內容

目錄

主站蜘蛛池模板：久久专区 | 日本高清视频在线播放 | 狠狠色综合网站久久久久久久 | 欧美一级黑人aaaaaaa做受 | 午夜视频在线观看网址 | 亚洲一区二区三区在线视频 | 日本成人免费网站 | 激情视频网站 | 国产精品日本一区二区在线播放 | 365夜爽爽欧美性午夜免费视频 | 国产精品一区在线观看 | 国产免费一区二区三区 | 亚洲精品国产成人 | 国产欧美精品一区二区三区 | 国产aⅴ | 瑞克和莫蒂第五季在线观看 | 亚洲欧美综合精品久久成人 | 亚洲男人天堂网 | 青青草在线视频免费观看 | 99精品久久久国产一区二区三 | 狠狠操操 | 91精品久久久久久久久久入口 | 欧美日韩高清一区 | 亚洲一区三区在线观看 | 国产精品久久久久久久久久 | 日本不卡免费新一二三区 | 久久久久久久久国产成人免费 | 中文字幕成人 | 一级黄色生活视频 | 亚洲精品成人 | 夜夜草 | 日韩综合在线视频 | 欧美视频在线看 | 国产日韩欧美一区 | 亚洲精品视频在线观看免费 | 理论片午午伦夜理片影院 | h视频在线免费观看 | 日韩成人av在线播放 | 午夜免费观看体验区 | 国产精品视频不卡 | 手机av在线 |