我們提出了一個僅基于狀態空間模型(SSM)的高效視頻理解架構VideoMamba,并通過大量的實驗證明了它具備一系列良好的特性,包括(1)VisualDomainScalability;(2)ShorttermActionSensitivity;(3)LongtermVideoSuperiority;(4)ModalityCompatibility。這使得VideoMamba在一系列視頻benchmark上取得不俗的結果,尤其是長視頻benchmark,為未來更全面的視頻理解提供了更高效的方案。論文題目:VideoMamba:StateSpaceModelforEfficientV...
2024-04-09 10:21:16 4110瀏覽 0點贊 0回復 0收藏
在構建人工智能系統的過程中,數據的質量至關重要,但現實世界中的數據往往充滿了噪聲,甚至被惡意投毒,這給人工智能的發展帶來了巨大的挑戰。如何有效地清洗這些“臟樣本”,以確保模型訓練的準確性和可靠性,成為了一個亟待解決的問題。近期,香港中文大學(深圳)與騰訊AILab的研究團隊在ICLR2024提出了提出了一種通用的數據清洗框架(VDC),利用多模態大模型(MLLM)來識別數據集中的視覺語言不一致性,從而檢測出數據集...
2024-04-08 11:00:00 7769瀏覽 0點贊 0回復 0收藏
針對目前音樂生成3D舞蹈動作中存在的長序列生成動作質量差,生成效率低的問題,本文提出了Lodge,可以高效地根據輸入音樂生成極長的3D人體舞蹈動作。本文將Lodge設計為兩階段的由粗到細的Diffusion框架,并提出了特征化的舞蹈基元動作作為兩階段Diffusion的中間層表征,從而讓Lodge可以兼顧全局編舞規律和局部的動作質量,并且增強舞蹈的表現力。此外,本文還提出了腳步優化模塊以緩解腳和地面的接觸問題如腳滑、腳步漂浮等。文...
2024-03-28 14:40:56 4912瀏覽 0點贊 0回復 0收藏
當前研究關注大型語言模型在處理已知和未知問題時的知識邊界。主要問題可分為四類:單一已知問題可通過模型內部知識解決,單一未知問題需調用外部工具獲取知識,組合已知問題需要復雜推理,而組合未知問題則包含其他可能性。如何選擇使用外部檢索或模型內部知識來回答問題是個挑戰。一種方法是樸素RAG,另一種是先評估問題的確定性或不確定性,然后調用生成讀取或檢索讀取。然而,這兩種方法都有局限性,簡單地調用外部檢索并不...
2024-03-28 14:30:10 3348瀏覽 0點贊 0回復 0收藏
人類的語言是一種對復雜世界的高度簡潔的編碼,特別是語言中顏色的概念,成功地將原本極大的色彩空間(如256三次方真色彩空間)壓縮至5到10種顏色。受此啟發,來自上海交大,日本理化學研究所,東京大學的研究人員,提出全新的基于視覺任務的色彩量化(colourquantisation)技術,利用深度學習重現人類數萬年的顏色概念的演化。這項技術不但能推進文化人類學的研究,更是為網絡量化(neuralnetworkquantisation)以及多模態大語言...
2024-03-28 14:23:35 3162瀏覽 0點贊 0回復 0收藏