成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM合集:港大利用GPT-4o生成QA對,打造大規(guī)模多模態(tài)視頻思維鏈(COT)數(shù)據(jù)集

發(fā)布于 2024-12-10 10:30
瀏覽
0收藏

1. VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

LLM合集:港大利用GPT-4o生成QA對,打造大規(guī)模多模態(tài)視頻思維鏈(COT)數(shù)據(jù)集-AI.x社區(qū)

大型視覺語言模型(LVLMs)的進步顯著提升了多模態(tài)理解能力,但在視頻推理任務(wù)中仍面臨挑戰(zhàn),主要原因是高質(zhì)量、大規(guī)模數(shù)據(jù)集的缺乏。現(xiàn)有的視頻問答(VideoQA)數(shù)據(jù)集往往依賴于成本高昂且粒度不足的手動標(biāo)注,或者使用會產(chǎn)生冗余幀分析的自動構(gòu)建方法,這限制了它們在復(fù)雜推理任務(wù)中的可擴展性和有效性。為了解決這些挑戰(zhàn),我們提出了VideoEspresso,這是一個新的數(shù)據(jù)集,它包含保留了關(guān)鍵空間細節(jié)和時間連貫性的VideoQA對,以及中間推理步驟的多模態(tài)標(biāo)注。我們的構(gòu)建流程采用了一種語義感知的方法來減少冗余,并通過GPT-4o生成QA對。此外,我們開發(fā)了視頻思維鏈(CoT)標(biāo)注以豐富推理過程,指導(dǎo)GPT-4o從QA對和視頻內(nèi)容中提取邏輯關(guān)系。

為了充分利用高質(zhì)量的VideoQA對,我們提出了一種混合LVLM協(xié)作框架,該框架包括一個幀選擇器和一個兩階段指令微調(diào)推理LVLM。此框架能夠自適應(yīng)地選擇核心幀,并利用多模態(tài)證據(jù)進行CoT推理。在我們提出的基準測試中,與9種流行的LVLM相比,在14項任務(wù)上,我們的方法在大多數(shù)任務(wù)上優(yōu)于現(xiàn)有基線,展示了卓越的視頻推理能力。

論文: https://arxiv.org/pdf/2411.14794

2. EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

LLM合集:港大利用GPT-4o生成QA對,打造大規(guī)模多模態(tài)視頻思維鏈(COT)數(shù)據(jù)集-AI.x社區(qū)

在資源受限環(huán)境中部署神經(jīng)網(wǎng)絡(luò)時,先前的工作構(gòu)建了輕量級架構(gòu),分別使用卷積和注意力機制來捕捉局部和全局依賴關(guān)系。最近,狀態(tài)空間模型(SSM)作為一種有效的全局token交互方式出現(xiàn),其在token數(shù)量上的計算成本呈線性增長,具有明顯優(yōu)勢。然而,基于SSM構(gòu)建的高效視覺骨干網(wǎng)絡(luò)研究較少。在本文中,我們提出了一種名為Efficient Vision Mamba (EfficientViM)的新架構(gòu),該架構(gòu)基于隱藏狀態(tài)混合器的狀態(tài)空間二元性(HSM-SSD),能夠以更低的計算成本高效地捕捉全局依賴關(guān)系。在HSM-SSD層中,我們重新設(shè)計了之前的SSD層,使得可以在隱藏狀態(tài)內(nèi)執(zhí)行通道混合操作。此外,我們提出了多階段隱藏狀態(tài)融合方法,進一步增強隱藏狀態(tài)的表示能力,并提供了一種緩解由內(nèi)存限制操作引起瓶頸的設(shè)計。

結(jié)果表明,EfficientViM系列在ImageNet-1k上達到了新的速度-精度平衡,相比第二優(yōu)秀的模型SHViT,性能提高了0.7%,同時運行速度更快。另外,在圖像縮放或采用蒸餾訓(xùn)練時,與之前的工作相比,我們在吞吐量和準確率方面都觀察到了顯著提升。

論文: https://arxiv.org/pdf/2411.15241

3. SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

LLM合集:港大利用GPT-4o生成QA對,打造大規(guī)模多模態(tài)視頻思維鏈(COT)數(shù)據(jù)集-AI.x社區(qū)

盡管大型多模態(tài)模型取得了進展,但在處理長且未經(jīng)剪輯的視頻內(nèi)容時仍面臨挑戰(zhàn),主要原因是上下文長度的限制和巨大的內(nèi)存開銷。這些限制往往導(dǎo)致信息丟失嚴重,并降低了模型響應(yīng)的相關(guān)性。隨著網(wǎng)絡(luò)平臺上視頻數(shù)據(jù)的指數(shù)級增長,理解長視頻對于推進通用智能至關(guān)重要。在本文中,我們介紹了SALOVA(段增強長視頻助手):一種新穎的視頻-大語言模型框架,旨在通過有針對性的檢索過程增強對長視頻內(nèi)容的理解。

為實現(xiàn)這一目標(biāo),我們解決了兩個主要挑戰(zhàn):

我們發(fā)布了SceneWalk數(shù)據(jù)集,這是一個高質(zhì)量的87,800個長視頻集合,每個視頻都在片段級別進行了密集標(biāo)注,以使模型能夠捕捉場景連續(xù)性并保持豐富的描述性上下文。

我們的框架通過允許精確識別和檢索與查詢相關(guān)的視頻片段,從而緩解了當(dāng)前視頻-大語言模型的局限性,提高了生成響應(yīng)的上下文相關(guān)性。通過廣泛的實驗,SALOVA展示了在處理復(fù)雜長視頻方面的增強能力,顯著提升了在長時間序列中保持上下文完整性的能力。

論文: https://arxiv.org/pdf/2411.16173

4. Edit Away and My Face Will not Stay: Personal Biometric Defense against\n Malicious Generative Editing

LLM合集:港大利用GPT-4o生成QA對,打造大規(guī)模多模態(tài)視頻思維鏈(COT)數(shù)據(jù)集-AI.x社區(qū)

擴散模型的最新進展使得生成式圖像編輯變得更加容易,這雖然促進了創(chuàng)意編輯,但也引發(fā)了倫理問題,尤其是在涉及惡意修改人像時,這些修改可能威脅到個人隱私和身份安全。現(xiàn)有的保護方法主要依賴于對抗性擾動來抵消編輯效果,但往往難以應(yīng)對多樣化的編輯請求。我們提出了一種名為FaceLock的新方法,通過優(yōu)化對抗性擾動來破壞或顯著改變生物特征信息,使編輯后的輸出在生物特征上無法識別。FaceLock將面部識別和視覺感知集成到擾動優(yōu)化過程中,以提供對各種編輯嘗試的強健保護。

我們還指出了常用評估指標(biāo)中的缺陷,并揭示了它們?nèi)绾伪徊倏v,強調(diào)了需要可靠的保護評估方法。實驗表明,F(xiàn)aceLock在抵御惡意編輯方面優(yōu)于基線方法,并且對凈化技術(shù)具有魯棒性。消融研究證實了其穩(wěn)定性和在基于擴散的編輯算法中的廣泛適用性。我們的工作推進了生物特征防御,并為圖像編輯中的隱私保護實踐奠定了基礎(chǔ)。

論文: https://arxiv.org/pdf/2411.16832

本文轉(zhuǎn)載自 ??AI-PaperDaily??,作者: AI-PaperDaily


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 一级毛片免费视频 | 久久精品中文字幕 | 特黄色一级毛片 | 亚洲精品一区二区在线观看 | 欧美日韩一 | 欧美性猛交一区二区三区精品 | 成人免费视频网站在线观看 | 天天爱综合 | 91色综合 | 久久久入口 | 九九伊人sl水蜜桃色推荐 | 欧美一级在线观看 | 一区二区三区视频在线 | 亚洲精品欧美 | 日本黄色影片在线观看 | 综合中文字幕 | 中文字幕精品一区二区三区精品 | 亚洲日韩中文字幕一区 | 国产高清视频 | 免费在线观看成年人视频 | 精品一区精品二区 | 欧美亚洲国产日韩 | 精品久久99 | 午夜播放器在线观看 | 国产精品99久 | 91玖玖| 久久99深爱久久99精品 | 九九热在线视频免费观看 | 黄色一级毛片 | 自拍视频一区二区三区 | 凹凸日日摸日日碰夜夜 | 亚洲欧美国产精品久久 | 热re99久久精品国99热观看 | 中文字幕中文字幕 | 亚洲人成人一区二区在线观看 | 黑人巨大精品欧美一区二区一视频 | 亚洲不卡视频 | 欧美日韩在线视频观看 | 99reav | 欧美精品一区二区在线观看 | 日韩免费 |