成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!

發(fā)布于 2025-7-21 09:20
瀏覽
0收藏

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2507.05397

主頁(yè)鏈接:https://loongx1.github.io/

亮點(diǎn)直擊

  • L-Mind:一個(gè)多模態(tài)數(shù)據(jù)集,包含 23,928 對(duì)圖像編輯樣本,配套采集了在自然環(huán)境下的腦電(EEG)、功能性近紅外光譜(fNIRS)、脈搏波(PPG)、動(dòng)作和語(yǔ)音信號(hào)。
  • LoongX:一種新穎的神經(jīng)驅(qū)動(dòng)圖像編輯方法,結(jié)合了 CS3 和 DGF 模塊,用于高效的特征提取和多模態(tài)信息融合(效果見(jiàn)下圖 1)。
  • 大量實(shí)驗(yàn)證實(shí)多模態(tài)神經(jīng)信號(hào)的有效性,并深入分析了各模態(tài)的特定貢獻(xiàn)及其與語(yǔ)音輸入之間的協(xié)同作用。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

傳統(tǒng)圖像編輯依賴(lài)手動(dòng)提示,存在以下問(wèn)題:

  • 操作復(fù)雜、勞動(dòng)強(qiáng)度大;
  • 對(duì)于運(yùn)動(dòng)能力或語(yǔ)言能力受限的人群不友好;
  • 缺乏自然直觀的人機(jī)交互方式。

提出的方案

LoongX:一種基于多模態(tài)神經(jīng)生理信號(hào)的免手圖像編輯方法,主要特點(diǎn)包括:

  • 利用腦機(jī)接口(BCI)獲取用戶(hù)意圖;
  • 通過(guò)多模態(tài)信號(hào)(EEG、fNIRS、PPG、頭部動(dòng)作、語(yǔ)音)驅(qū)動(dòng)圖像編輯;
  • 結(jié)合跨尺度狀態(tài)空間(CS3)和動(dòng)態(tài)門(mén)控融合(DGF)模塊,實(shí)現(xiàn)高效特征提取與信息融合;
  • 在擴(kuò)散模型(DiT)基礎(chǔ)上微調(diào)以對(duì)齊圖像編輯語(yǔ)義。

應(yīng)用的技術(shù)

  1. 多模態(tài)神經(jīng)信號(hào)采集:包括腦電(EEG)、功能性近紅外光譜(fNIRS)、脈搏波(PPG)、頭部動(dòng)作和語(yǔ)音信號(hào);
  2. CS3 模塊:提取不同模態(tài)中具有區(qū)分性的特征;
  3. DGF 模塊:實(shí)現(xiàn)多模態(tài)特征的動(dòng)態(tài)融合;
  4. 擴(kuò)散Transformer(DiT):作為圖像生成的核心模型,通過(guò)微調(diào)實(shí)現(xiàn)語(yǔ)義對(duì)齊;
  5. 對(duì)比學(xué)習(xí):預(yù)訓(xùn)練編碼器,將認(rèn)知狀態(tài)與自然語(yǔ)言語(yǔ)義對(duì)齊;
  6. 大規(guī)模數(shù)據(jù)集 L-Mind:包含 23,928 對(duì)圖像編輯樣本及其對(duì)應(yīng)的多模態(tài)神經(jīng)信號(hào)。

達(dá)到的效果

  • LoongX 在圖像編輯任務(wù)中表現(xiàn)優(yōu)異,性能可與文本驅(qū)動(dòng)方法媲美,甚至在與語(yǔ)音結(jié)合時(shí)超過(guò)現(xiàn)有方法
  • CLIP-I:LoongX 0.6605 vs. 文本基線(xiàn) 0.6558;
  • DINO:LoongX 0.4812 vs. 文本基線(xiàn) 0.4636;
  • CLIP-T(結(jié)合語(yǔ)音):LoongX 0.2588 vs. 文本基線(xiàn) 0.2549;
  • 實(shí)驗(yàn)驗(yàn)證了多模態(tài)神經(jīng)信號(hào)在圖像編輯中的有效性;
  • 分析了各模態(tài)信號(hào)的貢獻(xiàn)及其與語(yǔ)音輸入的協(xié)同作用;
  • 展示了神經(jīng)驅(qū)動(dòng)生成模型在提升圖像編輯可達(dá)性和自然交互方面的潛力;
  • 為認(rèn)知驅(qū)動(dòng)的創(chuàng)意技術(shù)打開(kāi)了新的研究方向。

數(shù)據(jù)集

數(shù)據(jù)采集

從 12 位參與者處收集了 23,928 個(gè)編輯樣本(22,728 個(gè)用于訓(xùn)練,1,200 個(gè)用于測(cè)試),使用的設(shè)置如下圖 2 所示。參與者佩戴我們的多模態(tài)傳感器,在 25 英寸顯示器上(分辨率:1980 × 1080)查看來(lái)自 SEED-Data-Edit 的圖文對(duì)。所測(cè)得的 EEG、fNIRS 和 PPG 生理信號(hào)通過(guò)藍(lán)牙 5.3 實(shí)時(shí)傳輸,并通過(guò)專(zhuān)有 Lab Recorder 軟件中的 lab streaming layer 進(jìn)行同步和對(duì)齊。參與者同時(shí)朗讀所顯示的編輯指令,以提供語(yǔ)音信號(hào)。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

實(shí)驗(yàn)在一個(gè)安靜、溫度控制的房間內(nèi)進(jìn)行(24°C,濕度恒定),每天上午 9 點(diǎn)開(kāi)始。EEG 信號(hào)通過(guò)非侵入式水凝膠電極采集,每五小時(shí)更換一次電極以保持信號(hào)質(zhì)量。實(shí)驗(yàn)室遮光以防止陽(yáng)光干擾 fNIRS 和 PPG 信號(hào)。每次實(shí)驗(yàn)由參與者自主控制音頻錄制的開(kāi)始和結(jié)束,并以圖像名稱(chēng)標(biāo)記。非活動(dòng)時(shí)間段的數(shù)據(jù)被排除。


每次實(shí)驗(yàn)(上圖 2)由用戶(hù)啟動(dòng)的音頻錄制開(kāi)始和結(jié)束,并以圖像配對(duì)標(biāo)記。每對(duì)圖像后有 1 秒的交叉注視,每 100 張圖像后安排一次休息。共有 12 名健康的大學(xué)生參與(6 名女性,6 名男性;平均年齡:24.5 ± 2.5 歲),視力正常或矯正正常。所有參與者均簽署了知情同意書(shū),并獲得了經(jīng)濟(jì)補(bǔ)償。本研究已獲得相應(yīng)機(jī)構(gòu)倫理委員會(huì)的正式批準(zhǔn)。

數(shù)據(jù)預(yù)處理

EEG:四個(gè) EEG 通道(Pz、Fp2、Fpz、Oz;采樣率為 250 Hz)經(jīng)過(guò)帶通濾波(1–80 Hz)和陷波濾波(48–52 Hz),以去除漂移、噪聲和電源干擾。Fp2 和 Fpz 中的眼動(dòng)偽跡被保留,以捕捉眼動(dòng)信息。


fNIRS:六通道 fNIRS 信號(hào)(波長(zhǎng)為 735 nm 和 850 nm)根據(jù)修正的 Beer–Lambert 定律轉(zhuǎn)換為相對(duì)血紅蛋白濃度變化(HbO、HbR、HbT)。光密度變化計(jì)算公式為:

濃度變化計(jì)算如下:

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

PPG 和運(yùn)動(dòng):四通道 PPG 信號(hào)(735 nm,850 nm)通過(guò)自適應(yīng)平均池化在每個(gè)半球內(nèi)取平均,并經(jīng)過(guò)濾波(0.5–4 Hz)以提取反映心率變異性的心臟相關(guān)血流動(dòng)力學(xué)信號(hào)。來(lái)自六軸傳感器(12.5 Hz)的運(yùn)動(dòng)數(shù)據(jù)捕捉三軸線(xiàn)性加速度和角速度,用于表征頭部運(yùn)動(dòng)。

方法

如下圖 3 所示,LoongX 從多種神經(jīng)信號(hào)中提取多模態(tài)特征,并以成對(duì)方式將其融合到共享隱空間中。使用擴(kuò)散Transformer(Diffusion Transformer,DiT),原始圖像在融合特征的條件下被轉(zhuǎn)換為編輯后的圖像。圍繞三個(gè)研究問(wèn)題,我們進(jìn)行了一個(gè)多標(biāo)簽分類(lèi)實(shí)驗(yàn),結(jié)果顯示 EEG 比噪聲高出 20%,而融合所有信號(hào)可獲得最高的 F1 分?jǐn)?shù)。將神經(jīng)信號(hào)與文本結(jié)合可實(shí)現(xiàn)最佳的 mAP,驗(yàn)證了模態(tài)間的互補(bǔ)性。輸入長(zhǎng)度為 8,192 時(shí)性能最佳,但計(jì)算成本更高,這推動(dòng)了我們框架的設(shè)計(jì):用于長(zhǎng)序列的跨尺度狀態(tài)空間編碼器和用于特征整合的動(dòng)態(tài)門(mén)控融合模塊。

跨尺度狀態(tài)空間編碼

CS3 編碼器使用自適應(yīng)特征金字塔從多種信號(hào)中提取多尺度特征。為了進(jìn)一步捕捉超越固定金字塔的動(dòng)態(tài)時(shí)空模式,CS3 使用結(jié)構(gòu)化狀態(tài)空間模型(S3M)以線(xiàn)性復(fù)雜度高效地編碼長(zhǎng)序列。為控制成本,它采用跨特征機(jī)制分別編碼時(shí)間和通道信息。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

交叉金字塔聚合:編碼器沿通道維度融合多尺度和時(shí)間流,結(jié)果為:

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)態(tài)門(mén)控多模態(tài)融合

提出了動(dòng)態(tài)門(mén)控融合(Dynamic Gated Fusion,DGF)模塊,用于將一對(duì)內(nèi)容嵌入和條件嵌入動(dòng)態(tài)綁定到統(tǒng)一的隱空間中,并進(jìn)一步與文本嵌入對(duì)齊。DGF 包括門(mén)控混合、自適應(yīng)仿射調(diào)制以及動(dòng)態(tài)掩碼模塊。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

條件擴(kuò)散

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

預(yù)訓(xùn)練與微調(diào)

采用一個(gè)兩階段的過(guò)程:1)神經(jīng)信號(hào)編碼器(EEG 是最重要的)在神經(jīng)-文本語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,壓縮公共數(shù)據(jù)和 L-Mind;2)整個(gè)系統(tǒng)可選地使用原始圖像與真實(shí)編輯圖像對(duì)進(jìn)行微調(diào)。


預(yù)訓(xùn)練。信號(hào)編碼器通過(guò)使用大規(guī)模認(rèn)知數(shù)據(jù)集和 L-Mind 進(jìn)行預(yù)訓(xùn)練,以與語(yǔ)義嵌入對(duì)齊。CS3 編碼器(分別為 EEG + PPG 和 fNIRS + Motion)通過(guò)對(duì)稱(chēng)的 NT-Xent 損失與凍結(jié)的文本嵌入對(duì)齊:

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

實(shí)驗(yàn)

為回答第 1 節(jié)中提出的每個(gè)研究問(wèn)題(RQ),在 L-Mind 的測(cè)試集上全面評(píng)估了 LoongX 在神經(jīng)驅(qū)動(dòng)圖像編輯方面的能力。實(shí)驗(yàn)設(shè)置、指標(biāo)來(lái)自于 [51]。選擇 OminiControl 作為基線(xiàn)方法,因?yàn)樗С只?DiTs 的文本條件圖像編輯。

神經(jīng)信號(hào)的可靠性

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

模態(tài)貢獻(xiàn)的消融研究

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

細(xì)分分析:神經(jīng)條件 vs. 語(yǔ)言條件

回答 RQ3:神經(jīng)信號(hào)在低層次視覺(jué)編輯中表現(xiàn)出色,而語(yǔ)言在高層次語(yǔ)義方面更具優(yōu)勢(shì);兩者結(jié)合可實(shí)現(xiàn)最有效的混合控制。如下圖 6 所示,神經(jīng)信號(hào)(N)在更直觀的任務(wù)中尤為有效,如全局紋理編輯(更高的 CLIP-I),反映出較強(qiáng)的視覺(jué)可辨識(shí)性和結(jié)構(gòu)一致性。在對(duì)象編輯中,神經(jīng)信號(hào)在對(duì)象移除方面比其他方法更具能力,展示了其在傳達(dá)直觀意圖方面的優(yōu)勢(shì),盡管在處理復(fù)雜語(yǔ)義方面仍有局限。相比之下,文本指令(T)在高層語(yǔ)義任務(wù)中(例如“恢復(fù)”)本質(zhì)上更強(qiáng),突顯其在語(yǔ)義對(duì)齊方面的優(yōu)勢(shì)。當(dāng)兩者結(jié)合時(shí),神經(jīng)信號(hào)和語(yǔ)音(N+S)輸入實(shí)現(xiàn)了最佳語(yǔ)義對(duì)齊(CLIP-T: 0.2588),展示了混合條件在捕捉復(fù)雜用戶(hù)意圖方面的卓越效果。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

模型架構(gòu)的消融研究

LoongX 的每個(gè)架構(gòu)組件都有其獨(dú)特貢獻(xiàn),尤其是在預(yù)訓(xùn)練的輔助下,其組合釋放了全面的性能潛力。下表 2 中的消融研究在融合所有信號(hào)和語(yǔ)音的設(shè)置下進(jìn)行,探索每個(gè)提出模塊的影響。CS3 編碼器通過(guò)提取的特征增強(qiáng)了特征的完整性和平滑性,減少了像素級(jí)誤差(L2 降低了 5%),而 DGF 主要增強(qiáng)了與文本指令的語(yǔ)義對(duì)齊(CLIP-T 提升:3.5%)。在預(yù)訓(xùn)練的輔助下,LoongX 達(dá)到最優(yōu)性能,表明魯棒的多模態(tài)對(duì)齊和結(jié)構(gòu)化表示學(xué)習(xí)在最大化編輯性能中的重要作用。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

定性分析與局限性

定性示例證實(shí)了 LoongX 的直觀編輯能力,其局限性主要出現(xiàn)在抽象或模糊的復(fù)雜意圖中。下圖 7 中的定性結(jié)果表明,神經(jīng)信號(hào)驅(qū)動(dòng)的編輯能夠有效處理視覺(jué)和結(jié)構(gòu)修改,如背景替換和全局調(diào)整。然而,融合神經(jīng)與語(yǔ)言的方法更能捕捉涉及抽象語(yǔ)義的細(xì)致指令(例如“修改文本信息”)。盡管取得了顯著進(jìn)展,實(shí)體一致性(例如下圖 7(b) 中小女孩的風(fēng)格)仍是當(dāng)前編輯模型的局限。此外,高度抽象或模糊的指令有時(shí)仍構(gòu)成挑戰(zhàn)(例如“下圖 11 中的帶翅膀的白色動(dòng)物”以及下圖 14 中展示的多個(gè)失敗案例),這表明在神經(jīng)數(shù)據(jù)中對(duì)實(shí)體解釋和消歧的進(jìn)一步優(yōu)化仍有必要。

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

動(dòng)腦就能P圖!LoongX重磅突破:首個(gè)「腦波+AI」圖像編輯系統(tǒng)誕生,意念修圖不是夢(mèng)!-AI.x社區(qū)

結(jié)論

LoongX,這是一個(gè)通過(guò)多模態(tài)神經(jīng)信號(hào)調(diào)控?cái)U(kuò)散模型實(shí)現(xiàn)免手圖像編輯的新穎框架,其性能與傳統(tǒng)的文本驅(qū)動(dòng)基線(xiàn)相當(dāng)或更優(yōu)。展望未來(lái),無(wú)線(xiàn)設(shè)置的可移植性為沉浸式環(huán)境中的真實(shí)應(yīng)用打開(kāi)了激動(dòng)人心的可能性。未來(lái)的工作可以探索將 LoongX 集成到 VR/XR 平臺(tái)中,以實(shí)現(xiàn)直觀的認(rèn)知交互,并進(jìn)一步將神經(jīng)表示與世界模型對(duì)齊,從而將人類(lèi)意圖投射到交互式虛擬世界中,為在完全合成現(xiàn)實(shí)中的意念控制鋪平道路。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/ZGTePoLE0NrFoJzOol1MHw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 黄色小视频在线观看 | 亚洲国产小视频 | 日本三级韩国三级美三级91 | 欧美日韩国产在线播放 | 欧美性生活网站 | 神马九九| 日韩午夜在线观看 | 久久久久久爱 | 中文字幕免费看 | 天天做天天操 | 亚洲va国产va天堂va久久 | 日韩视频在线免费观看 | 亚洲大片在线观看 | 国产一区二区不卡 | 蜜桃一区二区 | 91片黄在线观看动漫 | 91久久久久久久久 | 91麻豆产精品久久久久久夏晴子 | www久久久久 | 视频一二区 | 一区二区国产精品 | 青青草原国产 | www.日本在线观看 | 蜜桃精品视频 | 午夜av免费 | 日本在线视频一区二区 | 成人xxx| 欧美mv日韩mv国产网站 | 日韩亚洲在线 | 四虎影视在线 | h片在线免费观看 | 免费午夜视频 | 成人午夜在线视频 | 一区二区精品 | 天天久久综合 | 日日不卡av | 不卡免费视频 | 激情六月婷婷 | 日韩高清不卡 | 免费在线观看av | 精品视频一区二区三区四区 |