摘要獎(jiǎng)勵(lì)反饋學(xué)習(xí)(ReFL)最近在各種生成任務(wù)中展現(xiàn)出了巨大的潛力,能夠使模型輸出與人類(lèi)偏好保持一致。在這項(xiàng)工作中,我們首次將ReFL框架引入盲臉修復(fù)任務(wù),稱(chēng)之為DiffusionReward。DiffusionReward有效地克服了基于擴(kuò)散的方法的局限性,這些方法通常無(wú)法生成逼真的面部細(xì)節(jié),并且身份一致性較差。我們框架的核心是面部獎(jiǎng)勵(lì)模型(FRM),它使用精心注釋的數(shù)據(jù)進(jìn)行訓(xùn)練。FRM提供反饋信號(hào),在指導(dǎo)修復(fù)網(wǎng)絡(luò)的優(yōu)化過(guò)程中起著關(guān)鍵...
2025-05-30 06:37:39 709瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要交錯(cuò)多模態(tài)理解與生成能力——使模型能夠以任意順序生成和解釋圖像與文本——已成為多模態(tài)學(xué)習(xí)的關(guān)鍵領(lǐng)域。盡管已有顯著進(jìn)展,但對(duì)這一能力的評(píng)估仍顯不足。現(xiàn)有基準(zhǔn)在數(shù)據(jù)規(guī)模、范圍和評(píng)估深度上存在局限,而當(dāng)前評(píng)估指標(biāo)往往成本高昂或帶有偏見(jiàn),在實(shí)際應(yīng)用中缺乏可靠性。為應(yīng)對(duì)這些挑戰(zhàn),我們推出MMIE,這是一個(gè)大規(guī)模知識(shí)密集型基準(zhǔn),用于評(píng)估大型視覺(jué)語(yǔ)言模型(LVLMs)的交錯(cuò)多模態(tài)理解與生成能力。MMIE包含20,000個(gè)精...
2025-05-29 06:32:07 528瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要檢索增強(qiáng)生成(RAG)在增強(qiáng)語(yǔ)言模型知識(shí)和減少AI生成幻覺(jué)方面表現(xiàn)出強(qiáng)大能力,推動(dòng)了其廣泛應(yīng)用。然而,需要多輪檢索的復(fù)雜任務(wù)仍然具有挑戰(zhàn)性,早期嘗試往往過(guò)于樂(lè)觀,缺乏良好的自我懷疑意識(shí)。當(dāng)前的多輪RAG系統(tǒng)可能在已經(jīng)檢索到足夠信息時(shí)繼續(xù)搜索,或者在沒(méi)有足夠信息或知識(shí)時(shí)提供錯(cuò)誤答案?,F(xiàn)有解決方案要么需要大量昂貴的人工標(biāo)注過(guò)程監(jiān)督數(shù)據(jù),要么導(dǎo)致性能不佳。本文旨在通過(guò)引入新框架SIMRAG來(lái)解決這些限制,明確...
2025-05-27 06:44:36 474瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要我們提出了一種原則性且高效的一步生成模型框架。我們引入了平均速度的概念來(lái)表征流場(chǎng),這與流匹配方法中建模的瞬時(shí)速度形成對(duì)比。我們推導(dǎo)出了平均速度與瞬時(shí)速度之間的明確關(guān)系,并用其指導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練。我們的方法,稱(chēng)為均值流模型,是自包含的,無(wú)需預(yù)訓(xùn)練、蒸餾或課程學(xué)習(xí)。均值流模型展示了強(qiáng)大的實(shí)證性能:在ImageNet256×256上從頭訓(xùn)練,僅用一次函數(shù)評(píng)估(1NFE)即可達(dá)到3.43的FréchetInceptionDistance(FID)...
2025-05-23 06:27:30 929瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片圖1.我們提出了MonetGPT,這是一種感知圖像操作的多模態(tài)大語(yǔ)言模型(MLLM),可自動(dòng)為圖像修圖提供建議。給定一張照片(左圖),MonetGPT會(huì)對(duì)其進(jìn)行分析,識(shí)別出一系列問(wèn)題和可能的修復(fù)調(diào)整。然后,解決方案步驟會(huì)根據(jù)給定的操作庫(kù),轉(zhuǎn)化為一組程序操作以及相應(yīng)的參數(shù)設(shè)置,這一過(guò)程分為三個(gè)階段。(我們訓(xùn)練MLLM所使用的視覺(jué)謎題此處未展示。)摘要修圖是原始照片后期處理中的一項(xiàng)基本任務(wù)。由文本或筆觸引導(dǎo)的生成式編輯...
2025-05-22 09:34:21 1632瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要擴(kuò)散Transformer(DiT)作為一種前景廣闊的視覺(jué)生成擴(kuò)散模型,展現(xiàn)出了令人矚目的性能,但同時(shí)也帶來(lái)了巨大的計(jì)算開(kāi)銷(xiāo)。有趣的是,對(duì)預(yù)訓(xùn)練DiT模型的分析表明,全局自注意力往往存在冗余,主要捕捉局部模式,這凸顯了尋找更高效替代方案的潛力。在本文中,我們重新審視卷積,將其作為構(gòu)建高效且富有表現(xiàn)力的擴(kuò)散模型的替代構(gòu)建塊。然而,直接用卷積替換自注意力通常會(huì)導(dǎo)致性能下降。我們的研究發(fā)現(xiàn),這種性能差距歸因于卷積...
2025-05-21 08:33:54 1370瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要組合式零樣本學(xué)習(xí)(CZSL)旨在通過(guò)利用已知組合來(lái)識(shí)別未見(jiàn)的狀態(tài)對(duì)象組合?,F(xiàn)有研究基本依賴(lài)CLIP的跨模態(tài)對(duì)齊能力,但往往忽略了其在捕捉細(xì)粒度局部特征方面的局限性,這些局限性源于其架構(gòu)和訓(xùn)練范式。為解決這一問(wèn)題,我們提出了一種多階段跨模態(tài)交互(MSCI)模型,該模型有效探索和利用CLIP視覺(jué)編碼器的中間層信息。具體而言,我們?cè)O(shè)計(jì)了兩個(gè)自適應(yīng)聚合器,分別從低層視覺(jué)特征中提取局部信息和從高層視覺(jué)特征中整合全局...
2025-05-21 06:45:57 827瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要2022年,隨著ChatGPT的發(fā)布,大規(guī)模語(yǔ)言模型受到了廣泛關(guān)注。ChatGPT不僅在參數(shù)量和預(yù)訓(xùn)練語(yǔ)料庫(kù)規(guī)模上遠(yuǎn)超前代模型,還通過(guò)大量高質(zhì)量的人工標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),實(shí)現(xiàn)了革命性的性能突破。此類(lèi)進(jìn)展使得企業(yè)和研究機(jī)構(gòu)認(rèn)識(shí)到,構(gòu)建更智能、更強(qiáng)大的模型依賴(lài)于豐富且高質(zhì)量的數(shù)據(jù)集。因此,數(shù)據(jù)集的建設(shè)與優(yōu)化成為人工智能領(lǐng)域的關(guān)鍵方向。本文對(duì)訓(xùn)練大規(guī)模語(yǔ)言模型所需的預(yù)訓(xùn)練數(shù)據(jù)和微調(diào)數(shù)據(jù)的現(xiàn)狀進(jìn)行了總結(jié),涵蓋了數(shù)據(jù)規(guī)...
2025-05-20 06:34:03 1932瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要盡管下一令牌預(yù)測(cè)被視為通往通用人工智能的一條有前途的道路,但它在多模態(tài)任務(wù)中一直難以取得優(yōu)異成績(jī),目前多模態(tài)任務(wù)仍由擴(kuò)散模型(如StableDiffusion)和組合方法(如CLIP與大語(yǔ)言模型相結(jié)合)主導(dǎo)。在本文中,我們介紹Emu3,這是一套全新的最先進(jìn)的多模態(tài)模型,僅通過(guò)下一令牌預(yù)測(cè)進(jìn)行訓(xùn)練。通過(guò)將圖像、文本和視頻標(biāo)記化到離散空間中,我們?cè)诙嗄B(tài)序列的混合數(shù)據(jù)上從頭開(kāi)始訓(xùn)練一個(gè)單一的Transformer。Emu3在生成和...
2025-05-19 09:19:09 750瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要VILAU是一個(gè)統(tǒng)一基礎(chǔ)模型,融合了視頻、圖像和語(yǔ)言的理解與生成能力。傳統(tǒng)的視覺(jué)語(yǔ)言模型(VLMs)在處理視覺(jué)內(nèi)容的理解和生成任務(wù)時(shí),使用獨(dú)立的模塊,這可能導(dǎo)致模塊間的不協(xié)調(diào)和模型復(fù)雜度的增加。相比之下,VILAU采用單一的自回歸下一個(gè)標(biāo)記預(yù)測(cè)框架來(lái)處理這兩項(xiàng)任務(wù),避免了使用如擴(kuò)散模型等額外組件的需求。這種方法不僅簡(jiǎn)化了模型結(jié)構(gòu),還在視覺(jué)語(yǔ)言理解和生成任務(wù)中取得了接近當(dāng)前最優(yōu)水平的性能。VILAU的成功主要?dú)w...
2025-05-19 09:12:20 903瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要許多現(xiàn)實(shí)世界中的用戶(hù)查詢(xún)(例如,“如何制作蛋炒飯?”)都能從能夠同時(shí)生成文本步驟和配套圖像的系統(tǒng)中受益,就像烹飪食譜一樣。旨在生成交錯(cuò)文本和圖像的模型在確保這些模態(tài)內(nèi)部和之間的一致性方面面臨挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出了ISG,這是一個(gè)用于交錯(cuò)文本圖像生成的綜合評(píng)估框架。ISG利用場(chǎng)景圖結(jié)構(gòu)來(lái)捕捉文本和圖像塊之間的關(guān)系,在四個(gè)粒度級(jí)別上評(píng)估生成的結(jié)果:整體、結(jié)構(gòu)、塊級(jí)別和圖像特定級(jí)別。這種多...
2025-05-19 09:06:08 582瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大型語(yǔ)言模型(LLM)的性能在很大程度上取決于其預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量和規(guī)模。然而,像Llama3和Mixtral這樣的前沿開(kāi)源大語(yǔ)言模型的預(yù)訓(xùn)練數(shù)據(jù)集并未公開(kāi),人們對(duì)其創(chuàng)建方式也知之甚少。最近,我們發(fā)布了FineWeb,這是一個(gè)全新的大規(guī)模(包含15萬(wàn)億詞元,占用44TB磁盤(pán)空間)大語(yǔ)言模型預(yù)訓(xùn)練數(shù)據(jù)集。FineWeb源自96個(gè)CommonCrawl快照,與其他開(kāi)源預(yù)訓(xùn)練數(shù)據(jù)集相比,使用它訓(xùn)練出的大語(yǔ)言模型性能更優(yōu)。為了讓機(jī)器學(xué)習(xí)領(lǐng)域更加透明,...
2025-05-15 06:34:41 4028瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?摘要:?jiǎn)栴}求解一直是人類(lèi)在眾多領(lǐng)域取得進(jìn)步的根本驅(qū)動(dòng)力。隨著人工智能的發(fā)展,大語(yǔ)言模型(LLMs)已成為能夠解決跨多個(gè)領(lǐng)域復(fù)雜問(wèn)題的強(qiáng)大工具。與傳統(tǒng)計(jì)算系統(tǒng)不同,大語(yǔ)言模型將原始計(jì)算能力與近似人類(lèi)推理能力相結(jié)合,使其能夠生成解決方案、進(jìn)行推理,甚至利用外部計(jì)算工具。然而,將大語(yǔ)言模型應(yīng)用于實(shí)際問(wèn)題求解面臨重大挑戰(zhàn),包括多步推理、領(lǐng)域知識(shí)整合和結(jié)果驗(yàn)證。本綜述探討了大語(yǔ)言模型在復(fù)雜問(wèn)題求解中的能力...
2025-05-14 10:05:43 873瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要檢索增強(qiáng)生成(RAG)通過(guò)將模型響應(yīng)與查詢(xún)相關(guān)的外部知識(shí)相結(jié)合,在提高事實(shí)準(zhǔn)確性方面展現(xiàn)出巨大潛力。然而,大多數(shù)現(xiàn)有的RAG方法僅限于純文本語(yǔ)料庫(kù)。盡管最近的研究努力將RAG擴(kuò)展到圖像和視頻等其他模態(tài),但它們通常僅在單一模態(tài)特定的語(yǔ)料庫(kù)上運(yùn)行。相比之下,現(xiàn)實(shí)世界中的查詢(xún)對(duì)知識(shí)類(lèi)型的需求差異很大,單一類(lèi)型的知識(shí)源無(wú)法滿(mǎn)足這些需求。為了解決這一問(wèn)題,我們引入了通用檢索增強(qiáng)生成(UniversalRAG),這是一種新...
2025-05-14 10:00:07 1345瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要目前構(gòu)建多模態(tài)大語(yǔ)言模型(MLLMs)的高效方法,主要是通過(guò)簡(jiǎn)單的視覺(jué)映射網(wǎng)絡(luò),如線性投影層、多層感知器(MLP)或BLIP2中的QFormer,將視覺(jué)信息融入大語(yǔ)言模型(LLMs)。這類(lèi)網(wǎng)絡(luò)僅對(duì)圖像特征進(jìn)行一次投影,并未考慮圖像與人類(lèi)輸入之間的交互。因此,獲取的視覺(jué)信息可能與人類(lèi)意圖脫節(jié),無(wú)法滿(mǎn)足大語(yǔ)言模型生成符合意圖的回復(fù),這種信息可稱(chēng)為靜態(tài)視覺(jué)信息。為緩解該問(wèn)題,本文引入LMEye,這是一種類(lèi)似人眼的可插拔交互式...
2025-05-12 09:19:28 664瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要大型語(yǔ)言模型(LLMs)的快速發(fā)展催化了視覺(jué)語(yǔ)言模型(VLMs)的發(fā)展。整體VLMs避免了模態(tài)特定的編碼器,提供了一種有希望的替代方案,但面臨著性能較差的挑戰(zhàn)。大多數(shù)現(xiàn)有的整體VLMs需要調(diào)整預(yù)訓(xùn)練的LLMs以獲得視覺(jué)能力,這可能會(huì)降低它們處理語(yǔ)言的能力。為了解決這一困境,本文提出了一種新的高性能整體VLM,名為HoVLE。我們注意到,當(dāng)圖像嵌入與文本嵌入對(duì)齊時(shí),LLMs已被證明能夠解釋圖像。當(dāng)前整體VLMs的挑戰(zhàn)實(shí)際上在于...
2025-05-12 09:12:44 532瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要基于指令的圖像編輯能夠通過(guò)自然語(yǔ)言提示實(shí)現(xiàn)強(qiáng)大的圖像修改,但當(dāng)前的方法面臨著精度和效率之間的權(quán)衡。微調(diào)方法需要大量的計(jì)算資源和大規(guī)模數(shù)據(jù)集,而免訓(xùn)練技術(shù)在指令理解和編輯質(zhì)量方面存在困難。我們利用大規(guī)模擴(kuò)散變換器(DiT)增強(qiáng)的生成能力和固有的上下文感知來(lái)解決這一困境。我們的解決方案有三個(gè)貢獻(xiàn):(1)一種基于上下文提示的零樣本指令遵從的上下文編輯框架,避免了結(jié)構(gòu)變化;(2)一種LoRAMoE混合調(diào)優(yōu)策略...
2025-05-12 09:06:37 1216瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要6G無(wú)線通信旨在構(gòu)建一個(gè)無(wú)處不在的智能互聯(lián)世界,提供前所未有的通信體驗(yàn)。與傳統(tǒng)人工智能(AI)模型相比,大語(yǔ)言模型(LAM)的顯著特點(diǎn)是規(guī)模巨大(例如,擁有數(shù)十億甚至數(shù)萬(wàn)億個(gè)參數(shù))。大語(yǔ)言模型展現(xiàn)出卓越的認(rèn)知能力,包括對(duì)下游任務(wù)進(jìn)行微調(diào)的強(qiáng)大泛化能力,以及處理訓(xùn)練過(guò)程中未遇到任務(wù)的涌現(xiàn)能力。因此,大語(yǔ)言模型能夠有效地為各種通信應(yīng)用提供人工智能服務(wù),成為應(yīng)對(duì)未來(lái)無(wú)線通信系統(tǒng)中復(fù)雜挑戰(zhàn)的關(guān)鍵工具。本研...
2025-05-09 06:33:41 2455瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要現(xiàn)有的感知模型通過(guò)從大量標(biāo)記數(shù)據(jù)中學(xué)習(xí)取得了巨大成功,但在開(kāi)放世界場(chǎng)景中仍存在困難。為緩解這一問(wèn)題,研究人員引入開(kāi)放集感知任務(wù),以檢測(cè)或分割訓(xùn)練集中未見(jiàn)過(guò)的對(duì)象。然而,這些模型在推理時(shí)需要預(yù)定義的對(duì)象類(lèi)別作為輸入,而在現(xiàn)實(shí)場(chǎng)景中無(wú)法獲取這些類(lèi)別。最近,研究人員提出了一個(gè)新的、更實(shí)際的問(wèn)題,即開(kāi)放式目標(biāo)檢測(cè),它在沒(méi)有任何對(duì)象類(lèi)別作為輸入的情況下發(fā)現(xiàn)未見(jiàn)對(duì)象。在本文中,我們提出VLSAM,這是一個(gè)免...
2025-05-09 06:33:00 1423瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要最近,DeepSeekR1表明,強(qiáng)化學(xué)習(xí)(RL)可以通過(guò)一種簡(jiǎn)單而有效的設(shè)計(jì),大幅提升大語(yǔ)言模型(LLMs)的推理能力。R1的核心在于其基于規(guī)則的獎(jiǎng)勵(lì)公式,它利用具有確定性正確答案的任務(wù),實(shí)現(xiàn)精確且穩(wěn)定的獎(jiǎng)勵(lì)計(jì)算。在視覺(jué)領(lǐng)域,我們同樣觀察到,許多視覺(jué)理解任務(wù)本質(zhì)上都配備了定義明確的真實(shí)標(biāo)注。這一特性使它們自然地與基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制兼容。受此啟發(fā),我們研究將R1風(fēng)格的強(qiáng)化學(xué)習(xí)擴(kuò)展到視覺(jué)語(yǔ)言模型(VLMs)中,旨在提...
2025-05-07 07:01:29 1409瀏覽 0點(diǎn)贊 0回復(fù) 0收藏