LLM合集:Meta推出PGraphRAG框架,異構圖關系助力個性化RAG突破界限
1. Personalized Graph-Based Retrieval for Large Language Models
隨著大語言模型(LLMs)的演進,它們提供個性化和上下文相關響應的能力具有改變用戶體驗的潛力。然而,現(xiàn)有的個性化方法通常僅依賴用戶歷史來增強提示,這在冷啟動場景或數(shù)據稀疏的情況下限制了其有效性。為了克服這些限制,我們提出了一種基于圖的個性化檢索增強生成(PGraphRAG)框架,該框架利用用戶中心的知識圖來豐富個性化。通過直接將結構化的用戶知識融入檢索過程,并用相關用戶上下文增強提示,PGraphRAG增強了上下文理解和輸出質量。我們還提出了基于圖的個性化文本生成基準,旨在評估在用戶歷史稀疏或不可用的現(xiàn)實場景中的個性化文本生成任務。實驗結果表明,PGraphRAG在多種任務中顯著優(yōu)于當前最先進的個性化方法,展示了基于圖的檢索在個性化方面的獨特優(yōu)勢。
論文: ??https://arxiv.org/pdf/2501.02157??
2. BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
大語言模型(LLMs)通過分而治之的pipeline,并借助上下文學習(ICL)示例,在解決復雜數(shù)學問題方面表現(xiàn)出有前景的性能。然而,它們的改進潛力受到ICL示例中兩個關鍵問題的限制:粒度不匹配和隨之而來的負面效果噪聲問題。具體而言,大語言模型能夠進行分割過程,但在幾個征服步驟中大多由于推理不準確而失敗,而問題粒度的ICL示例有時缺乏針對特定挑戰(zhàn)性推理步驟的相關步驟。進一步,這種斷開可能由于不相關性而阻礙正確的推理。為此,我們專注于提高每一步的推理質量,并提出了BoostStep。BoostStep在每一步的檢索和推理之間對齊粒度,并為每一步提供高度相關的ICL示例,采用一種新的“首次嘗試”策略。BoostStep提供的相關示例多于粗略的問題粒度策略,逐步提高模型在每一步的推理質量。BoostStep是一種通用且穩(wěn)健的推理增強方法,不僅提高了獨立推理性能,還能無縫集成到蒙特卡洛樹搜索方法(MCTS)中,以細化候選生成和決策。定量上,BoostStep分別將GPT-4o和Qwen2.5-Math-72B在各種數(shù)學基準上的性能提高了3.6%和2.0%,并與MCTS結合使用時,性能提高了7.5%。
論文: ??https://arxiv.org/pdf/2501.03226??
3. Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
與視頻LLMs的主動實時交互帶來了新的人機交互范式,其中模型不僅能夠理解用戶意圖,還能在實時處理流式視頻內容的同時做出響應。與先分析整個視頻的離線視頻LLMs不同,主動實時交互需要三種能力:1)感知:實時監(jiān)控視頻并捕獲交互。2)決策:在適當情況下主動發(fā)起交互。3)反應:持續(xù)與用戶交互。然而,這些期望的能力之間存在固有的沖突。決策和反應需要相反的感知規(guī)模和粒度,而自回歸解碼在反應期間阻斷了實時感知和決策。為了在一個和諧的系統(tǒng)中統(tǒng)一這些沖突的能力,我們提出了Dispider系統(tǒng),該系統(tǒng)解耦了感知、決策和反應。Dispider配備了一個輕量級的主動流式視頻處理模塊,用于跟蹤視頻流并識別最佳交互時刻。一旦觸發(fā)交互,異步交互模塊將提供詳細的響應,同時處理模塊繼續(xù)監(jiān)控視頻。我們的解耦和異步設計確保了及時、上下文相關且計算效率高的響應,使Dispider非常適合長時視頻流的主動實時交互。實驗表明,Dispider不僅在常規(guī)視頻問答任務中保持了強大的性能,還在流式場景響應中顯著超越了先前的在線模型,從而驗證了我們架構的有效性。代碼和模型已發(fā)布在https://github.com/Mark12Ding/Dispider。
論文: ??https://arxiv.org/pdf/2501.03218??
4. GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking
4D視頻控制對于視頻生成是必不可少的,因為它使使用復雜的鏡頭技巧(如多機位拍攝和變焦)成為可能,而這些技巧目前現(xiàn)有的方法尚無法支持。直接訓練一個視頻擴散transformer(DiT)來控制4D內容需要昂貴的多視角視頻。受到單目動態(tài)新穎視圖合成(MDVS)的啟發(fā),該方法優(yōu)化4D表示并根據不同的4D元素(如相機姿態(tài)和物體運動編輯)渲染視頻,我們提出了偽4D高斯場到視頻生成中。具體地,我們提出了一種新的框架,該框架使用密集的3D點跟蹤技術構建偽4D高斯場,并為所有視頻幀渲染高斯場。然后,我們微調預訓練的DiT以生成遵循渲染視頻指導的視頻,稱為GS-DiT。為了提高GS-DiT的訓練效率,我們還提出了一種高效的偽4D高斯場構建方法——密集3D點跟蹤(D3D-PT)。我們的D3D-PT在準確性和推理速度上均優(yōu)于當前最先進的稀疏3D點跟蹤方法SpatialTracker,加速推理速度兩個數(shù)量級。在推理階段,GS-DiT可以在遵循不同相機參數(shù)的同時生成具有相同動態(tài)內容的視頻,解決了當前視頻生成模型的一個重要局限性。
論文: ???https://arxiv.org/pdf/2501.02690??
本文轉載自??AI-PaperDaily??,作者: AI-PaperDaily ????
