ImprovedIterativeRefinementforCharttoCodeGenerationviaStructuredInstruction20250615|SJTU,ShanghaiInno,LehighU,BIGAI,BIGAI??8??http:arxiv.orgabs2506.14837v1??????https:huggingface.copapers2506.14837??研究背景與意義問題定義與現(xiàn)狀概述多模態(tài)大語言模型(MLLMs)在視覺理解領域表現(xiàn)卓越,但在圖表到代碼生成任務中仍存在明顯不足。該任務不僅要求模型精準理解高密度、多維度的圖表信息,還需將其準確轉...
REIMAGINE:SymbolicBenchmarkSynthesisforReasoningEvaluation20250618|MSRCUK,MicrosoftResearchIndia|ICML2025??2??http:arxiv.orgabs2506.15455v1??????https:huggingface.copapers2506.15455??研究背景與意義問題定義與現(xiàn)狀當前大型語言模型(LLMs)在多種推理基準測試中表現(xiàn)出較高準確率,但仍存在爭議,即這些結果是否源自真正的推理能力,還是僅僅是訓練數(shù)據(jù)的統(tǒng)計記憶。推理作為一種認知過程,涉及基于事實...
RoboRefer:TowardsSpatialReferringwithReasoninginVisionLanguageModelsforRobotics20250604|BUAA,PKU,BAAI??32??http:arxiv.orgabs2506.04308v1??????https:huggingface.copapers2506.04308??????https:zhoues.github.ioRoboRefer??研究背景與意義問題定義與現(xiàn)狀空間指稱是機器人理解并與三維物理世界交互的基礎能力。盡管現(xiàn)有預訓練視覺語言模型(VLMs)在二維視覺任務上表現(xiàn)優(yōu)異,但它們在復雜三維場景的...
2025-06-09 22:40:39 478瀏覽 0點贊 0回復 0收藏
Perception,Reason,Think,andPlan:ASurveyonLargeMultimodalReasoningModels20250508|HIT,Shenzhen??79??http:arxiv.orgabs2505.04921v1??????https:huggingface.copapers2505.04921??????https:github.comHITszTMGAwesomeLargeMultimodalReasoningModels??研究背景與意義智能推理的核心地位:推理作為智能行為的核心,賦予人工智能系統(tǒng)在多變、不確定及多模態(tài)環(huán)境中做出決策、歸納總結及跨領域泛化的能力。隨...
2025-05-13 07:32:02 1124瀏覽 0點贊 0回復 0收藏
BreakingtheModalityBarrier:UniversalEmbeddingLearningwithMultimodalLLMs20250424|USYD,DeepGlint,AlibabaGroup,ICL(Imperial)??28??http:arxiv.orgabs2504.17432v1??????https:huggingface.copapers2504.17432??????https:garygutc.github.ioUniME??研究背景與意義背景概述:當前多模態(tài)表示學習領域,CLIP框架因其跨模態(tài)對比學習能力被廣泛采用,尤其在圖文檢索和聚類任務中表現(xiàn)突出。然而,CLIP存在文本...
2025-04-27 23:54:18 882瀏覽 0點贊 0回復 0收藏
Step1XEdit:APracticalFrameworkforGeneralImageEditing20250424|StepFun,??55???http:arxiv.orgabs2504.17761v1????????https:huggingface.copapers2504.17761????????https:github.comstepfunaiStep1XEdit???研究背景與意義領域現(xiàn)狀與挑戰(zhàn)近年來,圖像編輯技術迅速發(fā)展,尤其是在多模態(tài)大模型(如GPT4o、Gemini2Flash)推動下,實現(xiàn)了基于自然語言的高質量圖像編輯。這些閉源模型在理解復雜編輯指令和...
2025-04-27 23:39:05 980瀏覽 0點贊 0回復 0收藏
Seaweed7B:CostEffectiveTrainingofVideoGenerationFoundationModel20250411|ByteDance,ByteDanceSeed??83??http:arxiv.orgabs2504.08685v1??????https:huggingface.copapers2504.08685??????https:seaweed.video??研究背景與意義Seaweed7B是一種中等規(guī)模的視頻生成基礎模型,參數(shù)量約為70億。該研究的核心目標是探索一種成本高效的訓練策略,在計算資源有限的情況下實現(xiàn)與大規(guī)模模型相媲美的性能。視頻生成領...
2025-04-16 06:42:44 1152瀏覽 0點贊 0回復 0收藏
TextCrafter:AccuratelyRenderingMultipleTextsinComplexVisualScenes20250330|NJU,ChinaMobile,HKUST??61???http:arxiv.orgabs2503.23461v2????????https:huggingface.copapers2503.23461????????https:github.comNJUPCALabTextCrafter.git???研究背景與意義復雜視覺文本生成(CVTG)任務近年來受到廣泛關注,其核心挑戰(zhàn)在于如何在圖像的不同區(qū)域生成精確、清晰且上下文一致的文本內容。現(xiàn)有模型如FLUX...
2025-04-03 00:24:46 1284瀏覽 0點贊 0回復 0收藏
TokenHSI:UnifiedSynthesisofPhysicalHumanSceneInteractionsthroughTaskTokenization20250325|ShanghaiAILab,HKU,IndependentResearcher,SEU,FeelingAI|CVPR2025??14???http:arxiv.orgabs2503.19901v1????????https:huggingface.copapers2503.19901????????https:liangpan99.github.ioTokenHSI???研究背景與意義TokenHSI旨在解決當前物理角色控制方法中普遍存在的局限性,即無法有效整合多種復雜的人...
2025-04-03 00:22:01 1633瀏覽 0點贊 0回復 0收藏
EfficientPersonalizationofQuantizedDiffusionModelwithoutBackpropagation20250319|SNU,INMC&IPAI??18???http:arxiv.orgabs2503.14868v1????????https:huggingface.copapers2503.14868????????https:ignoww.github.ioZOODiPproject???研究背景與意義當前擴散模型在圖像生成領域表現(xiàn)出色,但其訓練、微調和推理過程需要大量的計算和內存資源。盡管量化技術成功減少了推理時的內存使用,但訓練和微調這...
2025-03-24 00:57:40 1648瀏覽 0點贊 0回復 0收藏
UnifiedRewardModelforMultimodalUnderstandingandGeneration20250307|FDU,SII,ShanghaiAILab,ShanghaiAcademyofArtificialIntelligenceforScience??75??http:arxiv.orgabs2503.05236v1??????https:huggingface.copapers2503.05236??????https:codegoat24.github.ioUnifiedReward??研究背景與意義本文提出了一種名為UNIFIEDREWARD的統(tǒng)一獎勵模型,旨在解決多模態(tài)理解和生成任務中的偏好對齊問題。現(xiàn)有模型通常...
2025-03-12 00:43:35 2176瀏覽 0點贊 0回復 0收藏
SWERL:AdvancingLLMReasoningviaReinforcementLearningonOpenSoftwareEvolution20250225|MetaFAIR,UIUC,MetaGenAI,CMU??37???http:arxiv.orgabs2502.18449v1????????https:huggingface.copapers2502.18449????????https:github.comfacebookresearchswerl???研究背景與意義近年來,大型語言模型(LLMs)在軟件工程(SE)任務中的應用引起了廣泛關注。研究者們探索了LLMs在自動化復雜SE任務中的潛力,例如...
2025-02-27 12:49:30 2126瀏覽 0點贊 0回復 0收藏
OmniAlignV:TowardsEnhancedAlignmentofMLLMswithHumanPreference20250225|SJTU,ShanghaiAILab,NJU,FDU,ZJU??54???http:arxiv.orgabs2502.18411v1????????https:huggingface.copapers2502.18411????????https:github.comPhoenixZ810OmniAlignV???研究背景與意義隨著多模態(tài)大語言模型(MLLMs)的快速發(fā)展,現(xiàn)有的研究主要集中在提升模型的基礎能力,如物體識別、OCR等,而在與人類偏好對齊方面存在顯著差...
2025-02-27 12:41:10 2324瀏覽 0點贊 0回復 0收藏
研究背景與意義在當今的語言模型研究中,長上下文建模被廣泛認為是提升模型能力的關鍵。然而,傳統(tǒng)的注意力機制在處理長序列時,計算復雜度高,導致顯著的延遲和資源消耗。研究者們逐漸意識到稀疏注意力機制可能是解決這一問題的有效途徑。本文提出了一種名為“NativeSparseAttention(NSA)”的機制,旨在通過算法創(chuàng)新與硬件優(yōu)化的結合,實現(xiàn)高效的長上下文建模。研究背景長上下文建模的重要性:隨著應用需求的多樣化,長上下...
2025-02-20 10:53:48 2292瀏覽 0點贊 0回復 0收藏
研究背景與意義在當前的人工智能研究領域,視覺語言模型(VLMs)正迅速發(fā)展,特別是在大型語言模型(LLMs)和視覺模型(LVMs)取得顯著進展的背景下。本文提出的EVEv2.0模型,旨在解決現(xiàn)有編碼器驅動的VLMs在多模態(tài)理解和推理中的局限性。研究表明,現(xiàn)有的編碼器驅動方法在靈活性和適用性上存在一定挑戰(zhàn),尤其是在處理復雜的視覺信息時。因此,EVEv2.0通過引入無編碼器的設計,試圖減少視覺和語言之間的干擾,從而提升模型的整...
2025-02-12 14:30:03 2531瀏覽 0點贊 0回復 0收藏
研究背景與意義研究背景:隨著大規(guī)模語言模型(LLMs)的迅速發(fā)展,訓練這些模型所需的計算資源和帶寬需求也隨之增加。傳統(tǒng)的分布式訓練方法面臨著設備協(xié)同和通信延遲等挑戰(zhàn),這使得在數(shù)千個加速器上進行有效訓練變得復雜。研究意義:本文提出的StreamingDiLoCo方法,旨在通過放寬設備協(xié)同的要求,降低訓練過程中的帶寬需求,從而提高訓練效率。這一方法的成功實施將為分布式訓練提供新的思路,助力在有限的帶寬條件下實現(xiàn)大規(guī)模...
2025-02-04 20:45:52 2519瀏覽 0點贊 0回復 0收藏
研究背景與意義在當前的人工智能研究中,如何提升大型語言模型(LLM)的推理能力是一個重要的課題。傳統(tǒng)的推理方法往往依賴于明確的推理步驟和形式化的問題定義,但這在處理復雜的自然語言任務時顯得力不從心。本文提出了一種名為“MindEvolution”的進化搜索策略,旨在通過利用語言模型生成、重組和優(yōu)化候選答案,以應對自然語言規(guī)劃任務中的推理挑戰(zhàn)。研究的意義在于,它不僅提供了一種新的思路來提升LLM的推理深度,還展示了...
2025-01-21 12:19:26 2356瀏覽 0點贊 0回復 0收藏