今天分享一篇來自NVIDIA的研究論文,標題為《ProRL:ProlongedReinforcementLearningExpandsReasoningBoundariesinLargeLanguageModels》(ProRL:長時間強化學習拓展大型語言模型的推理邊界)。這篇文章探討了強化學習(RL)是否真正能拓展LLM推理上限?還是僅僅優化了其基礎模型中已有的高獎勵輸出的采樣效率,以及持續擴展RL計算是否能可靠地提高推理性能。作者通過引入ProRL(ProlongedReinforcementLearning)訓練方法,證...
今天分享一篇上海人工智能實驗室的文章,標題為DOLPHIN:MovingTowardsClosedloopAutoresearchthroughThinking,Practice,andFeedback(DOLPHIN:通過思考、實踐和反饋邁向閉環自動化研究)。這篇文章介紹了一個名為DOLPHIN的閉環、LLM驅動的框架,旨在提升科學研究的自動化水平。該框架模擬人類研究過程,通過迭代循環進行思考(想法產生)、實踐(實驗驗證)和反饋(結果分析)。DOLPHIN的方法主要包括三個關鍵階段:1)想法產生:...
2025-06-13 06:42:33 731瀏覽 0點贊 0回復 0收藏
今天分享一篇來自HarvardUniversity和KempnerInstitute的文章,標題為EchoChamber:RLPosttrainingAmplifiesBehaviorsLearnedinPretraining(RL后訓練放大預訓練中學到的行為)。這篇文章旨在系統性地研究強化學習(RL)微調對語言模型行為的影響,特別是其與預訓練數據組成、超參數和模型規模的相互作用。該研究通過從頭開始訓練模型,并使用完全公開的數據集混合物進行預訓練和RL微調,揭示了RL微調如何放大預訓練數據中的特定模...
2025-05-30 06:03:16 981瀏覽 0點贊 0回復 0收藏
從1920年的小說《R.U.R》到《鋼鐵俠》中的JARVIS,在過去的一個世紀里,人們一直夢想著構建能夠自動化日常工作的DigitalAgents(數字代理)。如今,隨著視覺語言模型(VLMs)的蓬勃發展,構建這樣的Agents成為了可能。11AgentforGUIControl想要構建一個有效的ComputerUseAgents,其必須擁有兩個能力:(1)Planning能力,即規劃Computeruse任務的能力,能將用戶給定的(高階)指令分步劃分為多個子目標(2)Action能力,即根據...
2025-05-19 01:59:53 686瀏覽 0點贊 0回復 0收藏
大家好,我是HxShine今天分享一篇來自清華的文章,標題為:“DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel”(強化學習真的能激勵大型語言模型(LLM)產生超越基礎模型本身的推理能力嗎?)。這篇文章研究的問題:可驗證獎勵的強化學習(RLVR)真能夠使LLM持續自我改進,獲得超越其對應基礎模型的新推理能力嗎?(即強化學習能提高base基座模型的天花板嗎?)。研究者通過使用passk指標(...
2025-05-06 07:12:18 927瀏覽 0點贊 0回復 0收藏
今天分享一篇來自清華大學和上海人工智能實驗室的文章,標題為TTRL:TestTimeReinforcementLearning(測試時強化學習)。這篇文章探討了一個重要且具有挑戰性的問題:如何在沒有顯式標簽(groundtruth)的情況下,利用強化學習(RL)在測試階段提升大型語言模型(LLM)在推理任務上的性能。核心挑戰在于測試時無法獲得真實的獎勵信號。研究者們發現,像多數投票(majorityvoting)這類在測試時擴展(TestTimeScaling,TTS)中常用...
2025-05-06 07:09:42 1323瀏覽 0點贊 0回復 0收藏
大家好,我是HxShine今天分享一篇香港科技大學、DeepSeekAI和上海交通大學聯合發表的文章,標題為:CODEIO:CondensingReasoningPatternsviaCodeInputOutputPrediction(CODEIO:通過代碼輸入輸出預測濃縮推理模式)。這篇文章提出了一種名為CODEIO的新方法,旨在通過代碼輸入輸出預測來提煉和濃縮代碼中蘊含的多種推理模式,從而提升大語言模型(LLMs)的推理能力。該方法的核心思想是將代碼轉換為一種輸入輸出預測任務,讓模型...
2025-04-21 07:29:26 1031瀏覽 0點贊 0回復 0收藏
什么是AgentR1AgentR1是由中科大認知智能全國重點實驗室開發的智能體強化學習訓練框架,致力于推進強化學習與智能體技術的融合發展。框架采用端到端強化學習方法,突破了依賴人工設計工作流的傳統智能體開發瓶頸,讓AI直接從與環境的交互中學習最優策略,實現自主決策與行動。開發者只需定義特定領域的工具和獎勵函數,即可將AgentR1擴展到各種應用場景,無需編寫復雜的工作流程。背景隨著大型語言模型(LLM)技術的快速發展,智...
2025-04-09 06:29:20 1517瀏覽 0點贊 0回復 0收藏
今天分享一篇伊利諾伊大學的文章,標題為:SearchR1:TrainingLLMstoReasonandLeverageSearchEngineswithReinforcementLearning(SearchR1:利用強化學習訓練LLM進行推理并利用搜索引擎)。這篇文章是關于如何訓練大型語言模型(LLMs)有效地利用搜索引擎來增強其推理和文本生成能力。論文提出了一個名為SEARCHR1的框架,該框架僅僅通過強化學習(RL)讓LLM學習如何在逐步推理過程中自主生成搜索查詢并與實時檢索交互。該方法特...
2025-03-27 00:09:53 1895瀏覽 0點贊 0回復 0收藏
今天分享一篇西湖大學張岳老師的一篇利用合成推理數據做論文評審文章,Title:DeepReview:ImprovingLLMbasedPaperReviewwithHumanlikeDeepThinkingProcess:通過合成類人深度思考過程改進基于LLM的論文評審效果。這篇文章探索了如何利用大型語言模型(LLM)來改進論文評審過程,提出了一個多階段框架DeepReview,通過結合結構化分析、文獻檢索和基于證據的論證,模擬專家評審員的深度思考過程,從而提高LLM在論文評審中的可靠性...
2025-03-14 00:48:05 2851瀏覽 0點贊 0回復 0收藏
一、概述title:YouTrulyUnderstandWhatINeed:IntellectualandFriendlyDialogueAgentsgroundingKnowledgeandPersona論文地址:https:aclanthology.org2022.findingsemnlp.75代碼地址:https:github.comdlawjddn803INFO1.1Motivation以前的研究將知識或個人資料混合融入預先訓練的語言模型。其同時考慮知識和人物角色的能力仍然是有限的,導致生成結果出現幻覺,并且使用人物角色的方法也很被動。1.2Methods提出一種有效的agent...
2025-03-04 10:28:34 2201瀏覽 0點贊 0回復 0收藏
今天分享一篇來自上海人工智能實驗室、清華大學、哈爾濱工業大學和北京郵電大學聯合的一篇文章,標題是:Can1BLLMSurpass405BLLMRethinkingComputeOptimalTestTimeScaling(1B的LLM能否超越405B的LLM?重新思考計算最優的測試時縮放)。這篇文章研究了大型語言模型(LLMs)在「推理階段通過增加計算量來提高性能的測試時縮放」(TestTimeScaling,TTS)方法。作者們「系統地分析了策略模型、過程獎勵模型(PRMs)和問題難度如何...
2025-02-24 11:01:35 2176瀏覽 0點贊 0回復 0收藏
今天分享DeepSeekR1,Title:DeepSeekR1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning:通過強化學習激勵LLM的推理能力。這篇文章介紹了DeepSeek的第一代推理模型DeepSeekR1Zero和DeepSeekR1。DeepSeekR1Zero模型通過大規模強化學習(RL)訓練,沒有監督微調(SFT)作為初步步驟,展示了RL的潛力及其帶來的卓越的推理能力。通過強化學習,DeepSeekR1Zero自然而然地涌現出許多強大而有趣的推理行為。為了進一步優...
2025-02-14 13:29:37 3622瀏覽 0點贊 0回復 0收藏
?還在為大模型推理速度慢、成本高而煩惱嗎?這篇來自CMU和清華大學的論文給你帶來了一個顛覆性的解決方案!他們發現,在推理大型語言模型時,“大力出奇跡”不再是真理!通過深入研究推理過程中的計算與性能關系,他們提出了“推理縮放定律”,并革命性地推出了一種名為REBASE的全新算法。REBASE就像一位聰明的向導,能夠巧妙地利用獎勵信號,指引模型在推理的迷宮中高效探索,避免了傳統方法中耗時費力的盲目搜索。實驗結果令...
2025-02-06 14:25:07 2329瀏覽 0點贊 0回復 0收藏
大家好,我是HxShine今天分享一篇來自清華的一篇利用Agent合成數據的文章,標題為《AgentHospital:ASimulacrumofHospitalwithEvolvableMedicalAgents》。這篇文章介紹了一種名為AgentHospital的仿醫院模擬系統,該系統中患者、護士和醫生都是由LLM驅動。文章的核心目標是使醫生Agent能夠在模擬環境中學習如何治療疾病,從而驗證社會模擬過程是否可以提高LLMAgent在特定任務上的性能。實驗表明,隨著在模擬過程中積累的樣本越來...
2025-01-22 12:26:56 2819瀏覽 0點贊 0回復 0收藏
今天分享一篇阿里的利用Agent思想做工具調用的文章,標題為《SmallLLMsAreWeakToolLearners:AMultiLLMAgent》。其提出的多LLM代理微調框架,將工具調用拆解為三個agent(Planner、Caller、Summarizer),并結合一個二階段的微調策略。對比單個LLM表現更為出色,性能也更為穩定,并且能夠超過像ChatGPT、GPT4等閉源模型,證明了多agent思路在工具調用上的有效性。除了工具調用,或許本文的方法也可以拓展到問答的其他場景,大家...
2025-01-13 11:02:04 2927瀏覽 0點贊 0回復 0收藏
今天分享一篇來自南陽理工的一篇文章《LargeLanguageModelsforAutomatedOpendomainScientificHypothesesDiscovery》。本研究的目標是探索如何使用大型語言模型,尤其是GPT4,來自動發現科學假設。目前假設性歸納研究的局限性在于使用的數據不是原始網絡語料庫,而是手動選擇后的句子,導致了來源較為封閉;同時,現有的假設標注大多是常識性知識,任務挑戰性不足。本文提出了首個針對社會科學學術假設發現的自然語言處理(NLP)...
2025-01-03 12:34:30 2737瀏覽 0點贊 0回復 0收藏
還在為大模型推理速度慢、成本高而煩惱嗎?這篇來自CMU和清華大學的論文給你帶來了一個顛覆性的解決方案!他們發現,在推理大型語言模型時,“大力出奇跡”不再是真理!通過深入研究推理過程中的計算與性能關系,他們提出了“推理縮放定律”,并革命性地推出了一種名為REBASE的全新算法。REBASE就像一位聰明的向導,能夠巧妙地利用獎勵信號,指引模型在推理的迷宮中高效探索,避免了傳統方法中耗時費力的盲目搜索。實驗結果令人...
2024-12-25 11:42:25 3103瀏覽 0點贊 0回復 0收藏
?大家好,我是HxShine。今天分享一篇普林斯頓大學和GoogleResearch,BrainTeam合作的一篇文章,REACT:SYNERGIZINGREASONINGANDACTINGINLANGUAGEMODELS[1]:在語言模型中協同Reasoning推理和Action行動。其在大語言模型中將Thought推理過程和Action行動結合,一方面可以通過Action從外部獲取額外信息,另一方面可以通過Thought過程,細化任務,搜索有用信息,過濾無用信息,從而來提高大模型的表現。一、概述Title:REACT:SYNERG...
2024-12-17 12:15:45 4834瀏覽 0點贊 0回復 0收藏
最近被Sora刷屏,今天結合OpenAISora的技術報告Videogenerationmodelsasworldsimulators來看下Sora具備哪些能力,以及這些能力是怎么來的。功能上除了文生圖,還支持以圖片、視頻作為prompt,極大拓展使用場景。技術上,利用spacetimepatches,統一了時空分割語言,為后續模型訓練以及使用場景的拓展打下基礎。數據側在準備高質量的caption數據做了專門的優化。另外模型基礎架構采用DiffusionTransformer,通過Scalling,顯著提...
2024-12-12 11:37:49 2909瀏覽 0點贊 0回復 0收藏