成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MedSAM2: 3D醫療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環境強化學習實現深度研究

發布于 2025-4-9 06:32
瀏覽
0收藏

?今日目錄

1、 MedSAM2: 3D醫療圖像和視頻的全能分割模型

2、 DeepResearcher: 通過真實環境強化學習實現深度研究

3、 APIGen-MT: 通過模擬代理-人類互動生成高質量對話數據

4、 更大的語言模型是否意味著更好的推理能力?預訓練推理縮放規律

5、 何時求解,何時驗證:計算最優問題求解與LLM推理的生成驗證

6、 突破傳統數學批改!這個AI系統能給你的每一步解題過程打分

1、 MedSAM2: 3D醫療圖像和視頻的全能分割模型

MedSAM2: 3D醫療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環境強化學習實現深度研究-AI.x社區圖片

MedSAM2模型通過在超過45.5萬對3D圖像-掩碼對和7.6萬幀數據上微調Segment Anything Model 2,成功打造了一個可提示式分割基礎模型,在各種器官、病變和成像模式下的表現均優于現有模型。

研究團隊還實現了人機協作流程,促進大規模數據集的創建,完成了迄今最大規模的用戶研究,包括標注5,000個CT病變、3,984個肝臟MRI病變和251,550幀超聲心動圖視頻幀,證明MedSAM2可以減少超過85%的人工成本。

該模型已集成到廣泛使用的平臺中,提供用戶友好的界面,支持本地和云部署,成為研究和醫療環境中支持高效、可擴展和高質量分割的實用工具。

論文標題:MedSAM2: Segment Anything in 3D Medical Images and Videos

論文鏈接:https://arxiv.org/abs/2504.03600?

2、 DeepResearcher: 通過真實環境強化學習實現深度研究

MedSAM2: 3D醫療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環境強化學習實現深度研究-AI.x社區圖片

這是一篇結合搜索引擎和LLM的新論文,完全基于GRPO方法。研究團隊推出了DeepResearcher,這是首個通過在真實世界環境中端到端訓練LLM研究代理的綜合框架,具有真實網絡搜索交互。

與假設所有必要信息都存在于固定語料庫中的RAG方法不同,DeepResearcher訓練代理在嘈雜、非結構化和動態的開放網絡中導航。研究實現了專門的多代理架構,使瀏覽代理能從各種網頁結構中提取相關信息。

在開放領域研究任務上的廣泛實驗表明,DeepResearcher比基于提示工程的基線提高了高達28.9個點,比基于RAG的強化學習代理提高了高達7.2個點。    

質性分析揭示了端到端強化學習訓練產生的認知行為,包括制定計劃、從多個來源交叉驗證信息、進行自我反思以重定向研究,以及在無法找到明確答案時保持誠實的能力。

論文標題:DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

論文鏈接:https://arxiv.org/abs/2504.03160?

3、 APIGen-MT: 通過模擬代理-人類互動生成高質量對話數據

MedSAM2: 3D醫療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環境強化學習實現深度研究-AI.x社區圖片

這篇論文介紹了APIGen-MT,一個兩階段框架,用于生成可驗證且多樣化的多輪代理數據。在第一階段,代理流程利用LLM審閱委員會和迭代反饋循環,生成帶有真實行動的詳細任務藍圖。這些藍圖隨后通過模擬的人類-代理互動轉化為完整的交互軌跡。

研究團隊訓練了一系列模型——xLAM-2-fc-r,參數規模從1B到70B不等。這些模型在τ-bench和BFCL基準測試中的表現優于GPT-4o和Claude 3.5等前沿模型,較小的模型甚至超過了較大的模型,特別是在多輪設置中,同時在多次試驗中保持更高的一致性。

模型鏈接:https://huggingface.co/Salesforce/xLAM-2?    

網站與數據集:https://apigen-mt.github.io?

論文標題:APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

論文鏈接:https://arxiv.org/abs/2504.03601?

4、 更大的語言模型是否意味著更好的推理能力?預訓練推理縮放規律

MedSAM2: 3D醫療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環境強化學習實現深度研究-AI.x社區圖片

在設計用來緊密復制真實世界大規模知識圖譜結構和分布的合成多跳推理環境中,研究者觀察到過度參數化會由于過度記憶而損害推理性能。

研究任務涉及完成圖中缺失的邊,這需要先進的多跳推理,并模仿真實世界的推理場景。為了評估這一點,研究團隊從頭開始僅使用不完整圖的三元組預訓練語言模型,并評估它們推斷缺失邊的能力。

有趣的是,研究者觀察到過度參數化會由于過度記憶而損害推理性能。他們研究了影響這種U形損失曲線的不同因素,包括圖結構、模型大小和訓練步驟。為了預測特定知識圖譜的最佳模型大小,團隊找到了一個經驗縮放規律,可以將知識圖譜搜索熵線性映射到最佳模型大小。

論文標題:Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning

論文鏈接:https://arxiv.org/abs/2504.03635?

5、 何時求解,何時驗證:計算最優問題求解與LLM推理的生成驗證

MedSAM2: 3D醫療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環境強化學習實現深度研究-AI.x社區圖片

這篇論文分析了在固定計算預算下的最佳策略——是生成多個解決方案(自一致性,SC)還是深入驗證較少的解決方案(生成獎勵模型,GenRM)。

研究發現,SC在較低預算下更具計算效率,而GenRM僅在顯著更高的預算下表現更好(例如,僅需要8倍的計算量就能與SC匹配)。

  • 自一致性(SC)對于許多計算預算來說實際上更優,需要比GenRM少8倍的計算量。
  • 最優GenRM擴展解決方案的速度更快(預算指數約為0.6-0.75),而驗證的擴展速度較慢(指數約為0.3-0.4)。
  • 在固定計算量的比較中揭示了GenRM的高成本,這在固定解決方案評估中被忽略了。

論文標題:When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

論文鏈接:https://arxiv.org/abs/2504.01005?

6、 突破傳統數學批改!這個AI系統能給你的每一步解題過程打分

MedSAM2: 3D醫療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環境強化學習實現深度研究-AI.x社區圖片

當前的自動數學糾錯通常只檢查最終答案,忽略了解題步驟中的推理錯誤。這篇論文引入了StepAMC,使用強化學習(RL)改進LLM推理,實現詳細的、逐步的數學解決方案檢查。

在PRM-42K數據集上,StepAMC實現了更高的F1分數(81.69%)和準確率(81.81%),優于直接偏好優化(DPO)等強大基線(79.28%的F1,79.43%的準確率)。

  • 強化學習迫使LLM分析逐步邏輯,使推理能力超越簡單分類。
  • 空間約束策略網絡(Space-Constrained Policy Network)通過添加特定約束增強訓練穩定性,使模型更加專注。
  • 細粒度獎勵網絡(Fine-grained Reward Network)提供細致、連續的反饋,使模型能夠更好地從部分正確的步驟中學習。

論文中探索的方法??:

→ 空間約束策略網絡(SCPN)通過在訓練期間使用領域特定約束縮小動作搜索空間,增強RL穩定性。

→ 細粒度獎勵網絡(FRN)將簡單的二元人類反饋(正確/不正確)轉換為連續獎勵值,為評估每個步驟的正確性提供更細致的指導。    

論文標題:Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning

論文鏈接:?https://arxiv.org/abs/2503.18432

本文轉載自???AI帝國???,作者:無影寺

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 婷婷毛片 | 国产精品久久久久久婷婷天堂 | 在线观看亚洲一区二区 | 欧美久久一区二区三区 | 成人在线观看网址 | 中文在线а√在线8 | 中文字幕亚洲视频 | 成人在线视频网 | 理论片免费在线观看 | 成人国产精品入口免费视频 | 欧美日韩视频 | 久久亚洲国产精品日日av夜夜 | 日本视频中文字幕 | 午夜免费电影 | 久久日韩粉嫩一区二区三区 | 高清国产午夜精品久久久久久 | 免费一区二区在线观看 | 国产一级黄色网 | 成人日韩| 国产精品不卡视频 | www.中文字幕.com | 色久影院 | yiren22 亚洲综合 | 日本一区二区影视 | 毛片免费在线 | 1000部精品久久久久久久久 | 亚洲视频在线一区 | 日韩在线视频一区二区三区 | 日本精品久久久久久久 | 日韩av福利在线观看 | 免费国产视频在线观看 | 久久中文字幕一区 | 精品国产一区二区三区性色av | 国产视频福利在线观看 | 久久久高清 | 一区二区在线看 | 成人中文字幕在线 | 欧美一级电影免费 | 欧美日韩在线观看一区二区三区 | 精品国产一区二区三区在线观看 | 国产精品久久久久久久久久久久久久 |