無需標注數據!TTRL用“少數服從多數”解鎖大模型測試時強化學習新范式
社區頭條 今天分享一篇來自清華大學和上海人工智能實驗室的文章,標題為TTRL:TestTimeReinforcementLearning(測試時強化學習)。這篇文章探討了一個重要且具有挑戰性的問題:如何在沒有顯式標簽(groundtruth)的情況下,利用強化學習(RL)在測試階段提升大型語言模型(LLM)在推理任務上的性能。核心挑戰在于測試時無法獲得真實的獎勵信號。研究者們發現,像多數投票(majorityvoting)這類在測試時擴展(TestTimeScaling,TTS)中常用...