僅靠開源數(shù)據(jù)復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了
本文作者熊偉是伊利諾伊香檳分校的在讀博士生,其導師為TongZhang與NanJiang。他的主要研究方向是RLHF與機器學習理論。基于人類反饋的強化學習(RLHF)使得大語言模型的輸出能夠更加符合人類的目標、期望與需求,是提升許多閉源語言模型ChatGPT,Claude,Gemini表現(xiàn)的核心方法之一。在此之前,傳統(tǒng)的開源解決方案是基于離線數(shù)據(jù)集的直接偏好優(yōu)化(DPO),并獲得了一系列的明顯超出SFT的開源模型。然而,在過去的幾個月中,許多研究表...