解密o1推理過程!DeepSeek-R1-Lite預(yù)覽版上線
GPT-o1通過強(qiáng)化學(xué)習(xí)訓(xùn)練優(yōu)化決策策略,并模擬人類思維鏈以深入理解問題,提供更準(zhǔn)確的答案,在多個(gè)推理任務(wù)相關(guān)的榜單上實(shí)現(xiàn)了巨大的突破。而o1的思維過程是隱藏的。幻方旗下國產(chǎn)大模型公司DeepSeek近期預(yù)發(fā)布了R1模型,使用了強(qiáng)化學(xué)習(xí)訓(xùn)練,回復(fù)里包含大量反思和驗(yàn)證,思維鏈長度可達(dá)數(shù)萬字,并且沒有像o1一樣隱藏思維鏈。
Demo: ???https://chat.deepseek.com???
[模型和技術(shù)報(bào)告將會開源]
DeepSeek R1
DeepSeek R1 系列模型采用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,具備深度反思和驗(yàn)證能力,能夠構(gòu)建長達(dá)數(shù)萬字的思維鏈。在數(shù)學(xué)、編程和復(fù)雜邏輯推理等任務(wù)上,該系列模型展現(xiàn)出與o1-preview相媲美的推理能力,同時(shí)向用戶展示了o1未公開的完整思考路徑。
DeepSeek-R1-Lite預(yù)覽版在包括美國數(shù)學(xué)競賽(AMC)中最具挑戰(zhàn)性的AIME以及全球頂尖編程競賽(Codeforces)在內(nèi)的多個(gè)權(quán)威評測中表現(xiàn)突出,成績顯著優(yōu)于GPT-4o等知名模型。以下是DeepSeek-R1-Lite在這些評測中的得分情況:
DeepSeek-R1-Lite的推理過程不僅長,還涵蓋了廣泛的反思和驗(yàn)證步驟。下面的圖表清晰地展示了該模型在數(shù)學(xué)競賽中的得分與其允許的思考長度之間存在密切的正相關(guān)關(guān)系。
紅色實(shí)線展示了模型所能達(dá)到的準(zhǔn)確率與所給定的推理長度呈正相關(guān);相比傳統(tǒng)的多次采樣+投票,增加模型思維鏈長度似乎性價(jià)比更高。
正式版 DeepSeek-R1 模型將完全開源,技術(shù)報(bào)告也會公開。
思維鏈效果展示:
本文轉(zhuǎn)載自公眾號思源數(shù)據(jù)科學(xué) 作者:思源Source
