成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

解讀 Marco - o1:邁向開放式推理模型的探索與實(shí)踐

發(fā)布于 2024-11-27 15:04
瀏覽
0收藏

解讀 Marco - o1:邁向開放式推理模型的探索與實(shí)踐-AI.x社區(qū)

研究背景

? 研究問題:這篇文章要解決的問題是如何在大規(guī)模推理模型(LRM)中實(shí)現(xiàn)開放式推理,特別是在沒有明確標(biāo)準(zhǔn)和難以量化的獎(jiǎng)勵(lì)的情況下。具體來說,研究了如何使o1模型能夠有效地泛化到?jīng)]有明確標(biāo)準(zhǔn)的更廣泛領(lǐng)域。

? 研究難點(diǎn):該問題的研究難點(diǎn)包括:在沒有明確標(biāo)準(zhǔn)的情況下進(jìn)行推理,獎(jiǎng)勵(lì)的量化挑戰(zhàn),以及如何在復(fù)雜現(xiàn)實(shí)世界問題解決任務(wù)中優(yōu)化模型的性能。

? 相關(guān)工作:該問題的研究相關(guān)工作包括OpenAI的o1模型,它在AIME和CodeForces等平臺(tái)上的出色表現(xiàn)。本文受到OpenAI o1的啟發(fā),旨在進(jìn)一步推動(dòng)大型語言模型(LLM)在推理能力方面的邊界。

OpenAI推出的o1模型具有卓越的推理能力,在AIME和CodeForces等平臺(tái)上表現(xiàn)出色,超越了其他領(lǐng)先模型。受其啟發(fā),Marco - o1旨在進(jìn)一步突破界限,增強(qiáng)推理能力以應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)挑戰(zhàn)。Marco - o1借助思維鏈(CoT)微調(diào)、蒙特卡洛樹搜索(MCTS)、反思機(jī)制和創(chuàng)新推理策略,提升模型在復(fù)雜現(xiàn)實(shí)問題中的解決能力。

研究方法

這篇論文提出了Marco-o1模型,用于解決大規(guī)模推理模型中的開放式推理問題。具體來說,

解讀 Marco - o1:邁向開放式推理模型的探索與實(shí)踐-AI.x社區(qū)

1. Chain-of-Thought (CoT) Fine-Tuning:首先,使用過濾后的Open-O1 CoT數(shù)據(jù)集、Marco-o1 CoT數(shù)據(jù)集和Marco-o1指令數(shù)據(jù)集對(duì)Qwen2-7B-Instruct模型進(jìn)行全參數(shù)微調(diào)。這些數(shù)據(jù)集幫助模型采用結(jié)構(gòu)化的推理模式。

2. Monte Carlo Tree Search (MCTS):其次,將LLMs與MCTS集成,使用模型的輸出置信度來指導(dǎo)搜索并擴(kuò)展解決方案空間。每個(gè)節(jié)點(diǎn)代表問題解決過程中的一個(gè)推理狀態(tài),可能的動(dòng)作是LLM生成的輸出。通過計(jì)算每個(gè)token的置信度分?jǐn)?shù)來評(píng)估推理路徑的質(zhì)量。

解讀 Marco - o1:邁向開放式推理模型的探索與實(shí)踐-AI.x社區(qū)

3. Reasoning Action Strategy:此外,實(shí)現(xiàn)了新的推理動(dòng)作策略和反思機(jī)制。包括在MCTS框架內(nèi)探索不同動(dòng)作粒度(step和mini-step),并提示模型自我反思,從而顯著提高模型解決復(fù)雜問題的能力。

4. 翻譯任務(wù)應(yīng)用:首次探討了LRM在機(jī)器翻譯任務(wù)中的應(yīng)用,研究了多語言和翻譯領(lǐng)域的推理時(shí)間擴(kuò)展規(guī)律。

Marco推理數(shù)據(jù)集

為增強(qiáng)Marco - o1模型的推理能力,采用監(jiān)督微調(diào)(SFT)策略,使用多種數(shù)據(jù)集,包括Open - O1 CoT數(shù)據(jù)集(經(jīng)過啟發(fā)式和質(zhì)量過濾)、Marco - o1 CoT數(shù)據(jù)集(通過MCTS生成)和Marco指令數(shù)據(jù)集,以提升模型的結(jié)構(gòu)化推理、復(fù)雜推理和指令執(zhí)行能力,總樣本數(shù)達(dá)60,266個(gè)。

數(shù)據(jù)集

樣本數(shù)量

Open - O1 CoT數(shù)據(jù)集(過濾后)

45,125

Marco - o1 CoT數(shù)據(jù)集(合成)

10,000

Marco指令數(shù)據(jù)集

5,141

總計(jì)

60,266

實(shí)驗(yàn)設(shè)置與結(jié)果

4.1 實(shí)驗(yàn)設(shè)置

基于Qwen2 - 7B - Instruct模型,使用訓(xùn)練數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)創(chuàng)建Marco - o1 - CoT,在MCTS樹搜索框架內(nèi)進(jìn)行實(shí)驗(yàn),包括“Marco - o1 - MCTS(step)”“Marco - o1 - MCTS(mini-step of 64 tokens)”“Marco - o1 - MCTS(mini-step of 32 tokens)”三種配置,并在MGSM數(shù)據(jù)集的英文和中文子集上進(jìn)行測試,每個(gè)模型使用CoT提示以確保推理過程一致。

4.2 主要結(jié)果

在MGSM - en數(shù)據(jù)集中,Marco - o1 - CoT相比Qwen2 - 7B - Instruct有優(yōu)勢,但在MGSM - zh數(shù)據(jù)集中,由于微調(diào)數(shù)據(jù)為英文,性能有所下降。三種MCTS增強(qiáng)模型均比Marco - o1 - CoT有改進(jìn),但樹搜索結(jié)果有隨機(jī)性,目前無法確定最佳行動(dòng)策略,不過MCTS在較低猜測次數(shù)下(Test@1)已顯示出優(yōu)勢。

模型

MGSM - En(Acc.)

MGSM - Zh(Acc.)

Qwen2 - 7B - Instruct

84.00%

76.80%

Marco - o1 - CoT

85.60%

71.20%

Marco - o1 - MCTS(step)

90.40%

80.00%

Marco - o1 - MCTS(mini-step of 64 tokens)

88.40%

80.40%

Marco - o1 - MCTS(mini-step of 32 tokens)

87.60%

82.40%

模型

MGSM - En

MGSM - Zh


Test@1 Acc.

Test@8 Acc.

Qwen2 - 7B - Instruct

84.00%

89.60%

Marco - o1 - CoT

85.60%

97.60%

Marco - o1 - MCTS(step)

90.40%

99.20%

Marco - o1 - MCTS(mini-step of 64 tokens)

88.40%

98.40%

Marco - o1 - MCTS(mini-step of 32 tokens)

87.60%

98.80%

翻譯任務(wù)案例研究

在翻譯任務(wù)中,Marco - o1在處理口語和俚語表達(dá)時(shí)表現(xiàn)出色,能夠準(zhǔn)確理解上下文和細(xì)微差別,提供比谷歌翻譯更準(zhǔn)確、自然的翻譯,展示了其在復(fù)雜翻譯任務(wù)中的高級(jí)理解和推理能力。

翻譯任務(wù)案例對(duì)比(中文到英文)

案例一

?原文:這個(gè)鞋擁有踩屎感,很舒服,推薦購買

?Marco - o1翻譯:This shoe has a comfortable sole. It is very comfortable and recommended for purchase.

?谷歌翻譯:This shoe has a feeling of stepping on poop, very comfortable, recommended to buy.

案例二

?原文:美到我心巴上了,上身真的很韓,穿上軟乎乎毛茸茸的厚度也剛好,里面搭配了打底衫,小特別且日常的穿搭

?Marco - o1翻譯:It's so beautiful that it's captivating, the upper part has a distinctly Korean style, the soft and fluffy material is perfectly thick, and it's complemented by a base layer, creating a unique and everyday - wear outfit.

?谷歌翻譯:It's so beautiful that I'm attracted to it. The upper body is really Korean. It's soft and fluffy and the thickness is just right. It's paired with a base shirt. It's a little special and daily outfit.

案例三

?原文:太太太太好看了!而且價(jià)格這么便宜,超級(jí)板正不卷邊,都買它,買它

?Marco - o1翻譯:It's so beautiful! And it's so cheap, super straight and doesn't curl. Buy it, buy it!

?谷歌翻譯:Madam, madam, you are so beautiful! And the price is so cheap, the super board is not curled, everyone buys it, buys it.

通過這些案例可以看出,Marco - o1在處理口語化、具有文化特色的表達(dá)時(shí),能夠更好地理解語義并給出更符合語境的翻譯。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品久久777777 | 亚洲国产自产 | 国产精品久久久久久婷婷天堂 | 天堂资源视频 | 五月精品视频 | 国产高清精品在线 | 国产夜恋视频在线观看 | 日本成人在线网址 | 男女啪啪高潮无遮挡免费动态 | 天天拍天天射 | 在线日韩 | 亚洲欧洲视频 | 国产一区 | avmans最新导航地址 | 亚洲精品国产成人 | 天天操天天操 | 国产精品99久 | 午夜影院网站 | 在线视频h | 亚洲精品久久久久久国产精华液 | 久久一级免费视频 | 国产精品免费一区二区三区四区 | 国产综合精品一区二区三区 | 亚洲伊人久久综合 | 国产精品久久国产精品 | 一区二区三区亚洲视频 | 精久久 | 中文字幕在线观 | 尤物视频在线免费观看 | 成人在线免费观看av | 秋霞a级毛片在线看 | 日韩中文字幕在线播放 | 精品欧美一区二区三区久久久 | 国产精品欧美一区二区 | 成人一区二| 亚洲国产精品网站 | 国产精品久久福利 | 夜夜爽99久久国产综合精品女不卡 | 亚洲国产精品一区二区www | 国产一区91精品张津瑜 | 91av视频|