成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta版o1來了!田淵棟團隊整合快慢思考,能走迷宮推箱子

人工智能 新聞
通過讓模型在推理軌跡和最終答案上進行訓練,再基于特定策略丟掉部分軌跡,Dualformer模型可以在模仿慢思考的同時,像快思考一樣走捷徑。

Meta版o1也來了。

田淵棟團隊帶來新作Dualformer,把快慢思考無縫結合,性能提升還成本更低。

能解決迷宮、推箱子等復雜問題。

圖片

通過讓模型在推理軌跡和最終答案上進行訓練,再基于特定策略丟掉部分軌跡,Dualformer模型可以在模仿慢思考的同時,像快思考一樣走捷徑。

由此能形成更簡潔的思維鏈(CoT)。

從結果來看,在慢思考模式下,Dualformer的最優解率達到97.6%,推理步驟減少45.5%。

自動切換快慢思考模式下,最優率也達到96.6%,且推理步驟減少59.9%。

搞定o1玩不來的迷宮游戲

o1帶火了系統2(慢思考),能讓大模型推理能力大幅提升。

但是隨之而來的計算成本更高。

Dualformer能很好結合快慢思考,從而緩解這一問題。

它建立在Searchformer這項工作的基礎上。Searchformer是一個可以解決復雜推理任務的模型,在A*搜索算法生成的路徑上訓練而來,在路徑規劃任務(如迷宮、推箱子游戲)上表現良好,可以以更高效率找到最優解。

圖片

研究發現,人類會在思考過程中傾向于找捷徑。為了更進一步模擬人類,Dualformer在隨機推理軌跡數據上進行訓練,并在訓練過程中依據定制的丟棄策略丟到部分結構。

比如在處理路徑規劃任務時,根據搜索軌跡中的不同子句(如close子句、子句中的cost tokens、create子句等)設計了四個級別的丟棄策略,從只丟棄close子句到丟棄整個軌跡,并在訓練時隨機選擇應用這些策略。

圖片

基于這些策略,Dualformer可以學習更簡潔有效的搜索和推理過程。

在推理階段,Dualformer可配置快速模式(僅輸出解決方案)、慢速模式(輸出推理鏈和最終解決方案)或自動模式(自行決定推理模式)。

這種靈活的推理模式設計使得模型能夠根據不同任務需求和場景進行自適應調整,類似于人類思維在不同情況下的決策方式。

在具體任務上,研究設置了迷宮(Maze)和推箱子游戲(Sokoban),讓模型進行路徑規劃。以及數學推理任務。

對比來看,在迷宮任務中,o1-preview和o1-mini模型輸出的路徑并不好,會“穿墻”。

圖片

快思考模式下,Dualformer的表現如下。

Dualformer以80%的最優率完成這些任務,顯著優于僅基于解決方案數據訓練的Solution-Only模型,后者的最優率僅為 30%。

圖片

慢思考模式表現如下。

30×30迷宮任務中,在97.6%的情況下可以達到最優解,同時推理步驟減少45.5%。

圖片

自動切換快慢思考模式下,Dualformer的最優率達到 96.6%,與Searchformer相比,推理步驟減少59.9%。

圖片

將該方法推廣到Mistral-7B和Llama3-8B上,在Aug-MATH數據集上,模型的表現都有所提升。

比如在Mistral-7B模型上,當p=0.1、0.2和0.3時,Pass@20度量的基線模型,其中絕對正確率增加到61.9%。

圖片

最后,來看一下研究團隊陣容。

該研究由田淵棟等人帶來。

田淵棟現在是Meta FAIR的研究科學家主任,領導LLM推理、規劃和決策小組。

圖片

Qinqing Zheng是FAIR的工程師,研究方向集中在生成模型和強化學習方面。她本科畢業于浙江大學,在芝加哥大學攻讀博士學位。2017-2019年期間在Facebook擔任研究科學家,幫助Facebook建立了廣告推薦模型的分布式訓練系統。

圖片

Sainbayar Sukhbaatar是FAIR的研究科學家,主要負責大模型推理和記憶方面研究。他曾先后在谷歌、DeepMind、Meta任職。

圖片

Michael Rabbat是FAIR的創始成員之一。加入Meta之前他曾是麥吉爾大學計算機工程系教授。研究領域包括機器學習、分布式算法、信號處理等。

圖片

論文地址:

https://arxiv.org/pdf/2410.09918

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-19 09:48:07

2024-02-26 00:20:00

AI模型

2024-11-25 08:30:00

2024-10-16 13:50:00

模型AI

2024-10-08 08:35:00

模型訓練

2024-12-12 09:00:00

2023-03-17 08:28:17

GPT-4AI

2024-10-28 08:50:00

2023-06-12 09:57:22

AIChatGPT

2024-11-05 14:20:00

AI模型

2024-02-27 11:46:40

2023-12-07 06:51:18

AI模型

2024-11-07 15:40:00

2024-10-18 13:01:24

2024-10-14 13:40:00

2023-06-30 09:49:23

模型Meta

2022-12-25 13:46:37

生成器

2024-12-17 12:30:00

2025-01-08 13:08:55

2023-08-04 13:42:41

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久久 | 激情免费视频 | 欧美日日 | 91久久国产精品 | 亚洲综合一区二区三区 | 在线成人福利 | 欧美区在线 | 欧美日本一区 | 免费在线观看毛片 | 欧美专区日韩 | 久久精品国产亚洲一区二区三区 | 国产精品久久 | 九九九久久国产免费 | 欧美日韩精品久久久免费观看 | 亚洲一区 中文字幕 | 精品视频一区二区 | 欧美成人一区二区三区 | 欧美日韩在线精品 | 一级a性色生活片久久毛片波多野 | 亚洲不卡在线观看 | 成人在线电影在线观看 | 久久大 | 国产美女特级嫩嫩嫩bbb片 | 欧美精品一区久久 | 日一区二区 | 精品99久久久久久 | 中文字幕欧美一区 | av中文字幕在线播放 | 一区在线播放 | www.亚洲一区二区 | 婷婷久久一区 | 日韩精品在线播放 | 日韩在线免费 | 久久久久国产精品一区 | 亚洲欧美一区二区三区1000 | 国产高清一二三区 | 国产在线中文字幕 | 91丨九色丨国产在线 | 午夜在线小视频 | 日韩成人在线播放 | 国产最好的av国产大片 |