成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1規劃能力首測!已超越語言模型范疇,preview終于贏mini一回

人工智能 新聞
亞利桑那州立大學的最新研究表明,o1-preview在規劃任務上,表現顯著優于o1-mini。

o1-preview終于贏過了mini一次!

亞利桑那州立大學的最新研究表明,o1-preview在規劃任務上,表現顯著優于o1-mini

相比于傳統模型的優勢更是碾壓級別,在超難任務上的準確率比Llama3.1-405B高了11倍。

要知道之前,OpenAI自己人也發了一張圖,顯示preview論性能比不過滿血版,論經濟性又不如mini,處于一個十分尷尬的地位。

圖片

作者在推文中表示,盡管存在可保證性和成本問題,但僅針對CoT而言,o1已經超越了大模型的“近似檢索”性質,提升到了“近似推理”層次。

并且在論文中,o1全程被稱作LRM(Large Reasoning Model,大型推理模型),而非一般大型語言模型的LLM。

圖片

o1團隊的核心成員Noam Brown也轉發了這項研究,順便給o1-preview打了個call。

圖片

還有網友翻出了隔壁Meta的LeCun半個多月前的推文,當時LeCun說大模型沒有規劃能力,結果現在OpenAI就帶著o1來踢館了。

圖片

用“搭積木”測試大模型

為了評估o1系列模型的規劃能力,作者使用了PlanBench評估基準。

該基準的提出者中也正好包含了本文三名作者中的兩名——共同一作Karthik Valmeekam,以及他的導師Subbarao Kambhampati。

PlanBench專門為評估大模型規劃能力而設計,任務類型涵蓋了計劃生成、成本最優規劃、計劃驗證等。

具體到這個實驗,作者使用了其中來自于國際規劃競賽(IPC)的Blocksworld和其變體。

此類問題涉及在桌子上堆疊積木塊,目標是從一個初始狀態,重新排列到目標配置。

木塊用不同的顏色標識,一次只能移動一個積木塊,且只能移動每一堆中頂部的積木塊,被拿起的積木塊也只能放在頂部或直接放在桌子上。

圖片

變體Mystery Blocksworld則是在Blockworlds的基礎上加入混淆機制,用一些毫不相干的詞語來代替操作中的動作。

圖片

在此基礎之上,還有更為復雜的全隨機變體,指令進一步從其他英文單詞變成了無意義的字符串。

圖片

在o1之前,Blockworlds上的SOTA模型是Llama3.1-405B,成績為達到 62.6%,而在Mystery Blockworlds上,沒有任何模型的成績能超過5%

圖片

o1-preview超強規劃

o1這邊的測試結果顯示,preview相比mini,成績優勢十分明顯。

在Blockworlds任務上,preview版準確率達98%,而mini只有56.6%,表現還不如llama。

當然加入了混淆之后,mini相比于llama也顯示出了一些優勢——

在零樣本配置下,preview版的準確率超過了一半,比llama的4.3%高出了11倍多;mini版也達到了19.1%,比llama高3.4倍。

最后在全隨機版本下,o1-preview還能擁有37.3%的準確率。

圖片

以上結果顯示出了o1系列模型,特別是o1-preview的超強規劃能力,但是不足之處也十分明顯。

一是隨著規劃長度的增加,模型的性能也會迅速下降,即使對于未混淆的Blockworlds來說也同樣如此。

圖片

另外,Blockworlds系列問題并非全部可解,作者發現o1在識別不可解問題上的準確率依然存在不足

對于未混淆版本準確率只有27%,但沒有誤判為不可解的情況;對于全隨機版本則只有16%,另外還有11.5%的概率將可解問題誤判為不可解。

圖片

甚至作者還發現,o1有時也會狡辯,提出令人信服的合理理由,讓人們相信其錯誤答案。

圖片

在模型本身的性能之外,成本和時間消耗也是一個重要考量,相比于傳統大模型,o1-mini的成本相比GPT4-Turbo直接翻番,preview更是高出了數量級。

圖片

那么,如果你是開發者,會愿意為了o1的高性能付出更多的成本嗎?

論文地址:https://arxiv.org/abs/2409.13373

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-08-02 14:58:00

2024-09-19 17:44:04

2025-02-03 14:17:27

2024-09-23 16:00:00

AI模型測評

2024-10-05 15:30:00

LLM模型推理

2024-09-24 11:01:03

2024-10-05 00:00:00

2024-12-06 11:44:48

Pro模式AI人工智能

2024-12-26 17:13:17

AI模型訓練

2025-03-05 10:21:04

DeepSeekLVLM

2024-09-19 18:03:31

2024-09-18 08:40:00

智能模型AI

2025-01-20 09:28:00

AI工具模型

2025-01-21 08:00:00

2025-02-19 15:40:00

OpenAI編程模型

2025-01-10 12:58:37

2024-11-25 12:50:14

2025-02-19 13:50:00

明星編程軟件

2025-01-08 13:08:55

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩在线不卡 | 国产一级在线 | 国产免费自拍 | 综合精品| 久久香蕉网 | 欧美福利一区 | 日本黄色免费视频 | 亚洲精品国产偷自在线观看 | 国产精品高清一区二区三区 | 一区二区三区免费 | 中文精品视频 | 欧美1区2区 | 亚洲久久在线 | 中文字幕在线观看av | 久久久久久久久久爱 | 久久精品屋 | 四虎永久免费影院 | 欧洲一区二区三区 | 超碰97免费在线 | 91精品免费视频 | 日日碰狠狠躁久久躁婷婷 | 国产在线观看不卡一区二区三区 | 无码一区二区三区视频 | 久久精品二区 | 亚洲一区二区不卡在线观看 | 成人亚洲精品久久久久软件 | 亚洲电影一区 | 欧美一级黄色片在线观看 | 国产91在线播放 | 91免费电影| 91人人看| 亚洲精品一区二区三区丝袜 | 成人亚洲精品 | 最新日韩在线视频 | 四虎最新| 久久久久久久久淑女av国产精品 | 性欧美精品一区二区三区在线播放 | 91免费观看 | 久久国产综合 | 一区二区在线免费观看 | 超碰97干|