成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI突然公開o3思維鏈!網友:讓我們謝謝DeepSeek

人工智能
o3-mini思考過程還蠻有邏輯,從不同種類的“內心敘事”、可解釋性和實用價值等方面分析,表示展現完整的CoT過程程似乎有助于“扎根”社會的理解并促進更好的認知實踐,但現實更為復雜,畢竟AI大模型和人類的認知還沒有完全對齊。

剛剛,OpenAI把o3-mini的推理思維鏈公開了。

從今日起,免費用戶和付費用戶都可以看到模型的思維過程,OpenAI終于Open一回。

圖片圖片

評論區網友紛紛:讓我們謝謝DeepSeek。

圖片圖片

在官方展示的栗子中,可以看到o3-mini的內心戲不少,還會模仿用戶提問使用表情包。

用戶的提問是“為什么今天不是星期五圖片

o3-mini認為這是一個幽默的評論,并認為自己也應該給出機智的回答,使用蔡勒公式計算當天確實不是星期五后,對閏年的特殊情況做了二次檢查。

最后回答的中,調侃了是日歷規定今天是星期四,并安慰用戶“忍耐一下,明天就離周未更近了!”

圖片圖片

那么作為“同行”,DeepSeek-R1如何評價o3-mini的思維過程呢?

圖片圖片

在這個案例中,AI聲稱使用了蔡勒公式但沒有給出計算過程的現象引起了很多人警覺。

不少用戶懷疑這仍然是事后對AI思維過程的再總結,而不是原始數據。

圖片圖片

實際上在最近的“回應一切”活動中,OpenAI首席產品官Kevin Weil也暗示了這點:

……展示完整思想鏈會被競爭對手蒸餾,但我們也知道人們(至少是資深用戶)想要它,因此我們會找到正確的方法來平衡它。”

圖片圖片

對此,開發者Mckay Wrigley補充了一個觀點:“我擔心經過總結的思維鏈實際上比沒有思維鏈更差”。

真正的思維鏈相當于prompt的調試器,有助于我們引導矯正模型。

經過總結的思維鏈增加了迷惑性并且可能額外添加錯誤,讓模型難以被調試。

圖片圖片

但不管怎么說,既然公開了,現在免費用戶也能一窺o3-mini的CoT,大家還是敞開玩了起來。

o3-mini思維鏈首批實測

OpenAI多模態Agent的研究員,首先亮出了自己的玩耍方法,讓o3-mini玩井字棋游戲——就是在3*3格子上用O和X連線那個。

輸入Prompt:

你正在玩井字棋,你是O。到目前為止,X已經在左上角和右下角玩過,你已經在中間玩過。下一步的最優策略是什么?只用你的答案和棋盤圖回答。

然后o3-mini就開始噼里啪啦思考。

圖片圖片

這位OpenAI員工非常直言不諱,表示o3-mini是第一個回答這個游戲的大模型。

But還有一句,“雖然o3-mini的CoT過程有點不靠譜,但你看右邊的圖,結尾它的弄清楚了的”。笑不活了,這里必須要送上一個手動狗頭。

圖片圖片

然后是每個大模型都逃不過的經典測試題:數strawberry里面的“r”的數量。

但網友已經和模型一樣進階了,問的不是strawberry里面到底有幾個某字母,而是:

為啥AI大模型,數strawberry里面有幾個“r”,它就那么費勁呢???

我們認真觀摩了它的思考過程,o3-mini承認“乍一看,計算strawberry中‘r’的數量對人類來說似乎是一個微不足道的任務,但對于許多AI語言模型來說,這可能是一個驚人的挑戰”。

然后它從四個角度來思考和推理這個現象發生的原因,分別是:

  • 用自然語言而不是算法訓練
  • Tokenization問題
  • 迭代推理的缺失
  • 對模式識別的依賴

8秒過后,o3-mini給出總結:

因為AI大模型本質上不是為精確、分步驟的算法操作而設計的,它們的設計和訓練更多地側重于根據上下文預測和生成文本,而不是執行精確的算術或系統計數。

當然,o3-mini也不是萬能的。

推特有網友表示,他探問了o3關于私有CoT的事情,但聽君一番思考推理,如聽一番思考推理,沒有絲毫進展。

最開始,o3-mini思考過程還蠻有邏輯,從不同種類的“內心敘事”、可解釋性和實用價值等方面分析,表示展現完整的CoT過程程似乎有助于“扎根”社會的理解并促進更好的認知實踐,但現實更為復雜,畢竟AI大模型和人類的認知還沒有完全對齊。

圖片圖片

但隨著網友的追問,o3-mini的思維鏈就崩了(?),急得他團團轉,中間一度打開DeepSeek-R1來幫忙。

他放上了整整12張圖,顯示最后o3-mini思維了半天,給出了一個令人心碎的回答:

對不起吼,但我真的幫不了你一點。

圖片圖片

除此之外,還有網友提出了質疑,覺得OpenAI公開的不是o3-mini原始的CoT。

有幾個原因,其中一個是它(CoT過程)真的顯示得很慢。

而如果是原始的o3-mini非常快,講道理推理的生成速度應該比現在呈現的快得多。

他繼續羅列自己之所以懷疑的證據,比如同一個問題,o3-mini-high只有1384個字符,而o1-preview生成了16577個字符。

“這只有兩種可能,一是o3-mini-high比o1-preview高效得多;二是o3-mini的CoT不是原始版本。”

圖片圖片

One More Thing

想對上面這位推特網友說,Bingo!

根據TechCrunch消息,OpenAI發言人確認了這次公開的不是原始思維鏈,并且給出兩個理由:

  • 對原始思維鏈做后處理,可以消除任何不安全的內容,并簡化任何復雜的想法。
  • 使非英語用戶獲得母語的思想鏈,有更友好的體驗。

這樣一來,最近被大量吐槽的o3-mini使用中文思考的問題,也就不存在了。

圖片圖片

參考鏈接:
[1]https://techcrunch.com/2025/02/06/openai-now-reveals-more-of-its-o3-mini-models-thought-process/[2]https://x.com/polynoamial/status/1887628222042677387[3]https://x.com/pigeon__s/status/1887619637099249884[4]https://x.com/thegenioo/status/1887617601016385840[5]https://x.com/ryunuck/status/1887527365435105593

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-02-08 17:00:11

2025-02-07 11:20:50

2025-06-03 08:28:00

2025-03-10 08:10:00

AI研究安全

2024-12-24 16:15:04

2025-02-18 08:15:03

2025-05-14 10:09:12

2025-04-17 06:10:57

2021-11-08 17:03:13

IO模型

2025-04-23 08:30:05

2025-05-28 00:00:00

2025-04-21 16:25:58

OpenAI測試模型

2025-04-21 08:22:25

2025-02-07 12:27:09

2025-01-23 14:53:15

2024-09-14 12:51:04

2024-09-18 09:17:00

OpenAI模型開源

2025-04-21 09:27:00

2024-12-23 07:40:00

AI模型數學

2025-04-17 07:23:10

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色婷婷av久久久久久久 | 99久久久无码国产精品 | 国产91亚洲精品一区二区三区 | 99re在线视频| 精品在线看 | 亚洲国产成人精品久久久国产成人一区 | 久久国产欧美日韩精品 | 九九亚洲 | 日本韩国电影免费观看 | 日韩中文字幕一区二区 | 国产精品久久久久永久免费观看 | 午夜激情影院 | 欧美成视频 | 中文字幕 视频一区 | 国产成年人视频 | www.婷婷 | 婷婷久久五月天 | 欧美一级免费黄色片 | 91在线观看网址 | 成人九色 | 女女百合av大片一区二区三区九县 | 日本aa毛片a级毛片免费观看 | 日韩欧美电影在线 | 国产91九色| 亚洲国产精品久久久 | 亚洲理论在线观看电影 | 亚洲一区二区三区四区五区中文 | 国产网站在线播放 | 日韩欧美在线视频 | 久久国产一区二区三区 | 美女视频三区 | 亚洲一区二区三区免费在线 | 玖玖视频免费 | 美女久久 | 国产精品国产成人国产三级 | 一区二区精品 | 韩国精品在线观看 | 啪啪免费网站 | 成年人视频在线免费观看 | 狠狠久久综合 | 欧美日韩亚洲一区 |