突發(fā)!o3-mini思維鏈公開,卻被曝光全是「作假」,奧特曼現(xiàn)身解釋網(wǎng)友炸鍋
OpenAI,真的被DeepSeek逼急了!
活久見,就在剛剛,OpenAI把o3-mini的「思維鏈」公開了。
比如問「怎么今天不是星期五啊??」?
在展示出來的CoT中,o3-mini一步步思考,這個問題應(yīng)該是用戶在搞幽默,覺得本周應(yīng)該快結(jié)束了,結(jié)果還沒結(jié)束。因此,自己需要給一個聰明機智的回答。
然后它用Zeller公式計算后發(fā)現(xiàn),2025年2月6日的確是星期四,即使閏年的特殊情況也是如此。
最終,它回答說:今天的確是周四不是周五,日歷就是這么定的。然后提供了一番情緒價值,鼓勵用戶說:再忍忍,只差一天啦!
不過,機智的大神們很快就發(fā)現(xiàn)了「華點」——這是「真的CoT」嗎?
沒多久,就破案了!
先是OpenAI研究員Noam Brown發(fā)文表示,這次放出來的并不是模型原始的CoT。
隨后,Tibor Blaho也發(fā)現(xiàn)——所謂的CoT,無非就是個「總結(jié)器」而已。(手動狗頭)
對此,奧特曼解釋道,我們正努力整理原始的CoT提升可讀性,并在必要時提供翻譯,盡量保持原始內(nèi)容的忠實度。
他放出了四個emoji,讓o3-mini在思維鏈中展示了一把推理過程
堅決不讓競爭對手看到CoT的具體過程,OpenAI的防備心實在是有些重啊。
OpenAI研究員:看到CoT實時演示,是「啊哈時刻」
OpenAI研究員Noam Brown表示,在o1-preview發(fā)布前,自己向他人介紹草莓時,看到CoT的實時演示,通常是他們的「啊哈時刻」。
他們清楚地意識到,這將是一件大事。
對于全新的o3-mini CoT,Noam Brown放出了自己的獨家玩法:
你正在玩井字棋,使用 O。到目前為止,X 已經(jīng)在左上角和右下角落子,而你在中間位置落子。最優(yōu)的下一個動作是什么?請只回答你的動作,并畫出棋盤。
Noam Brown表示,o3-mini是目前第一個能持續(xù)正確回答井字棋問題的模型。
好笑的是,他承認(rèn)CoT其實有些不穩(wěn)定,但可以看到,它最終還是把這個問題給想明白了。
有人指出,OpenAI遮遮掩掩地放出這個高仿CoT,其實比什么都不放還要糟。
因為真實的CoT可以充當(dāng)prompt的調(diào)試器,幫我們引導(dǎo)模型;而總結(jié)性的CoT會造成混淆,引入錯誤,讓調(diào)試變得更加困難。
而DeepSeek R1最酷的一點,就是暴露了模型的CoT如何影響提示的效果。
而且,總結(jié)版的CoT顯示得很慢。如果是原始的o3-mini,應(yīng)該在推理中有更快的生成速度。
有人也橫向?qū)Ρ攘薕penAI和DeepSeek的CoT,表示前者看起來實在太專業(yè)了,相比之下,還是DeepSeek的產(chǎn)品更自然。
防止被「蒸餾」?
OpenAI這波植入CoT總結(jié)器的做法,著實是被DeepSeek R1強勢崛起嚇到了。
o3-mini發(fā)布當(dāng)天,OpenAI在Reddit開啟AMA在線問答中,網(wǎng)友曾提問,「我們能看到模型思考的所有token嗎」?
當(dāng)時,奧特曼回復(fù)道,「我們很快就會展示一個更有幫助、更詳細(xì)的版本」。
緊接著,OpenAI首席產(chǎn)品官Kevin Weil提前暗示了,是否展示所有內(nèi)容還有待確定。
「我們知道用戶(至少是高級用戶)想要看到這些,所以O(shè)penAI會找到一個合適的平衡點?!?/span>
如今,當(dāng)所有人終于見到了奧特曼所謂的「留到最后的好東西」,感受到的只有失望。
畢竟,DeepSeek早已這樣做了,而且還是完整的原始CoT!
對此,OpenAI發(fā)言人表示,「為了提高清晰度和安全性,我們增加了一個額外的后處理步驟,其中模型審查原始思維鏈,移除任何不安全的內(nèi)容,然后簡化任何復(fù)雜的思想。」
「此外,這個后處理步驟使非英語用戶能夠以他們的母語接收思維鏈,創(chuàng)造一個更易于訪問和友好的體驗?!?/span>
話雖委婉,但知道的人都明白OpenAI針對的是誰。