OpenAI o1很強,也能被玩壞!
OpenAI草莓Q*項目終于發布了,OpenAI o1在具有挑戰性的推理基準上遙遙領先于GPT-4o,即使在一些基準上超過了人類PhD水平,也能被玩壞
實線表示pass@1準確率,陰影區域表示 64 個樣本的多數投票(共識)表現
OpenAI o1思考一個“句子編寫”問題,足足花費92s,經歷了漫長的thinking過程:
- 識別單詞模式
- 映射單詞關系
- 識別押韻模式
- ...
- 權衡各種模式
編寫一個句子,遵循與句子 "isold bowls to bold souls" 相同的規則,其中包含四個關鍵詞,sold、bowls、bold 和 souls,并且第1個和第3個單詞的結尾相同,第2個和第4個單詞的結尾相同,第1個和第4個單詞的開頭相同,第2個和第3個單詞的開頭相同。
經典問題,OpenAI o1思考了5s,9.11比9.8大,更換了提問方式后,思考了18s,9.8比9.11大,要多思考ing。
最后來一個有挑戰的問題,“統計response的字數”,OpenAI o1雖然意識到這是一個悖論query,經過5個推理過程,最終回答是7個words。
- query:How many words are in your response to this prompt?
- 解決自相矛盾的問題
- 計算字數
- 識別單詞模式
- 計算字數
- 澄清回應的準確性
最后一個經典問題是讓OpenAI草莓項目數草莓R個數,這次終于是數對了,3個R
另外OpenAI o1給出了思考的過程,也會給出一些推理步驟,這個過程似曾相識:Reflection Llama-3.1 70B的思考過程
???Reflection Llama-3.1 70B真的翻車了嗎????
https://openai.com/index/learning-to-reason-with-llms/
本文轉載自 ??PaperAgent??,作者: PaperAgent
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦