關注o1必備GitHub倉庫，上線3天狂攬1.5k星！英偉達工程師出品，承諾持續更新

作者：量子位 2024-09-18 13:01:10

人工智能新聞

這個庫專注于收集與o1相關的推理技術論文、博客和項目等資源，供大家研究討論，并在持續更新中。

關注o1必備的GitHub庫，它來了！

上線3天狂攬1.5k星，一躍登上GitHub趨勢榜！

這個庫專注于收集與o1相關的推理技術論文、博客和項目等資源，供大家研究討論，并在持續更新中。

網友們對它給予高度評價：

科技大V說它是“拆解草莓的逆向工程”。

也有網友直接提出表揚：“研究o1，看它就夠了！”

真有這么牛？咱們一起來看看到底怎么個事兒！

干貨滿滿

在這個名為Awesome-LLM-Strawberry的GitHub庫中，涵蓋了大量關于o1的信息。

量子位為大家整理了一下迄今為止發布的相關硬核內容：

關于o1的博客

博客：Learning to Reason with LLMs
作者：OpenAI
鏈接：https://openai.com/index/learning-to-reason-with-llms/

概述：這篇博客介紹了OpenAI o1的訓練方法，其中包括鏈式推理、自我批評、驗證、多步驟推理、任務分解和蒙特卡洛樹搜索等技術。

博客：OpenAI o1-mini
作者：OpenAI
鏈接：https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

概述：介紹了o1 mini模型在推理成本和效率方面的改進，在保持高推理性能的同時，顯著降低了計算和運行成本。

博客：Finding GPT-4’s mistakes with GPT-4
作者：OpenAI
鏈接：https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

概述：討論了如何利用GPT-4模型自身來發現和修正生成的錯誤。文章中提到的“自我審查方法”通過雙重評估提高了錯誤檢測的準確性，從而讓模型輸出的內容變得更加可靠。（文章發表時，已有OpenAI超級對齊團隊成員離職，因此也被稱為團隊的“遺作”）

博客：Summary of what we have learned during AMA hour with the OpenAI o1 team
作者：Tibor Blaho
鏈接：https://twitter-thread.com/t/1834686946846597281
??：https://x.com/btibor91/status/1834686946846597281

概述：這篇博客總結了OpenAI團隊在AMA（問答環節）中分享的關于o1模型的主要內容和特性。
其中包括：模型的推理范式以及規模和性能、輸入token上下文和模型能力、CoT（思維鏈）推理、API和使用限制、定價、微調和擴展等內容。

博客：OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference
作者：Nathan Lambert
鏈接：https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

概述：文章探討了OpenAI的新活“Strawberry”以及推理擴展定律，強調了推理計算在提升AI能力方面的重要性。而相較于單純擴大模型規模，作者認為增加推理計算的投入能更有效地提高模型性能。（具有前瞻性的一篇博客，文章發布的時候o1還沒發布）

博客：Reverse engineering OpenAI’s o1
作者：Nathan Lambert
鏈接：https://www.interconnects.ai/p/reverse-engineering-openai-o1

概述：文章詳細講了OpenAI的o1模型，重點在于它的推理能力。o1通過生成復雜的思維鏈來處理復雜任務，比以前的模型表現更出色。
還討論了o1的設計和訓練細節，特別是它如何通過優化數據處理和算法來提高推理效率。同時指出，相比單純增加模型規模，提升推理計算投入對提升模型性能更有效。

OpenAI o1貢獻者參與撰寫的論文

論文：Training Verifiers to Solve Math Word Problems
作者：Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman
團隊：OpenAI
鏈接：https://arxiv.org/abs/2110.14168

概述：發布于2021年10月，文中指出雖然當前的先進語言模型在很多任務上表現很強，但它們在解決復雜的數學題時仍然遇到困難。為了解決這個問題，作者創建了一個叫GSM8K的數據集，其中包含8500個不同的小學數學題。
研究發現，即使是大規模的Transformer模型在這些題目上也表現不佳。為了提升表現，作者建議使用一個驗證器來檢查模型答案的準確性。
具體做法是讓模型生成多個答案，然后選擇驗證器評分最高的答案。而這種方法顯著提高了模型在GSM8K數據集上的表現，比傳統的調整方法效果更好。

論文：Generative Language Modeling for Automated Theorem Proving
作者：Stanislas Polu, Ilya Sutskever
團隊：OpenAI
鏈接：https://arxiv.org/abs/2009.03393

概述：發布于2020年9月，探討了基于Transformer的語言模型如何在自動定理證明中發揮作用。
研究的核心問題是，自動定理證明器在生成原創數學術語方面比不上人類，而這可能通過語言模型的生成能力得到解決。
作者介紹了一種叫做GPT-f的自動證明工具，用于Metamath形式化語言，并分析了它的效果。GPT-f成功發現了一些新短證明，這些證明被Metamath主要庫接受，這是深度學習系統首次為形式數學社區提供并被采納的證明。

論文：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
作者：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
團隊：Google Research, Brain Team（谷歌大腦)
鏈接：https://arxiv.org/pdf/2201.11903

概述：發布于2022年1月，文章討論了如何通過生成一系列中間推理步驟（思維鏈）來大幅提升大型語言模型的復雜推理能力。
作者提出了一種叫做“思維鏈提示”的方法，具體做法是在提示中給出一些思維鏈的示例，幫助模型進行更深入的推理。最終實驗結果顯示，它在三個大型語言模型上都顯著提高了它們在算術、常識和符號推理任務中的表現。

論文：Let’s Verify Step by Step
作者：Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
團隊：OpenAI
鏈接：https://arxiv.org/abs/2305.20050

概述：發布于2023年5月，文章討論了大型語言模型在復雜多步推理任務中的表現。
作者比較了兩種訓練方法：一種只關注最終結果，另一種關注每一步推理。結果顯示，關注每一步推理的方法更有效，能在MATH數據集上提高到78%的成功率。
文中還強調了主動學習在提升訓練效果中的重要性，并發布了一個包含80萬個步驟級反饋的PRM800K數據集，用于訓練最佳模型。

論文：LLM Critics Help Catch LLM Bugs
作者：Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike
團隊：OpenAI
鏈接：https://arxiv.org/abs/2407.00215

概述：發布于2024年6月，文中介紹了用“批評者”（CriticGPT）模型來提升機器學習模型輸出的評估。
這些批評者模型能更有效地發現代碼中的錯誤，甚至能找到人類可能忽略的問題。盡管這些模型有時會出錯，但與人類結合使用可以減少誤導，同時提高錯誤檢測的效率。

論文：Self-critiquing models for assisting human evaluators
作者：William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike
團隊：OpenAI
鏈接：https://arxiv.org/pdf/2206.05802

概述：發布于2022年6月，文中介紹了一種方法，通過微調大型語言模型，讓它們生成批評性評論，從而幫助找出摘要中的問題。
研究發現，這些評論可以有效識別摘要中的錯誤，包括有意誤導的信息。大模型在生成有用評論和自我改進方面表現更好。
同時論文還提出了一個框架來評估模型的批評、生成和辨別能力，并指出即使是大型模型也可能有遺漏的知識。研究展示了如何用AI輔助人類改進機器學習系統，并公開了相關數據和樣本。

論文：Scalable Online Planning via Reinforcement Learning Fine-Tuning
作者：Arnaud Fickinger, Hengyuan Hu, Brandon Amos, Stuart Russell, Noam Brown
團隊：Facebook AI
鏈接：https://arxiv.org/pdf/2109.15316

概述：文章介紹了一種新方法來改進圖神經網絡（GNN）的訓練，特別是針對“圖卷積”操作中的效率問題。
作者提出了一種名為“FastGCN”的算法，旨在提高圖神經網絡的計算速度和縮放能力。通過在訓練過程中進行近似和優化，這種方法能夠處理更大規模的圖數據，從而在圖數據分析任務中取得更好的性能。