成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

關注o1必備GitHub倉庫,上線3天狂攬1.5k星!英偉達工程師出品,承諾持續更新

人工智能 新聞
這個庫專注于收集與o1相關的推理技術論文、博客和項目等資源,供大家研究討論,并在持續更新中。

關注o1必備的GitHub庫,它來了!

上線3天狂攬1.5k星,一躍登上GitHub趨勢榜!

這個庫專注于收集與o1相關的推理技術論文、博客和項目等資源,供大家研究討論,并在持續更新中。

圖片

網友們對它給予高度評價:

科技大V說它是“拆解草莓的逆向工程”

圖片

也有網友直接提出表揚:“研究o1,看它就夠了!”

圖片

真有這么牛?咱們一起來看看到底怎么個事兒!

干貨滿滿

在這個名為Awesome-LLM-Strawberry的GitHub庫中,涵蓋了大量關于o1的信息。

量子位為大家整理了一下迄今為止發布的相關硬核內容:

關于o1的博客

博客:Learning to Reason with LLMs
作者:OpenAI
鏈接:https://openai.com/index/learning-to-reason-with-llms/

概述:這篇博客介紹了OpenAI o1的訓練方法,其中包括鏈式推理、自我批評、驗證、多步驟推理、任務分解和蒙特卡洛樹搜索等技術。

圖片

博客:OpenAI o1-mini
作者:OpenAI
鏈接:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

概述:介紹了o1 mini模型在推理成本和效率方面的改進,在保持高推理性能的同時,顯著降低了計算和運行成本。

圖片

博客:Finding GPT-4’s mistakes with GPT-4
作者:OpenAI
鏈接:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

概述:討論了如何利用GPT-4模型自身來發現和修正生成的錯誤。文章中提到的“自我審查方法”通過雙重評估提高了錯誤檢測的準確性,從而讓模型輸出的內容變得更加可靠。(文章發表時,已有OpenAI超級對齊團隊成員離職,因此也被稱為團隊的“遺作”)

圖片

博客:Summary of what we have learned during AMA hour with the OpenAI o1 team
作者:Tibor Blaho
鏈接:https://twitter-thread.com/t/1834686946846597281
??:https://x.com/btibor91/status/1834686946846597281

概述:這篇博客總結了OpenAI團隊在AMA(問答環節)中分享的關于o1模型的主要內容和特性。
其中包括:模型的推理范式以及規模和性能、輸入token上下文和模型能力、CoT(思維鏈)推理、API和使用限制、定價、微調和擴展等內容。

圖片

博客:OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference
作者:Nathan Lambert
鏈接:https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

概述:文章探討了OpenAI的新活“Strawberry”以及推理擴展定律,強調了推理計算在提升AI能力方面的重要性。而相較于單純擴大模型規模,作者認為增加推理計算的投入能更有效地提高模型性能。(具有前瞻性的一篇博客,文章發布的時候o1還沒發布)

圖片

博客:Reverse engineering OpenAI’s o1
作者:Nathan Lambert
鏈接:https://www.interconnects.ai/p/reverse-engineering-openai-o1

概述:文章詳細講了OpenAI的o1模型,重點在于它的推理能力。o1通過生成復雜的思維鏈來處理復雜任務,比以前的模型表現更出色。
還討論了o1的設計和訓練細節,特別是它如何通過優化數據處理和算法來提高推理效率。同時指出,相比單純增加模型規模,提升推理計算投入對提升模型性能更有效。

圖片

OpenAI o1貢獻者參與撰寫的論文

論文:Training Verifiers to Solve Math Word Problems
作者:Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman
團隊:OpenAI
鏈接:https://arxiv.org/abs/2110.14168

概述:發布于2021年10月,文中指出雖然當前的先進語言模型在很多任務上表現很強,但它們在解決復雜的數學題時仍然遇到困難。為了解決這個問題,作者創建了一個叫GSM8K的數據集,其中包含8500個不同的小學數學題。
研究發現,即使是大規模的Transformer模型在這些題目上也表現不佳。為了提升表現,作者建議使用一個驗證器來檢查模型答案的準確性。
具體做法是讓模型生成多個答案,然后選擇驗證器評分最高的答案。而這種方法顯著提高了模型在GSM8K數據集上的表現,比傳統的調整方法效果更好。

圖片

論文:Generative Language Modeling for Automated Theorem Proving
作者:Stanislas Polu, Ilya Sutskever
團隊:OpenAI
鏈接:https://arxiv.org/abs/2009.03393

概述:發布于2020年9月,探討了基于Transformer的語言模型如何在自動定理證明中發揮作用。
研究的核心問題是,自動定理證明器在生成原創數學術語方面比不上人類,而這可能通過語言模型的生成能力得到解決。
作者介紹了一種叫做GPT-f的自動證明工具,用于Metamath形式化語言,并分析了它的效果。GPT-f成功發現了一些新短證明,這些證明被Metamath主要庫接受,這是深度學習系統首次為形式數學社區提供并被采納的證明。

圖片

論文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
作者:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
團隊:Google Research, Brain Team(谷歌大腦)
鏈接:https://arxiv.org/pdf/2201.11903

概述:發布于2022年1月,文章討論了如何通過生成一系列中間推理步驟(思維鏈)來大幅提升大型語言模型的復雜推理能力。
作者提出了一種叫做“思維鏈提示”的方法,具體做法是在提示中給出一些思維鏈的示例,幫助模型進行更深入的推理。最終實驗結果顯示,它在三個大型語言模型上都顯著提高了它們在算術、常識和符號推理任務中的表現。

圖片

論文:Let’s Verify Step by Step
作者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
團隊:OpenAI
鏈接:https://arxiv.org/abs/2305.20050

概述:發布于2023年5月,文章討論了大型語言模型在復雜多步推理任務中的表現。
作者比較了兩種訓練方法:一種只關注最終結果,另一種關注每一步推理。結果顯示,關注每一步推理的方法更有效,能在MATH數據集上提高到78%的成功率。
文中還強調了主動學習在提升訓練效果中的重要性,并發布了一個包含80萬個步驟級反饋的PRM800K數據集,用于訓練最佳模型。

圖片

論文:LLM Critics Help Catch LLM Bugs
作者:Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike
團隊:OpenAI
鏈接:https://arxiv.org/abs/2407.00215

概述:發布于2024年6月,文中介紹了用“批評者”(CriticGPT)模型來提升機器學習模型輸出的評估。
這些批評者模型能更有效地發現代碼中的錯誤,甚至能找到人類可能忽略的問題。盡管這些模型有時會出錯,但與人類結合使用可以減少誤導,同時提高錯誤檢測的效率。

圖片

論文:Self-critiquing models for assisting human evaluators
作者:William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike
團隊:OpenAI
鏈接:https://arxiv.org/pdf/2206.05802

概述:發布于2022年6月,文中介紹了一種方法,通過微調大型語言模型,讓它們生成批評性評論,從而幫助找出摘要中的問題。
研究發現,這些評論可以有效識別摘要中的錯誤,包括有意誤導的信息。大模型在生成有用評論和自我改進方面表現更好。
同時論文還提出了一個框架來評估模型的批評、生成和辨別能力,并指出即使是大型模型也可能有遺漏的知識。研究展示了如何用AI輔助人類改進機器學習系統,并公開了相關數據和樣本。

圖片

論文:Scalable Online Planning via Reinforcement Learning Fine-Tuning
作者:Arnaud Fickinger, Hengyuan Hu, Brandon Amos, Stuart Russell, Noam Brown
團隊:Facebook AI
鏈接:https://arxiv.org/pdf/2109.15316

概述:文章介紹了一種新方法來改進圖神經網絡(GNN)的訓練,特別是針對“圖卷積”操作中的效率問題。
作者提出了一種名為“FastGCN”的算法,旨在提高圖神經網絡的計算速度和縮放能力。通過在訓練過程中進行近似和優化,這種方法能夠處理更大規模的圖數據,從而在圖數據分析任務中取得更好的性能。

圖片

除此之外,作者還按照時間順序梳理了一些可能與o1相關的其他相關論文

2024年發布:

圖片

2023年發布:

圖片

2022年發布:

圖片

2021年發布:

圖片

2017年發布:

圖片

關于作者

Awesome-LLM-Strawberry的作者是ID叫做hijkzzz的中國小哥。

目前在英偉達任深度學習工程師。

圖片

他是OpenRLHF的第一作者,在英偉達期間開發TensorRT-LLM的新模型和算法,還參與了NeMo的模型訓練。

圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-03-10 13:35:00

視覺GitHub

2024-11-18 10:25:00

AI模型

2020-05-26 10:39:20

GitHub編程開發者

2025-01-26 12:08:03

2025-01-20 09:28:00

AI工具模型

2024-11-29 07:00:00

Kimi大模型Mooncake

2020-12-10 10:24:25

AI 數據人工智能

2024-10-17 14:05:34

2024-03-18 10:17:00

開源AI

2020-12-07 16:14:40

GitHub 技術開源

2024-07-23 09:17:34

開發者框架

2024-10-17 13:30:00

2024-06-24 09:51:24

2024-02-04 13:43:49

模型訓練

2024-12-27 12:23:46

2025-03-10 08:38:00

DeepMindAI模型

2020-12-30 10:35:49

程序員技能開發者

2023-10-04 19:52:33

模型論文

2025-02-17 09:10:00

英偉達模型AI

2024-12-26 11:45:48

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产欧美日韩精品一区二区三区 | 丝袜 亚洲 另类 欧美 综合 | 99国产精品99久久久久久粉嫩 | 亚洲巨乳自拍在线视频 | 99久久久久久99国产精品免 | www.久久久久久久久久久久 | 国产色黄| 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 久久精品亚洲一区二区三区浴池 | 天天综合国产 | 91成人精品视频 | 色综合天天天天做夜夜夜夜做 | 日韩一区二区在线视频 | 成人超碰 | 久草www| 国产在线第一页 | 欧美8一10sex性hd | 欧美精品一区二区三区四区五区 | 成人精品鲁一区一区二区 | 午夜视频免费在线观看 | 亚洲福利电影网 | 成人妇女免费播放久久久 | 欧美 日韩 国产 成人 | 一区二区三区小视频 | 亚洲精品成人网 | 久久人体视频 | 91麻豆精品国产91久久久更新资源速度超快 | 激情国产在线 | 成人二区 | 91精品国产自产在线老师啪 | 午夜欧美 | 欧美精品片 | 在线一级片 | 欧美日韩精品一区二区三区四区 | 国产精品久久久久久二区 | 九一精品| 亚洲品质自拍视频 | 亚洲精品美女在线观看 | 一区二区三区四区在线视频 | 精品久久久久久亚洲精品 | 黑人一级黄色大片 |