在GPT-5備受期待的同時,OpenAI發布了一種先進的語言模型,它可以在認真思考后做出反應,具備與博士生相當的智能。這種改進版模型向前邁出了一大步,提供了實用的解決方案,而不是遺漏指令或產生幻覺。
我們在這篇博文中將介紹OpenAI的o1推理模型及其特別之處和值得注意的方面。然后,我們將使用ChatGPT訪問o1預覽版和o1迷你版模型來解決復雜的財務問題,并構建一個基于Julia的網頁抓取工具。最后,我們將構建一個從數據攝取到模型部署的端到端機器學習項目,這一切都使用OpenAI o1預覽版模型來完成。
OpenAI o1推理模型簡介
OpenAI的o1推理模型旨在像人類一樣思考問題,花時間仔細考慮后做出反應。在處理物理、化學和生物學方面頗有挑戰性的任務時,o1模型表現出來的智能與博士生相當。此外,它擅長處理數學和編碼任務,在國際數學奧林匹克資格賽中取得了83%的成功率,在全球編程比賽Codeforces中排名第89位。
目前,該推理模型有o1預覽版和o1迷你版兩個版本。o1預覽版是個推理模型,用于解決眾多領域的難題,而o1迷你版是一種更快速、更經濟高效的推理模型,尤其擅長處理編碼、數學和科學任務。
這兩種模型可以通過ChatGPT Pro訂閱和You.com來訪問,還可以通過OpenAI平臺上面向tier 5組織的API來獲得。
在ChatGPT中使用OpenAI 01模型
每個訂閱ChatGPT Plus的用戶都可以通過從左上角下拉菜單更改語言模型來訪問o1模型。
我們在本節將先嘗試這種推理模型的高級版本o1預覽版來制定財務計劃。然后,我們將使用這種模型更快速、更小巧的o1迷你版,用Julia語言創建自己的網頁抓取工具。
OpenAI o1預覽版
不妨使用o1預覽版模型來幫助我靠2萬美元的儲蓄賬戶成為百萬富翁。我還要求它提供計算和逐步解釋,以確定我達到100萬美元所需要的時間。
點擊模型“下拉”菜單,選擇“o1預覽版”,然后在信息輸入框中輸入以下提示。
提示:“我的儲蓄賬戶里有2萬美元,每年獲得4%的利潤,每年支付兩次。你能告訴我要多久我才能成為百萬富翁嗎?還有,你能像給一個沒受過教育的人解釋數學那樣一步一步地解釋一下嗎?”
o1預覽版模型使用數學公式和計算進行了詳細的分析,為我們提供了結果總結。這種類型的響應不是由GPT-4o或市面上的任何其他語言模型所能生成的。它很全面,并嚴格遵循提示。
在第9步,它給我們提供了一個結果:如果我完全依靠儲蓄賬戶,我需要98年才能成為百萬富翁。
結果:
Step 9: Interpreting the Result
- Time Required: Approximately 98.73 years.
So, it will take you about 98 years and 9 months for your $20,000 to grow into $1,000,000 at a 4% annual interest rate compounded twice a year.
要查看o1預覽版如何考慮解決這個問題,請點擊響應上的下拉按鈕。
在本文示例中,點擊“Thought for 22 seconds”將顯示語言模型生成響應所采取的全部步驟。
GPT-4o vs o1預覽版
不妨通過提供同樣的提示將其與GPT- 4o模型進行比較。
GPT-4o模型在生成結果時相當緩慢。就速度而言,它幾乎和o1預覽版一樣慢。每種模型處理問題的策略大不相同。o1預覽版展示了更多的細節和數學公式,并像向學生解釋一樣進行了解釋,而GPT-4o忽略了提示的最后一部分,直接開始求解,而不是解釋每一步。
OpenAI o1迷你版
o1迷你版速度很快,可用于處理編碼問題和簡單的數學問題。我們讓o1迷你版使用Julia創建一個網頁抓取工具,為其提供了額外的說明。
提示:“使用Julia語言從頭開始構建網頁抓取工具。
請確保你已經添加了文檔字符串和注釋,創建了多個文件,使用了繼承,創建了單元測試文件,并提供了介紹如何使用它的說明文檔。”
它花了近15秒的時間來生成響應,思考時間為2秒,而o1預覽版模型用時22秒。
我已經用源文件、單元測試文件、自述文件和“project.toml”文件創建了一個適當的項目。這些模型如何變得更完善給我留下了深刻印象。我肯定會將它用于自己的編碼項目中,也會為我的教程創建結構。
GPT-4o vs o1迷你版
GPT- 4o令人失望。它遺漏了提示中的許多指令,開始處理泛泛的項目。自述文件只有一個標題,所有其他文件都有問題,使用指南不完整。簡而言之,這是一次糟糕的嘗試。如果我不得不使用GPT-4o完成編碼項目,我將自行編碼和創建說明文檔。
用OpenAI o1預覽版模型構建機器學習項目
這是我最喜歡的部分,我將要求o1預覽版模型為我構建一個端到端機器學習項目。GPT- 4o和Claude 3.5模型都失敗了,因為面對有太多指令的復雜項目,它們束手無策。
在本例中,我們要求它使用Python創建一個Reddit審核應用程序。我們為它提供了額外的指令,從數據攝取到建議免費部署推理API。
提示:“創建一個Python Reddit審核應用程序,它在看到Reddit帖子后預測它們是否對社區有害。
請確保項目包括以下步驟:
- 使用網頁抓取從reddit r/learnmachinelearning收集數據。
- 使用Scikit-learn處理數據集。
- 使用來自Reddit的測試數據集訓練機器學習模型。
- 保存模型,并執行模型評估。
- 創建用于模型推理的FastAPI應用程序。
- 添加用于創建用戶界面的Jinja模板。
- 提供將應用程序免費部署到云端的說明。”
正如我們所看到,它決定在哪里抓取網頁或使用Reddit數據攝取工具。就像人一樣,它考慮了工具對項目是否可行。
我們已收到了所有代碼文件以及關于如何組裝它們以便處理、訓練和構建API的說明。它甚至為我們提供了如何使用Railway應用程序免費部署應用程序的說明。
在我自行嘗試代碼之前,不妨讓ChatGPT為我們測試一下。
我們收到一條消息,顯示它不能執行代碼。
o1模型現在還處在測試階段。將來,OpenAI會推出能夠使用CSV文件、圖像、音頻數據等內容的Python解釋器。現在它只是一個文本生成模型,可以像學者或專業人士一樣思考。
結語
事實證明,o1推理模型改變了人工智能界的游戲規則。除了ChatGPT外,我一直使用You.com上的o1預覽版模型,用起來很流暢。我愛不釋手。該模型速度快,還提供了介紹如何解決復雜問題或自行構建數據科學項目的詳細地圖。
今后對提示工程師的需求會再度上升,因為現在我們只需要專注于給出指示,o1模型將幫助我們解決工作中的任何問題。
我們在這篇博文中介紹了o1模型的獨特功能,并強調了它較之GPT-4o等以前版本所具有的優勢。這種演進清楚地表明,未來基于AI的解決方案將更直觀、更有影響力。
原文標題:Getting Started with OpenAI o1 Reasoning Models,作者:Abid Ali Awan