忘掉GPT-5！OpenAI推出全新AI模型系列o1，聲稱性能達到博士級

作者：Carl Franzen 2024-09-13 12:34:54

OpenAI發布全新o1系列AI模型，取代此前的GPT系列，旨在解決復雜的科學、醫療和技術問題。

自從OpenAI于2023年3月推出其強大的專有大型語言模型GPT-4 —— 即 18 個月前 —— 以來，用戶和開發者們一直在猜測，這家在硅谷及全球掀起GenAI熱潮的公司何時會推出下一個版本，預計將命名為GPT-5。

然而，事實證明，GPT系列暫時被一整個全新模型家族所超越。

今天，經過數月的報道和傳聞，尤其是在最近幾天愈加激烈的討論后，OpenAI 宣布推出其“o1” AI模型家族，首批包含兩個模型：o1-preview和o1-mini。公司表示，這些模型旨在“推理復雜任務并解決比GPT系列更難的問題”。

這兩個模型現已向ChatGPT Plus用戶開放，但最初限制為每周o1-preview只能發送30條消息，o1-mini則為50條。

然而，OpenAI 也提醒用戶：“作為一個早期模型，它還沒有許多使 ChatGPT 實用的功能，例如通過網絡瀏覽信息和上傳文件及圖片。在許多常見情況下，GPT-4o 在短期內仍然更為強大。”

的確，我們在最初的測試中嘗試讓其為這篇文章生成圖片時發現它無法完成。在 OpenAI 的 API 平臺網站上，公司明確表示，這個模型家族在測試階段僅支持“文本內容，暫不支持圖片”。

OpenAI 聲稱其新的 o1 系列特別適合于在科學、醫療保健和技術等領域處理復雜問題的用戶。

OpenAI 設想這些模型將被廣泛應用，從幫助物理學家為量子光學生成數學公式，到協助醫療研究人員為細胞測序數據做標注。

開發者也會發現 o1-mini 模型在構建和執行多步驟工作流、調試代碼以及高效解決編程挑戰方面頗具成效。

o1-preview 模型旨在通過花更多時間思考和優化響應來處理挑戰性任務，類似于人類面對復雜問題時的應對方式。

在測試中，這種方法使該模型在物理學、化學和生物學等領域的表現接近博士生水平。

此外，o1-preview 模型在編程方面表現優異，在 Codeforces 編程比賽中排名第 89 百分位，展現了其處理多步驟工作流、調試復雜代碼和生成準確解決方案的能力。

在國際數學奧林匹克競賽 (IMO) 預選考試等基準測試中，o1-preview 展示了其卓越能力，成功解決了 83% 的問題，顯著超越其前任 GPT-4o 僅 13% 的成功率。

它已經向ChatGPT的Plus和Team用戶開放使用，Enterprise和Edu用戶將在下周獲得訪問權限。該模型也通過OpenAI API提供給符合API使用第5層級的開發者，盡管最初會有速率限制。

與o1-preview同時，OpenAI還推出了o1-mini模型，這是一個更精簡的版本，旨在提供更快且更便宜的推理能力。

雖然o1-mini主要針對編程和STEM任務進行了優化，但它在數學和編程領域依然表現出色。

在IMO數學基準測試中，o1-mini得分為70%，幾乎與o1-preview的74%持平，同時推理成本顯著降低。在編碼評估中，它也表現出色，在Codeforces上獲得了1650的Elo評分，位于前86%的程序員之列。

與o1-preview相比，o1-mini的價格便宜了80%，它主要面向那些需要推理能力但不需要o1-preview模型所具備的廣泛知識的開發者和研究人員。

這一具有成本效益的解決方案也將向ChatGPT Plus、Team、Enterprise和Edu用戶開放，未來還計劃向ChatGPT Free用戶擴展使用權限。

為了遵守OpenAI對安全性的承諾，這兩個模型都采用了一種新的安全訓練方法，以增強它們遵循安全和對齊準則的能力。

OpenAI指出，o1-preview在其最嚴苛的越獄測試之一中得分達到了84分，相較于GPT-4o的22分有了顯著提升。能夠在上下文中推理安全規則，使這些模型更好地處理不安全的提示，避免生成不適當的內容。

作為更廣泛安全努力的一部分，OpenAI已與美國和英國的AI安全研究所達成協議。

這些合作包括為研究版本的o1模型提供早期訪問權限，以幫助評估和測試未來的AI系統。

OpenAI的安全工作還包括全面的內部治理，并與聯邦政府合作，通過定期測試、紅隊測試以及公司安全與保障委員會的董事會層級監督來加強安全性。

盡管o1-preview和o1-mini模型在推理和問題解決方面已經是強大的工具，OpenAI承認這只是一個開始。

公司計劃定期更新和改進這些模型，包括增加API版本當前尚不支持的功能，如瀏覽、文件和圖像上傳以及函數調用。

展望未來，OpenAI將繼續開發其GPT和o1系列，進一步擴展AI在各個領域的能力。用戶可以期待不斷的進步，因為公司致力于提高這些模型在不同應用中的實用性和可訪問性。

責任編輯：龐桂玉來源：企業網D1Net

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看