AI新思考：“浴火重生”的草莓模型原創(chuàng)

發(fā)布于 2024-9-13 11:33

瀏覽

0收藏

“這個(gè)模型肯定比我更擅長解決 AP 數(shù)學(xué)考試，而且我在大學(xué)時(shí)輔修數(shù)學(xué)，”O(jiān)penAI 的首席研究官鮑勃·麥格魯（Bob McGrew）告訴我。他說，OpenAI 還根據(jù)國際數(shù)學(xué)奧林匹克競(jìng)賽的資格考試對(duì) o1 進(jìn)行了測(cè)試，雖然 GPT-4o 只正確解決了 13% 的問題，但 o1 的得分為 83%。

OpenAI發(fā)布名為o1新模型，這是全新“推理”模型系列中的第一個(gè)，這些模型經(jīng)過訓(xùn)練可以比人類更快地回答更復(fù)雜的問題。它與o1-mini一起發(fā)布，o1-mini是一個(gè)更小而且較為便宜的版本。這實(shí)際上就是之前炒作的神秘版本“草莓模型”。

o1與以前的模型相比，它在編寫代碼和解決多步驟問題方面做得更加的出色。但它也比GPT-4o的帶來更多的費(fèi)用。o1目前處于預(yù)覽版本的狀態(tài)。

今天開始，ChatGPT Plus和團(tuán)隊(duì)用戶可以訪問o1-preview和o1-mini，企業(yè)用戶和研究類別的用戶將在下周初獲得訪問權(quán)限。OpenAI 表示它計(jì)劃為 ChatGPT 的所有免費(fèi)用戶提供o1-mini 訪問權(quán)限，但尚未確定發(fā)布日期。

商業(yè)使用的收費(fèi)還是非常昂貴，使用傳統(tǒng)的API調(diào)用，o1-preview每100萬個(gè)輸入Token收費(fèi)15美元，每100 個(gè)輸出令牌收費(fèi)60美元。相比之下，GPT-4o的成本為每100萬個(gè)輸入Token收費(fèi)5美元，每 100萬個(gè)輸出Token收費(fèi)15美元。

1.背后的意義

o1在針對(duì)問題做出響應(yīng)之前花更多時(shí)間思考問題，就像一個(gè)人一樣。通過培訓(xùn)，他們學(xué)會(huì)完善自己的思維過程，嘗試不同的策略，并認(rèn)識(shí)自身錯(cuò)誤。在披露的測(cè)試中，它在數(shù)學(xué)和編碼方面表現(xiàn)出色。在國際數(shù)學(xué)奧林匹克競(jìng)賽（IMO）的資格考試中，GPT-4o僅正確解決了13%的問題，而推理模型得分為83%。它的編碼能力在比賽中得到了評(píng)估，并在Codeforces 比賽中達(dá)到了第89個(gè)百分位。

AI新思考：“浴火重生”的草莓模型-AI.x社區(qū)

作為早期模型，它還不具備使 ChatGPT有用的許多功能，例如瀏覽網(wǎng)頁以獲取信息以及上傳文件和圖像。對(duì)于許多常見情況，GPT-4o在短期內(nèi)會(huì)更有能力。然而在復(fù)雜的推理領(lǐng)域，這是一個(gè)重大進(jìn)步，代表了AI能力的新突破。因此OpenAI將計(jì)數(shù)器重置回1并將此系列命名為OpenAI o1。

2.適用場(chǎng)景

o1比較適合科學(xué)、編碼、數(shù)學(xué)和類似領(lǐng)域的復(fù)雜問題，這些增強(qiáng)的推理功能可能特別有用。例如，醫(yī)療保健研究人員可以使用它來注釋細(xì)胞測(cè)序數(shù)據(jù)，物理學(xué)家可以使用它來生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式，所有領(lǐng)域的開發(fā)人員都可以使用它來構(gòu)建和執(zhí)行多步驟工作流程。

除了考試和學(xué)術(shù)基準(zhǔn)之外，OpenAI還評(píng)估人類對(duì)o1-preview與GPT-4o在更多廣泛領(lǐng)域中的對(duì)比。在這項(xiàng)評(píng)估中，人類對(duì)來自o1-preview和GPT-4o 的提示進(jìn)行了匿名投票以便于選出他們更喜歡哪種模型。O1-Preview在數(shù)據(jù)分析、編碼和數(shù)學(xué)等推理密集型類別中比 GPT-4O更受歡迎。但是在某些自然語言任務(wù)中，o1-preview不是首選，這表明它并不適合所有用例。

AI新思考：“浴火重生”的草莓模型-AI.x社區(qū)