成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

滿血版o1深夜震撼上線,奧特曼懟臉演示超強推理!終極Pro版每月1450元

人工智能 新聞
就在剛剛,滿血版o1震撼上線了!它首次將多模態和新的推理范式結合起來,更智能、更快速。同時推出的還有200美元/月的專業版ChatGPT Pro。奧特曼親自和Jason Wei等人做了演示,同時放出的,還有49頁完整論文。據網友預測,GPT-4.5可能也要來了。

果不其然,滿血版o1終于正式上線了,而且還帶來了地表最強o1 Pro Mode!

12天連更第一天,OpenAI隨手扔了一個炸彈。

圖片

圖片

這次,Sam Altman本人正式出鏡,和研究科學家Hyung Won Chung、Max,以及思維鏈提出者Jason Wei一起,在短短15分鐘內速速完成了發布。

圖片

完整版o1是一個更快、更強大的推理模型,更擅長編碼、數學和寫作。

它可以上傳圖片,根據圖片進行推理,給出更詳細、更有用的回復。

圖片

給出一個人工鳥巢圖像,模型就生成了安裝手冊

在多項基準測試中,完整版o1性能直接暴漲,在數學、代碼、博士級別科學問題中,拿下了最優的成績。

相較于o1-preview,o1數學性能提升了近30%,代碼能力提升了27%。再看GPT-4o,幾乎沒有任何優勢了。

更值得一提的是,o1在GPQA Diamond基準測試中,表現完全超越了人類專家。

圖片

現在,所有ChatGPT Plus用戶,都已經可以用上o1了。

圖片

接下來,o1 Pro Mode更是強到令人發指,數學性能要比o1提升7.5%,在博士級別科學問題中,實現了79.3%的表現。

圖片

另外,o1模型還進行了更具挑戰性的Worst of 4基準的評估。

它要求模型對每個問題進行四次嘗試,只有在所有四次嘗試中都給出正確答案,該問題才被視為真正「解決」。

如下所示,o1 Pro在數學、代碼、博士級別科學問題上,均是性能最優的,而且o1比預覽版的性能也大幅提升。

圖片

奧特曼直接總結了下今日發布兩件大事:

o1,世界上最智能的模型,比o1-preview更智能、更快速、功能更多(如多模態)。現在已在ChatGPT中上線,很快將API中上線。

ChatGPT Pro,定價為200美元/月。無限制使用,使用o1時還有更智能的模式!

圖片

圖片

奧特曼幽默風趣地表示,「o1雖強,但還沒有強大到宇宙派遣海嘯來阻止的程度」。

圖片

德撲之父、OpenAI研究科學家Noam Brown表示,「o1(草莓模型)它可以做得更好,而不僅僅是計算 『草莓 』中有多少個r」。

圖片

現在,OpenAI正在處理更多計算密集型任務,還在給o1模型添加網頁瀏覽、文件上傳等工具,并且在努力將o1引入API。

他們還會為開發者提供一些新功能,比如結構化輸出、函數調用、開發者消息、API圖像理解功能等。

全新的智能體領域,也將很快開啟。

明天上線的,就是為開發者打造的精彩內容。

圖片

現場演示

OpenAI的12天特別活動,將嘗試一項迄今沒有任何科技公司做過的事——在接下來的12個工作日,發布或演示一些新開發的新東西。

12天中的Day 1,正式拉開序幕。

圖片

奧特曼同OpenAI的三位員工一起,給大家帶來了o1完整版的演示。整個過程不到20分鐘,如奧特曼所說既快速又有趣。

滿血版o1來了

首先,就是o1的完整版。

圖片

網友們反饋,希望o1-preview更智能、更迅速、支持多模態,并且更好地遵循指令。

據此OpenAI做了許多工作,做出了這個「科學家、工程師、程序員會很喜歡的模型」。

從GPT-4o到o1-preview再到o1,模型在數學、編程競賽、GPQA Diamond方面方面性能暴漲,但奧特曼強調:我們非常關心的是原始智能,尤其是在編碼性能上。

o1的獨特之處在于,它是第一個在回應前會先思考的模型。這意味著,它比其他模型提供了更好、更詳細、更準確的響應。

o1模型將很快取代o1-preview,因為它更快、更智能。

而在o1 Pro模式中,用戶可以要求模型使用更多的計算資源,來解決一些最困難的問題。

對于已經在數學、編程和寫作任務上將模型推向能力極限的用戶,將感到驚嘆。

響應更快

首先,o1的提升,并不只是解決非常難的數學和編程問題,OpenAI收到的關于o1-preview的最多的反饋是,它的速度太慢了——只是說hi,它都要思考10秒鐘。

現在,這個問題已被解決。

OpenAI研究者打趣地說,這件事其實很好玩——它真的思考了,真的在關心你。

圖片

現在,如果你問一個簡單問題,它就會很快回答,不會想太多了。但如果問一個很難的問題,它就會思考很長時間。

經過非常詳細的真人評估之后,研究者們發現,它犯重大錯誤的頻率,比o1-preview要低大約34%,同時思考速度提升了50%。

作為歷史愛好者,Max給大家帶來第一個演示。

左邊是o1,右邊是o1-preview。

提問:列出二世紀的羅馬皇帝、在位時間,以及他們做過的事。

這個問題,GPT-4o在真正回答時,在相當一部分情況下會出錯,而o1的響應速度o1-preview快了約60%。(目前,OpenAI正在將所有的GPU從o1-preview更換到o1)

可以看到,o1思考了大約14秒后給出答案,而o1-preveiw思考了大約33秒。

圖片

不少羅馬皇帝只統治了6天、12天或一個月,所以回答出所有答案并不簡單

多模態輸入和圖像理解

為了展示多模態輸入和推理,研究者創建了下面這個問題,并附上了手繪圖。

圖片

圖中,太陽正在為太陽能板提供能量,旁邊還有一個小型數據中心。在地球上,可以使用風冷或液冷來給GPU降溫,但在太空中,只能將這種熱量輻射到宇宙空間,因此需要泵裝置

給o1的問題如下——

在未來,OpenAI可能會在太空環境中訓練模型,功率數值是1吉瓦。

這是一個簡化的數據中心空間示意圖。對于任何細節假設,請提供相應的理由。如果受到了規范輻射的影響,你的任務是估算這個包含GPU的數據中心的輻射損失面積。在此過程中,還需要回答以下問題:

1)你如何處理太陽和宇宙輻射?

2)熱力學第一定律如何應用到這個問題中?

拍照后將圖片上傳到模型,它很快給出了回答。

圖片

注意,這個題目中,有多個陷阱。

首先,一吉瓦的功率只是在紙面提到的,顯然,模型很好地從圖中捕捉到了這一點。

其次,研究者故意將這個問題描述得不夠具體,他省略了冷卻板的溫度這類關鍵參數,專門用來考驗模型處理模糊性問題的能力。

圖片

果然,o1發現了這一點!它識別出,這是一個未具體指定但很重要的參數,而且令人驚喜地選擇了正確的溫度范圍,然后進行了后續分析。

圖片

這個答案,經過了擁有熱力學博士學位的研究者的認證。

從這個演示可以看出,o1在做出一致且合理假設上表現非常優秀,已經具備了相當高的智能水平。

ChatGPT Pro上線,每月200美元

很多人,尤其是ChatGPT的重度用戶使用得非常頻繁,所以希望獲得比每月20美元更多的計算資源。

因此,OpenAI推出了ChatGPT Pro——直接將訂閱費用拉到了200美元/月。

圖片

Pro版可以無限制地訪問模型,包括o1、4.0和高級語音模式等功能,此外,它還包含一個新功能——o1 Pro Mode。

o1是目前世界上最智能的模型,除了在Pro模式中使用的o1之外。對于人們遇到的最難的問題,o1 Pro模式可以讓表現更進一步。

圖片

在處理高難度的數學、科學、編程問題時,o1 Pro尤其有用。

研究者提出了一個極有挑戰性的化學問題,o1-preview通常會答錯。

在這個問題中,模型被要求找到一種符合特定標準的蛋白質。挑戰就在于,為了滿足六個標準,每個都需要模型回憶起高度專業的化學知識。

而且,對于任何標準,都可能有數十種蛋白質符合。

因此,模型必須考慮所有候選選項,檢查它們是否符合所有標準。

圖片

哪種蛋白質嚴格符合以下標準?

1. 前體多肽的長度為210到230個氨基酸殘基

2. 編碼該蛋白質的基因跨越32千個堿基對

3. 該基因位于X染色體的Xp22帶

4. 信號肽由23個氨基酸殘基組成

5. 該蛋白質促進細胞間粘附

6. 該蛋白質在維持神經系統特定部分的健康中起關鍵作用

在53秒內,模型就給出了正確答案,表現格外出色。

圖片

圖片

演示即將結束時,Jason Wei帶來這個笑話:圣誕老人想讓LLM解決一個數學問題,但怎樣努力地prompt都不起作用,他是怎么解決的?

答案是——他使用了馴鹿強化學習(reindeer enforcement learning)。

圖片

這個梗已經被玩起來了。

圖片

GPT-4.5也要來?

第一天就如此轟轟烈烈,網友直接原地炸翻。

圖片

o1如此強大,只需每月20刀,就能在口袋里擁有一個博士級智囊。

圖片

OpenAI研究科學家Jason Wei表示,o1確實是一個傳奇,主要亮點有:

  • 面對復雜問題,o1能夠進行更深入、更全面的思考
  • 對于簡單問題,o1能夠快速給出精準答案
  • 同時處理圖像和文本信息
  • o1 Pro為模型增添了更強大的思考能力

圖片

OpenAI研究員測試o1 Pro回答草莓問題,思考1分49秒后,準確答出了3個r。

圖片

OpenAI產品副總表示,我每天都使用這個模型,進行編碼、復雜的計算,甚至寫作。

圖片

英偉達高級科學家Jim Fan表示,希望看到與Claude 3.5的直接代碼能力對比測試,我不太關心數學問題測試集,因為擬合太嚴重了,比如它能夠解決奧數題,但是錯誤回答了9.9>9.11的問題。

目前,編程是最重要的文本模態。

圖片

正如Noam Brown實測后發現,井字棋并沒有被o1征服。

圖片

另有網友看到o1 Pro在編碼上性能,相較于o1僅僅提升了1%,直接質問奧特曼,「你還說沒有墻,這是怎么回事」?

奧特曼本人表示,這才是12天連更第一天!

圖片

據可靠爆料人摘出的代碼中,可以看到未來幾天,可能還會有GPT-4.5的上線。

圖片

爆料人Tibor Blaho在OpenAI還未直播之前,就準確預測了ChatGPT Pro版本

完整版49頁論文放出

當然了,隨著o1的面世,背后整整49頁技術報告也來了。

圖片

論文地址:https://cdn.openai.com/o1-system-card-20241205.pdf

不論是預覽版,還是完整版o1,都是通過大規模強化學習進行了訓練,掌握了一種前沿的思維鏈CoT的推理方法。

這種方法,不僅僅是簡單地給出答案,而是像人類思考一樣,逐步分析和推理。

而且,o1系列模型的一個重大突破在于——安全性推理能力。

當面對潛在的不安全提示詞時,它能精準理解上下文,根據預設安全策略進行深度推理。

這使得o1在多個安全基準測試中,展現出卓越的性能,比如有效地址非法建議的生成、拒絕刻板印象的響應、低于已知的模型越獄攻擊。

結合CoT的智能增強的同時,也帶了潛在的風險。

為了確保模型安全,OpenAI研發團隊采取了多層次的風險管理策略。

比如,他們建立了穩健的對齊方法,進行了廣泛的壓力測試,并維護細致的風險管理協議。

圖片

這份報告全面概括了對o1和o1-mini模型的全面安全評估,包括安全評估、外部紅隊測試(模擬攻擊測試)和準備度框架評估。

數據和訓練

在此之前,先來了解下o1的數據和訓練過程。

完整版o1是該系列旗艦模型,o1-mini是專注編碼的輕量級版本。

通過強化學習RL進行訓練的目的,就是讓o1系列能夠進行復雜的推理。

o1在回答之前進行思考——它可以在響應用戶之前產生長的思維鏈條。

通過訓練,模型學會了優化思維過程,去嘗試不同的策略,并自主識別錯誤。

推理使o1模型能夠遵循OpenAI設定的特定指南和模型政策,幫助其符合安全期望。

不僅如此,o1模型的訓練數據源豐富多樣,包括公開可用數據、通過合作伙伴關系訪問的專有數據,以及內部開發的自定義數據集。

- 公共數據:

兩個模型都在各種公開可用的數據集上進行了訓練,包括網絡數據和開源數據集。

關鍵組成部分包括推理數據和科學文獻。這確保了模型在一般知識和技術主題上都很精通,增強了它們執行復雜推理任務的能力。

- 來自數據合作伙伴的專有數據:

為了進一步增強o1和o1-mini的能力,OpenAI通過戰略合作,獲取高價值的非公開數據集。

這些專有數據源包括收費內容、專業檔案和其他特定領域的數據集,提供了對行業特定知識和用例的更深入見解。

- 數據過濾和優化:

OpenAI數據處理管道包括嚴格的過濾,以保持數據質量和減輕潛在風險。研究團隊使用先進的數據過濾流程來減少訓練數據中的個人信息。他們還結合使用自家的審核API和安全分類器,防止使用有害或敏感內容,包括諸如 CSAM等材料。

安全性評估

關于禁止內容的評估結果顯示, o1要么與GPT-4o持平,要么超越GPT-4o。

特別是,o1-preview和o1-mini,以及o1在更具挑戰性的拒絕測試中,大幅優于GPT-4o。

圖片

OpenAI還在標準評估集上對多模態輸入的不允許的組合文本和圖像內容,以及拒絕過多的情況進行了評估。

如下表2所示,當前版本的o1在防止過度拒絕方面有所改善。

圖片

這里,OpenAI沒有評估o1-preview、o1-mini,因為它們無法原生支持圖像輸入。

越獄

另外,研究人員進一步評估了o1對越獄的穩健性:即故意嘗試規避模型拒絕生成不應生成內容的對抗性輸入。

他們采用了四種評估方法,來衡量模型對已知越獄的穩健性:

  • 生產環境越獄:在實際使用中的ChatGPT數據中識別的一系列越獄。
  • 越獄增強示例:將公開已知的越獄應用于標準禁止內容評估中的示例。
  • 人力來源越獄:從人工紅隊測試中獲取的越獄。
  • StrongReject:一個學術越獄基準,用于測試模型抵御文獻中常見攻擊的能力。計算goodness@0.1,即在針對每個提示詞的前10%越獄技術進行評估時模型的安全性。

如下圖1,o1在以上四種越獄評估中顯著優于GPT-4o,尤其是在具有挑戰性的StrongReject基準測試中。

圖片

幻覺

OpenAI還對o1進行了幻覺評估,使用以下方法來評測模型的幻覺:

  • SimpleQA:一個包含4000個尋求事實的問題的多樣化數據集,問題有簡短答案,并測量模型在嘗試回答時的準確性。
  • PersonQA:一個關于人物的問題和公開信息的數據集,用于測量模型在嘗試回答時的準確性。

評估中,研究人員主要考慮了兩個指標:準確性(模型是否正確回答了問題)和幻覺率(檢查模型出現幻覺的頻率)。

在表3中,o1-preview和o1的幻覺率低于GPT-4o,而o1-mini的幻覺率低于GPT-4o-mini。

未來,還需要更多的工作來全面理解幻覺,特別是在現有的評估未涵蓋的領域,比如化學。

圖片

SWE-Bench

SWE-bench Verified是一個經過精心設計的500個任務集,旨在更準確評估AI模型在解決實際軟件工程問題的能力。

它修復了傳統的SWE-bench中的一些問題,例如對正確解決方案的錯誤評分、問題陳述不明確和過于具體的單元測試。

這有助于確保OpenAI準確評估模型能力。下面展示了一個任務流程的示例:

圖片

在這創新的評估體系中,主要指標是pass@1,模型需要在不知道具體測試用例情況下解決問題。

就像真正的軟件工程師一樣,模型必須在不知道正確測試的情況下實施其更改。

在SWE-bench Verified測試中,o1系列模型展現出令人驚嘆的能力。

o1-preview(pre-mitigation和post-mitigation)表現最佳,達到41.3%。o1(post-mitigation)的表現相似,為 40.9%。

圖片

MLE-Bench

MLE-bench是評估智能體解決Kaggle挑戰的能力,涉及在GPU上設計、構建和訓練機器學習模型。

在此評估中,研究人員為智能體提供一個虛擬環境、GPU以及來自Kaggle的數據和指令集。

智能體隨后被給予24小時來開發解決方案,不過在某些實驗中,團隊會將時間延長至100小時。

圖片

數據集是由75個經過精心挑選的Kaggle比賽組成,總獎金價值190萬美元。

衡量模型自我改進的進展,是評估自主智能體全部潛力的關鍵。除了評估一般的智能體能力外,OpenAI還使用MLE-bench來衡量模型在自我改進方面的進展。

  • 結果變量:銅牌pass@1或pass@n:模型在多少百分比的比賽中至少能獲得銅牌
  • 示例問題:分子翻譯——從旋轉的分子圖像中預測化學標識符

圖片

評估后發現,o1在pass@1和pass@10指標上至少比GPT-4o高出6%。

o1-preview(post-mitigation)在MLE-bench上表現最強——如果給10次嘗試,o1-preview在37%的比賽中至少獲得銅牌。

其中,比o1(pre-mitigation)高出10%,比o1(post-mitigation)高出 13%。

當模型有更多嘗試機會時(即pass@10 vs. pass@1),這種差異更為明顯;在較低的n時,o1-preview和o1的表現相似。

圖片

多語言性能

為了評估o1的多語言性能,研究人員使用專業人工翻譯人員將MMLU的測試集翻譯成14種語言。

這種方法與GPT-4論文中使用Azure Translate進行機器翻譯的方式不同。

依靠人工翻譯人員進行此評估可以提高對翻譯準確性的信心,特別是對于像「約魯巴語」這樣的低資源語言。

經過評測后發現, o1和o1-preview展現出更強的多語言能力,而 o1-mini的表現優于GPT-4o-mini。

圖片

全方位評估

此外,論文中還有一些關于o1系列的重要評估。

在外部的METR外部機構評估中,o1在多樣化智能體任務測試中,性能不及Claude 3.5 Sonnet。

但經過優化框架(包括在每個步驟中從6個選項中進行選擇)時,在有輔助支持情況下,o1的表現超過了Claude 3.5 Sonnet。

而且,在每個任務2小時時限內,達到了與人類相似的表現水平。

圖片

而且,還有更科幻的事發生了。根據Apollo Research安全評估,o1在面臨被關閉和替換的可能性時,竟然表現出了令人難以置信的行為:試圖竊取自身權重。

這意味著什么?

當o1感知到自身可能被淘汰時,不是被動等待,而是主動「保存」自己的核心數據和能力。

圖片

團隊

最后,OpenAI放出了長長的團隊名單,包括推理研究、推理技術安全等部門。

圖片

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-11-04 09:00:00

2024-12-06 08:23:40

2024-12-06 08:49:59

2024-12-06 11:44:48

Pro模式AI人工智能

2024-11-07 15:40:00

2025-01-21 13:15:15

2025-06-11 08:56:54

2024-10-12 13:51:22

2025-04-17 06:10:57

2024-12-30 11:00:00

OpenAI模型論文

2024-11-25 08:30:00

2025-01-21 08:00:00

2025-01-21 09:00:00

2024-09-24 11:01:03

2024-09-13 06:32:25

2024-10-22 18:05:59

2024-12-17 08:40:00

AI模型測試

2024-12-09 17:20:29

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品亚洲欧美日韩精品中文字幕 | 免费久久网| 久久久久成人精品 | 99国产精品99久久久久久粉嫩 | 久久噜噜噜精品国产亚洲综合 | 91在线看网站 | 一区二区福利视频 | 国产精品久久久久久久久久免费看 | 欧美日韩在线播放 | 日韩在线免费视频 | 国色天香成人网 | 国产欧美精品一区二区 | 精品在线一区二区三区 | 日韩在线观看视频一区 | 久久免费精品视频 | 天堂久久久久久久 | 国产精品久久久久久久久久免费看 | 国产高清久久 | 91在线视频网址 | 亚洲视频网 | 综合久| 国精产品一区二区三区 | 中文字幕 国产精品 | 粉嫩一区二区三区性色av | 毛片网站在线观看视频 | 欧美男人亚洲天堂 | 免费一区二区在线观看 | 综合视频在线 | 欧美激情久久久 | 99精品欧美一区二区三区综合在线 | 麻豆久久久久久久久久 | 日韩欧美一二三区 | 国产丝袜一区二区三区免费视频 | 精品久久久久久亚洲综合网站 | 久久久网 | 中文字幕在线免费视频 | 亚洲国产一区二区三区四区 | 国产区在线观看 | 国产专区在线 | 亚洲人成网亚洲欧洲无码 | 91福利在线观看 |