成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

沃頓商學院教授發文解析o1:能力仍有短板,「人機協同智能」或成AGI最重要難題

人工智能 新聞
OpenAI最近奉上了滿血版的o1 Pro,這一全新系列的模型究竟有多強?它能否指明AI發展的未來方向?沃頓商學院教授在3個月的前一篇博客就中給出了「神預言」一般的答案。

o1 preview問世3個月后,滿血版的o1 Pro終于在上周以每月200美元的身價正式上線,奧特曼號稱其為「當今世界上最智能的模型」。

所以,這個正式的o1 Pro究竟強大到了什么程度?

可以肯定的是,它遠遠不是一個走到AGI終點的滅霸,但這是scaling law之后的又一個里程碑嗎?代表著未來LLM的發展方向嗎?能像OpenAI研究院Jason Wei所說的,足以成為一個「傳奇」嗎?

圖片

就在o1 Pro發布的當口,沃頓商學院副教授、GenAI實驗室聯合主任Ethan Mollick提起了這篇自己3個月前寫就的博客,可以說既是模型發布前的「神預言」,也是一盆有理有據、恰到好處的「冷水」。

圖片

Ethan Mollick表示,早在9月份我們第一次見到o1 preview時,他就寫下了這篇博客文章,詳解這個模型對當下和未來都意味著什么。模型的質量很重要,但更為重要的是,了解模型對人工智能未來的潛在意義。

下面,我們就把這篇文章當成時間傳送門,將3個月前橫空出世的o1 preview和處在性價比漩渦中的o1 Pro放在一起比較,或許可以給當下提供更多啟發。

「草莓」大顯身手

圖片

一段時間之前,我已經接觸到了傳聞沸沸揚揚的被稱為「草莓」的增強版推理系統,現在OpenAI將其發布了,我也終于可以分享一些想法。

這個模型的確讓人驚訝,但能力仍然有限,但最重要的是,它的出現指明了AI的發展方向。

新模型被稱為o1-preview(此處Mollick狠狠吐槽OpenAI等一眾AI公司在命名上非常糟糕),讓AI在解決問題之前先「思考」一個問題,因此能夠解決需要規劃和迭代的困難問題。

根據這張我們都熟悉的基準結果圖,o1-preview在數學和科學領域尤為強悍,對于極其困難的物理問題,甚至可以擊敗博士級別的人類專家。

圖片

但需要明確的是,o1-preview并不是在所有方面都有提升,比如在寫作方面就沒有比GPT-4o更強;但對于需要計劃的任務來說,變化就相當大了。

由于很難評估所有這些復雜任務的輸出,因此要展示「Strawberry」模型的提升(以及一些限制),也許最簡單直觀的方法就是游戲——比如填字游戲(crossword puzzle)。

不要小瞧了填字游戲,這是一個下限很低但上限也很高的項目,最難的填字游戲完全可以達到地獄模式,而且非??简炦壿嬐评砟芰Α?/span>

電影《模仿游戲》中就有這樣的情節:二戰期間,AI之父Alan Turing擔任英國密碼破譯項目Enigma的負責人,為了招攬全國在數學和密碼學方面的才俊,他就在報紙上登出了一個填字游戲作為報名測試,甚至最后一關的現場考核也是要求a在規定時間內做出填字游戲題。

圖片

電影《模仿游戲》劇照

由于o1 preview還無法從圖片中讀取文字,因此Mollick只能自己手動打出來喂給模型。如下圖所示,這是一個相當具有挑戰性的難題,而且,Mollick只挑選了18條線索中的8條提供給o1。

圖片

填字游戲對于LLM來說尤其困難,因為需要迭代解決:嘗試并否決掉許多相互關聯的答案——這是之前的大模型無法做到的,因為他們一次只能在答案中添加一個token/單詞。

如下圖所示,如果給Claude提供相應的線索,它首先給出序號1的答案(它猜測是STAR,但這個答案是錯誤的),然后在此基礎上嘗試解答其余部分。

然而,由于第一顆扣子就扣錯了,Claude永遠都無法接近正確答案。如果沒有規劃流程,它就只能向前沖,并不知道自己前進的方向是對是錯。

圖片

Claude的嘗試

但面對相同的問題時,「草莓」時會怎么做呢?

首先,它會開始「思考」,這個過程持續了整整108秒(但大多數問題都能在更短的時間內解決)。

而且,o1思考時并不是一聲不吭,而是會「自言自語」,輸出自己的「思維鏈」讓你看到它的想法。下面是其中的一個示例(還有更多內容未展示出來),而且這些想法非常有啟發性,值得你花點時間閱讀。

圖片

在這個過程中,「草莓」反復迭代,不斷創造想法并否決其中不可行的部分,結果做得很好,令人印象深刻。

但值得注意的是,o1-preview似乎仍然基于GPT-4o,而且有時對于語言的理解過于拘泥于字面意思。

比如,下圖右側中1 Down的答案是「Galaxy cluster」,這顯然并不是指真正的星系,而是Samsung Galaxy手機——「APPS」。

AI并沒有猜到這層意思,因此不斷嘗試各種星系團的名稱,然而確定Down 1是COMA(是一個真實的星系團),可想而知,其余的結果也不正確。雖然不完全符合規則,但也相當有創意。

但公平來講,Mollick本人也沒有猜到這層意思。如果把「Down 1是APPS」這個線索提供給o1,可以看到模型又開始在接下來的1分鐘內快速迭代想法(下圖左側),并正確推理出了Across 1的答案是「ACTS」。

圖片

這里是o1在一條線索的基礎上給出的最終答案,完全正確,而且解決了硬引用,盡管它幻想出了一條不存在的新線索。相比之下,身為名牌大學副教授的Ethan Mollick甚至都沒能接近這個正確答案。

圖片

至此我們可以發現,o1-preview做了一些沒有Strawberry就不可能完成的事情,但它仍然不是完美無缺的:錯誤和幻覺仍然會發生,而且仍然受限于底層模型GPT-4o的「智能」的限制。

雖然Claude有很多優點,但相比之下,o1在復雜規劃或解題方面遠遠勝出,代表了這些領域的巨大飛躍。

從協同智能到...

o1-preview意味著我們正面臨人工智能范式的改變?!敢巹潯故侵悄荏w的一種表現形式,人工智能可以在沒有人類幫助的情況下自行得出結論并解決問題。

可以從上面的例子中看到,AI完成了太多繁重的思考工作,并產生了完整的結果,人類作為合作伙伴的角色反而被削弱了,整個過程的主體是AI完成了自己的工作并給出答案。

當然,我們可以篩選推理思維鏈的輸出來發現AI犯了哪些錯誤,但Ethan Mollick的感覺是,他作為布置任務的人,和AI的輸出內容之間沒有什么聯系,也沒有在引導解決方案的走向上發揮重要作用。這不一定是壞事,但和之前不同。

隨著這些系統不斷升級并逐漸接近真正的自主智能體,我們需要弄清如何與其保持人類在保持同步——既能捕獲錯誤,又要及時察覺到我們試圖解決的問題。

o1-preview正在緩緩拉開帷幕,解鎖我們尚未見到的AI能力,盡管它目前還存在局限性。這給我們留下了一個關鍵問題:隨著AI的發展,我們如何進化人類與人工智能的合作?這是o1-preview目前還無法解決的問題。

責任編輯:張燕妮 來源: 新智元
相關推薦

2017-06-28 11:50:51

金融戴爾混合云

2023-02-22 14:06:38

2012-03-16 16:17:44

銳捷網絡沃頓商學院

2024-08-05 10:27:00

AI藝術

2013-05-13 09:22:23

云遷移云遷移案例遺留應用

2016-08-15 15:17:47

沃頓商學院51CTO高招技術人才

2023-04-03 12:02:25

ChatGPT人工智能

2009-04-01 18:44:48

Vmware虛擬化存儲

2012-02-17 10:59:35

原創視頻

2018-10-23 10:55:07

2009-02-24 18:56:01

虛擬化存儲虛擬化南加州大學

2014-11-25 10:25:02

2009-01-08 17:19:28

服務器虛擬化南加州

2020-08-24 17:08:19

騰訊

2017-11-13 11:35:43

學院

2013-10-18 09:50:54

2018-01-15 14:59:07

智能制造智能化供應鏈

2024-12-09 09:00:00

AGI智能

2013-12-09 18:08:30

華為教育信息化

2024-12-30 09:30:00

OpenAIAI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线高清免费观看视频 | 国产精品一区二区免费看 | 成人亚洲综合 | 国产目拍亚洲精品99久久精品 | 亚洲精品成人在线 | 成人妇女免费播放久久久 | 久久精品99久久 | 黑人精品| 欧美成人二区 | 九九久久精品 | 视频一区二区三区中文字幕 | 国产精品欧美一区二区三区不卡 | 久久夜视频 | 日韩欧美视频 | 精品免费视频一区二区 | 91精品国产91久久久 | 欧美在线精品一区 | 天堂视频免费 | 免费观看成人性生生活片 | 91精品在线播放 | 亚洲精品美女 | 欧美在线观看一区 | www.9191| 日韩精品免费视频 | 国产欧美精品一区二区 | 久久99精品久久久 | 一区二区三区精品视频 | 成人午夜视频在线观看 | 99爱在线观看 | 99精品视频网 | 91福利在线导航 | 国产成人精品久久二区二区 | 亚洲天堂久久新 | 国产成人精品免高潮在线观看 | 国产999精品久久久 日本视频一区二区三区 | 国产不卡一 | 国产资源在线视频 | 久草新视频 | 热久久999| 精品免费视频 | 一区二区三区中文 |