成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<sup id="04asu"><wbr id="04asu"></wbr></sup>

<acronym id="04asu"></acronym>

<option id="04asu"><noframes id="04asu"></noframes></option>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

沃頓商學院教授發文解析o1：能力仍有短板，「人機協同智能」或成AGI最重要難題

作者：新智元 2024-12-18 15:30:00

人工智能新聞

OpenAI最近奉上了滿血版的o1 Pro，這一全新系列的模型究竟有多強？它能否指明AI發展的未來方向？沃頓商學院教授在3個月的前一篇博客就中給出了「神預言」一般的答案。

o1 preview問世3個月后，滿血版的o1 Pro終于在上周以每月200美元的身價正式上線，奧特曼號稱其為「當今世界上最智能的模型」。

所以，這個正式的o1 Pro究竟強大到了什么程度？

可以肯定的是，它遠遠不是一個走到AGI終點的滅霸，但這是scaling law之后的又一個里程碑嗎？代表著未來LLM的發展方向嗎？能像OpenAI研究院Jason Wei所說的，足以成為一個「傳奇」嗎？

就在o1 Pro發布的當口，沃頓商學院副教授、GenAI實驗室聯合主任Ethan Mollick提起了這篇自己3個月前寫就的博客，可以說既是模型發布前的「神預言」，也是一盆有理有據、恰到好處的「冷水」。

Ethan Mollick表示，早在9月份我們第一次見到o1 preview時，他就寫下了這篇博客文章，詳解這個模型對當下和未來都意味著什么。模型的質量很重要，但更為重要的是，了解模型對人工智能未來的潛在意義。

下面，我們就把這篇文章當成時間傳送門，將3個月前橫空出世的o1 preview和處在性價比漩渦中的o1 Pro放在一起比較，或許可以給當下提供更多啟發。

「草莓」大顯身手

一段時間之前，我已經接觸到了傳聞沸沸揚揚的被稱為「草莓」的增強版推理系統，現在OpenAI將其發布了，我也終于可以分享一些想法。

這個模型的確讓人驚訝，但能力仍然有限，但最重要的是，它的出現指明了AI的發展方向。

新模型被稱為o1-preview（此處Mollick狠狠吐槽OpenAI等一眾AI公司在命名上非常糟糕），讓AI在解決問題之前先「思考」一個問題，因此能夠解決需要規劃和迭代的困難問題。

根據這張我們都熟悉的基準結果圖，o1-preview在數學和科學領域尤為強悍，對于極其困難的物理問題，甚至可以擊敗博士級別的人類專家。

但需要明確的是，o1-preview并不是在所有方面都有提升，比如在寫作方面就沒有比GPT-4o更強；但對于需要計劃的任務來說，變化就相當大了。

由于很難評估所有這些復雜任務的輸出，因此要展示「Strawberry」模型的提升（以及一些限制），也許最簡單直觀的方法就是游戲——比如填字游戲（crossword puzzle）。

不要小瞧了填字游戲，這是一個下限很低但上限也很高的項目，最難的填字游戲完全可以達到地獄模式，而且非?？简炦壿嬐评砟芰Α?/span>

電影《模仿游戲》中就有這樣的情節：二戰期間，AI之父Alan Turing擔任英國密碼破譯項目Enigma的負責人，為了招攬全國在數學和密碼學方面的才俊，他就在報紙上登出了一個填字游戲作為報名測試，甚至最后一關的現場考核也是要求a在規定時間內做出填字游戲題。

電影《模仿游戲》劇照

由于o1 preview還無法從圖片中讀取文字，因此Mollick只能自己手動打出來喂給模型。如下圖所示，這是一個相當具有挑戰性的難題，而且，Mollick只挑選了18條線索中的8條提供給o1。

填字游戲對于LLM來說尤其困難，因為需要迭代解決：嘗試并否決掉許多相互關聯的答案——這是之前的大模型無法做到的，因為他們一次只能在答案中添加一個token/單詞。

如下圖所示，如果給Claude提供相應的線索，它首先給出序號1的答案（它猜測是STAR，但這個答案是錯誤的），然后在此基礎上嘗試解答其余部分。

然而，由于第一顆扣子就扣錯了，Claude永遠都無法接近正確答案。如果沒有規劃流程，它就只能向前沖，并不知道自己前進的方向是對是錯。

Claude的嘗試

但面對相同的問題時，「草莓」時會怎么做呢？

首先，它會開始「思考」，這個過程持續了整整108秒（但大多數問題都能在更短的時間內解決）。

而且，o1思考時并不是一聲不吭，而是會「自言自語」，輸出自己的「思維鏈」讓你看到它的想法。下面是其中的一個示例（還有更多內容未展示出來），而且這些想法非常有啟發性，值得你花點時間閱讀。

在這個過程中，「草莓」反復迭代，不斷創造想法并否決其中不可行的部分，結果做得很好，令人印象深刻。

但值得注意的是，o1-preview似乎仍然基于GPT-4o，而且有時對于語言的理解過于拘泥于字面意思。

比如，下圖右側中1 Down的答案是「Galaxy cluster」，這顯然并不是指真正的星系，而是Samsung Galaxy手機——「APPS」。

AI并沒有猜到這層意思，因此不斷嘗試各種星系團的名稱，然而確定Down 1是COMA（是一個真實的星系團），可想而知，其余的結果也不正確。雖然不完全符合規則，但也相當有創意。

但公平來講，Mollick本人也沒有猜到這層意思。如果把「Down 1是APPS」這個線索提供給o1，可以看到模型又開始在接下來的1分鐘內快速迭代想法（下圖左側），并正確推理出了Across 1的答案是「ACTS」。

這里是o1在一條線索的基礎上給出的最終答案，完全正確，而且解決了硬引用，盡管它幻想出了一條不存在的新線索。相比之下，身為名牌大學副教授的Ethan Mollick甚至都沒能接近這個正確答案。

至此我們可以發現，o1-preview做了一些沒有Strawberry就不可能完成的事情，但它仍然不是完美無缺的：錯誤和幻覺仍然會發生，而且仍然受限于底層模型GPT-4o的「智能」的限制。

雖然Claude有很多優點，但相比之下，o1在復雜規劃或解題方面遠遠勝出，代表了這些領域的巨大飛躍。

從協同智能到...

o1-preview意味著我們正面臨人工智能范式的改變?！敢巹潯故侵悄荏w的一種表現形式，人工智能可以在沒有人類幫助的情況下自行得出結論并解決問題。

可以從上面的例子中看到，AI完成了太多繁重的思考工作，并產生了完整的結果，人類作為合作伙伴的角色反而被削弱了，整個過程的主體是AI完成了自己的工作并給出答案。

當然，我們可以篩選推理思維鏈的輸出來發現AI犯了哪些錯誤，但Ethan Mollick的感覺是，他作為布置任務的人，和AI的輸出內容之間沒有什么聯系，也沒有在引導解決方案的走向上發揮重要作用。這不一定是壞事，但和之前不同。

隨著這些系統不斷升級并逐漸接近真正的自主智能體，我們需要弄清如何與其保持人類在保持同步——既能捕獲錯誤，又要及時察覺到我們試圖解決的問題。

o1-preview正在緩緩拉開帷幕，解鎖我們尚未見到的AI能力，盡管它目前還存在局限性。這給我們留下了一個關鍵問題：隨著AI的發展，我們如何進化人類與人工智能的合作？這是o1-preview目前還無法解決的問題。

責任編輯：張燕妮來源：新智元

OpenAI 模型技術

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：在线高清免费观看视频 | 国产精品一区二区免费看 | 成人亚洲综合 | 国产目拍亚洲精品99久久精品 | 亚洲精品成人在线 | 成人妇女免费播放久久久 | 久久精品99久久 | 黑人精品| 欧美成人二区 | 九九久久精品 | 视频一区二区三区中文字幕 | 国产精品欧美一区二区三区不卡 | 久久夜视频 | 日韩欧美视频 | 精品免费视频一区二区 | 91精品国产91久久久 | 欧美在线精品一区 | 天堂视频免费 | 免费观看成人性生生活片 | 91精品在线播放 | 亚洲精品美女 | 欧美在线观看一区 | www.9191| 日韩精品免费视频 | 国产欧美精品一区二区 | 久久99精品久久久 | 一区二区三区精品视频 | 成人午夜视频在线观看 | 99爱在线观看 | 99精品视频网 | 91福利在线导航 | 国产成人精品久久二区二区 | 亚洲天堂久久新 | 国产成人精品免高潮在线观看 | 国产999精品久久久日本视频一区二区三区 | 国产不卡一 | 国产资源在线视频 | 久草新视频 | 热久久999| 精品免费视频 | 一区二区三区中文 |

<rt id="qqq4a"><small id="qqq4a"></small></rt>

<optgroup id="qqq4a"></optgroup>

<center id="qqq4a"><strike id="qqq4a"></strike></center>

<menu id="qqq4a"><th id="qqq4a"></th></menu><delect id="qqq4a"></delect>