成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<bdo id="gmieu"></bdo>

<tbody id="gmieu"><dfn id="gmieu"></dfn></tbody>

<abbr id="gmieu"><td id="gmieu"></td></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

GPT-4o成為全領域SOTA！基準測試遠超Gemini和Claude，多模態功能遠超GPT-4

作者：新智元 2024-05-20 08:20:00

人工智能新聞

OpenAI半小時的發布會讓很多人第一反應是直呼「失望」，但隨著官網放出更多demo以及更多網友開始試用，大家才發現GPT-4o真的不可小覷，不僅在各種基準測試中穩拿第一，而且有很多發布會從未提及的驚艷功能。

OpenAI在發布會上官宣GPT-4o之后，各路大神也開始了對這個新模型的測評，結果就是，GPT-4o在多項基準測試上都展現了SOTA的實力。

別家發布會都在畫餅，OpanAI卻總能開出一種「欲揚先抑」的效果，驚喜全在發布會之后。

基準測試結果

首先，在LMSys聊天機器人競技場上的ELO分數排行上，GPT-4o套了一個GPT2聊天機器人的馬甲，以一騎絕塵的態勢名列第一，評分為1310，和第二名GPT-4-turbo的1253分相比，呈現斷檔式的提升。

再來看多模態領域的基準Reka Vibe-Eval，這也是一個很有挑戰性的測試，由 269 個超高質量圖像文本對組成，用于評估多模態語言模型的性能。

在Reka Vibe-Eval 分數的排行榜上，GPT-4o再次榮登第一，相比谷歌新發布的Gemini Pro 1.5高出了將近三個百分點。

而且GPT-4o克服了這個測試集上大模型常見的「逆縮放」問題，也就是在某些案例中表現不如小模型的問題。

不止如此，GPT-4o的內存突破也值得關注。

針里尋針（Needle in a Needlestack，NIAN）是最近非常流行的開源基準測試，用于評估大模型關注上下文內容的能力。

大語言模型的進展導致曾經流行的基準測試「大海撈針」已經過時，在此基礎上，更具挑戰性的「針里尋針」測試誕生了。

https://github.com/llmonpy/needle-in-a-needlestack

測試中，「針里尋針」會從一個大型打油詩數據庫中挑出幾首，將其放在prompt中的特定位置，之后再詢問關于這些打油詩的問題，由此可以很好地考察LLM的上下文記憶能力。

每個測試使用5-10個打油詩，放置在prompt中的5-10個位置，重復2-10次。

曾經，GPT-4 Turbo和Claude-3 Sonnet都在「針里尋針」測試中表現得非常慘烈，側面證明了這個任務對LLM的難度和挑戰性。

廣受歡迎的Mistral模型雖然表現得稍好一點，但正確率基本不超過60%。

相比之前的模型，GPT-4o取得了飛躍性的突破，正確率每個token位置上都不低于80%，一度接近100%，表現近乎完美！

GPT-4o的能力被嚴重低估了

新推出的輕量級「GPT-4o」模型，雖然有速率限制，但重點是——免費！

語音交互絕對是模型的「亮點」，但它的功能遠不止于此！

OpenAI表示這是他們第一個真正的多模態模型，通過單一的神經網絡完成所有任務。

網友表示「不知道這是否是真的還是有些夸大，但GPT-4o在所有領域的能力都超過了市場上的其他任何產品。」

有網友發現，作為原生多模態模型，GPT-4o的文生圖效果非常驚艷，甚至超過DALLE和MidJourney

而且，在生成圖片上的文字時，效果更是遠遠好過DALL-E 3。

DALL-E 3 在圖像上生成超過5個單詞后就會崩潰，而GPT-4o不僅做到文字的連續性，還能在之前生成圖像的基礎上進行迭代。

這種迭代是非常重要的，也標志著模型能力的巨大飛躍。雖然生成出來的文字還是非常「生硬」，甚至有明顯錯誤，但是迭代能力可以使GPT-4o后續逐漸減少文字和圖像方面的錯誤。

除了生成文字，GPT-4o還能你為生成獨立的角色形象，然后進行對話互動。

神奇的是，他們把對話界面隱藏在一個懸停圖標下！這意味著你可以對它進行任意動作、風格和場景的設計！而且GPT-4o在風格表現方面做得非常出色。

平面圖片不夠炫酷？GPT-4o能夠對圖片進行3D重建。

GPT-4o還是一個強大的PS工具，OpenAI的logo被輕松嵌入到了杯墊上，但仔細看的話，你會注意到這兩張圖片不是同一個杯墊。

模型沒有在原圖片基礎上進行修補，而是從頭生成，因此看起來像原始的、未經過PS的圖片。

Reddit上一位網友分析認為，OpenAI的Sam Altman等主創團隊可能是太喜歡《Her》這部電影了，他們對GPT-4o的語音互動設計很明顯受電影的啟發（Altman也暗示了這一點），而且發布會的展示也借鑒了電影的手法——

讓模型自己展示其驚人的能力，而不是像蘋果或者谷歌那樣列出原始數據和技術細節。

這樣做非常有「藝術感」，吊足了圍觀群眾好奇心，但也很容易讓人低估模型的能力。

GPT-4o的能力如此強大，也引發了對模型架構的猜測和熱烈討論，網友們的觀點也呈現出兩個方向。

一派認為，模型架構應該基本與GPT-4類似。

而另一方的觀點似乎更占上風，認為底層架構絕對有重大變動，目標是對齊GPT-4的文字能力，并在推理和多模態方面相比GPT-4有更多提升。

白熱化的開源與閉源之爭

雖然搭載GPT-4o的ChatGPT聊天界面及其API已經免費開放給用戶使用，但OpenAI依舊堅持了不開源的傳統，這次甚至連一篇技術報告都沒有。

但這并不影響GPT-4o在LLM角斗場中掀起風云。Liquid AI的資深科學家Maxime Labonne這樣描述：「LLM 爭奪戰愈演愈烈，GPT-4o 遙遙領先」

這場競爭中值得關注的另一個角度，則是大語言模型的開源和閉源之戰。GPT-4o能力的快速增長導致閉源和開源之間的差距再次被拉大。

更重要的是，閉源陣容中并非GPT-4o一枝獨秀。綜合迄今為止發布的所有LLM，閉源模型的總體表現始終比開源模型更加優秀，而且GPT、Claude、Gemini等系列的閉源模型始終走在最前沿。

紅色代表閉源模型，綠色代表開源模型，藍色區域表示二者之間的差距

曾經，大公司將Linux、安卓等項目開源的動力是希望借助所有開發者的力量，得到不同角度的反饋和更新意見，從而進行快速的迭代優化，并且構建了在世界范圍內有廣泛影響力的大規模社區，反哺其他的產品線。

但對于LLM來說，情況就不一樣了。

想要不斷提升大語言模型的能力，算力成本是更大的挑戰。根據斯坦福大學發布的2024年人工智能指數報告，訓練GPT-4的計算成本約為7800萬美元，Gemini Ultra則是一億九千一百萬美元左右。

原文鏈接：https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf

面對這種級別的投入，去中心化的開源社區對比有巨額投資的科技公司，顯然沒有優勢。企業要想擴大模型產品的影響力，只需像OpenAI一樣，免費開放API給用戶使用即可。

目前這種開源和閉源模型差距越來越大的趨勢，Jim Fan曾在去年6月就做出過類似的預測。

但是，LLM的開閉源之爭，不僅是企業的商業決策，更關乎AI行業整體的發展。

首先是安全性問題。最近剛從OpenAI離職的首席科學家Ilya Sutskever本人就對此十分關注，他曾在2016的一封電郵中寫道：「隨著我們越來越接近構建人工智能，開始變的不那么開放是有意義的。」

可以想象一下，如果像GPT-4o這樣能力強大的模型公布了代碼和模型權重，任何開發者都可以在此基礎上微調，以滿足自己定義的任何功能，AI的力量可能會迅速失控。

「像 GPT 這樣的研究如果落入壞人之手，也可能會進化并導致災難。」

但另一方面，這些只開放API但不開源的大語言模型對初創公司并不友好。他們沒辦法根據特定的需求和場景、使用私有數據對模型進行微調，開發出有獨創性的、功能靈活多樣的產品，只能開始「套殼」。

導致的結果就是，AI初創公司并沒有像我們想象的那樣蓬勃發展，我們也沒有看到更多的加入到工作和生活各方各面的AI產品。

正像Jim Fan推文中提到的，「開源LLM總是有更大的多樣性」。

這似乎是一個兩難問題。

隨著大模型之戰愈演愈烈，相信對于開源和閉源的激烈討論依舊會持續下去。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：奇米视频777 | 欧美一区二区大片 | 亚洲专区在线 | 日韩在线不卡视频 | 中文字幕视频在线看 | 久久亚洲综合 | 99久久精品国产一区二区三区 | 久久久免费精品 | 国产免费一区二区 | 日本免费在线 | 日韩在线播放av | 成人在线视频网址 | 久草日韩| 日本三级精品 | 国产在线一区二区三区 | 日本韩国电影免费观看 | 日日干日日| 精品国产一区二区在线 | 国产99热在线 | 亚洲精品视频在线看 | 超碰人人人| 国产成人免费视频网站高清观看视频 | 日日夜夜天天 | 欧美一区二区综合 | 一区二区三区四区在线 | www.欧美.com | 视频精品一区二区三区 | 欧美午夜一区二区三区免费大片 | 成人不卡视频 | 久久久久久久久99精品 | 亚洲福利在线视频 | 国产日产精品一区二区三区四区 | 精品视频免费 | 91麻豆精品国产91久久久久久久久 | 免费在线观看毛片 | 国产乡下妇女做爰 | 99精品久久久 | 精品一区国产 | 碰碰视频| 国产日韩欧美一区 | 亚洲人成人一区二区在线观看 |

<samp id="wcqo8"><button id="wcqo8"></button></samp><table id="wcqo8"></table>

<samp id="wcqo8"></samp>