成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4.5智商測試94,登上LLM競技場榜首!網友質疑黑幕,實測結果驚人

人工智能 新聞
在知名AI排行榜LM Arena中,曾全班墊底的GPT-4.5竟一度拿下第一?甚至在數學、編程等領域表現優異,這反常的表現讓網友們一度質疑:大模型競技場莫非被LLM操縱了?不過網友們在實測后卻驚訝發現,GPT-4.5的確情商爆表,不用推理就能理解人類的深層意圖!

GPT-4.5,口碑又意外反轉了?

經過3千多輪比較,GPT-4.5在全部類別拿下第一,位居LLM競技場首位!

「不看智商看情商」的GPT-4.5,不是推理模型,此前的基準測試中基本都是全班墊底,慘不忍睹。

結果一轉眼,它就在大模型競技場上登頂了??

剛剛,LLM  Arena排行榜官宣:GPT-4.5 在所有類別中都位居榜首,在風格控制、多輪對話方面獨占鰲頭,拿到了1411的總分。

在多輪對話、困難提示、編碼、數學、創意寫作、指令遵循、長查詢等領域都是第一!

這個結果,也太讓人意外了吧……

馬斯克立馬跳出來表示:GPT-4.5只是短暫的第一,并不會維持太久。

果然,馬斯克話音剛落不久,大模型競技場的TOP 1就成了Grok-3,總分1412,跟GPT-4.5的比分緊咬,差距極小。

但無論如何,曾經登頂TOP 1的GPT-4.5,給人們留下了一串串的疑問:它不光情商高,讓人如沐春風,而且絕頂聰明,睥睨群雄,天下第一,吊打o1、Grok-3、Clauede等前輩???

主打一個「高情商」的GPT-4.5,純靠情商就能拿下編程、數學等領域第一嗎?

現在,已經直接有網友開始質疑:大模型競技場是不是有什么問題了。

甚至還有人猜測:LLM是不是已經學會操縱LMArena了?

GPT-4.5智商結果公布:得分94排名第五

就在同時,GPT-4.5的智商測試結果也公布了。

可以看到,GPT-4.5的線下測試智商為97,線上門薩測試智商為94。

總之,無論是線上還是線下智商測試,GPT-4.5的得分都沒有OpenAI的o1 Pro、o3 mini和o1-preview高。

這個結果,總算是合理了些。

而在眾多大模型中,線下智商測試得分最高的是OpenAI o1 pro,線上門薩智商測試得分最高的是OpenAI o1。

但要和人類比的話,GPT-4o可以說已經和人類的智商齊平。

人類的平均智商,大概在90到110。愛因斯坦的智商約為160,而陶哲軒被認為世界上智商最高的人,得分在225到230之間。

人類的智商被LLM超越,應該也就是近在咫尺的事了。

然而也有很多人質疑了:給LLM測智商,到底意義幾何呢?

原因在于,智商是一個和人類心智獨特性相關的度量,不可能與LLM相關。

網友實測驚喜:它很理解用戶意圖!

最近,奧特曼就曬出了自己和GPT-4.5對話的記錄。

他提問道:「奇點臨近,未知在哪一側」,你如何看待?

GPT-4.5意味深長地答道:我們已經超越了奇點的事件視界,但只是剛剛越過。

我們已踏入奇點的引力范圍,但要理解它的后果,依然為時尚早。

顯然,奧特曼對于GPT-4.5的表現非常滿意。

而就在這些天的實測中,許多網友也發現,GPT-4.5擁有一種超凡的自我意識,在理解用戶意圖上令人驚喜。

比如下面這個例子中,用戶就開了一個關于國際象棋的粗俗玩笑,GPT-4.5沒有任何困難地就接住了這個梗,并且給出了適宜的回答。

這位AI大V表示,自己對此印象太深刻了!因為GPT-4.5在完全沒有經過任何思考token的情況下,就抓住了這個微妙之處。

他感慨道:預訓練并沒有過時,只是在某些領域收益遞減了,但在其他領域卻得到了驚人的提升!

相比之下,對于這句讓LLM很難理解的人類粗俗玩笑,Claude Sonnet很顯然并沒有理解。

同樣,Grok 3也沒有get到這句話的意思。

對此,不服氣的馬斯克還出現在了評論區,貼上了Grok 3的回復,力證它并沒有落后。

GPT-4.5并非文武雙全

仔細看競技場排名,目前在「語言」(language)選項上,UB排名第一的是Grok-3-Preview-02-24,得分1412,共3364次投票。

GPT-4.5-Preview的UB排名第二,得分1411,只在「風格控制」(StyleCtrl)上排名第一,共3224次投票。

· UB排名:模型的排名上限,由統計上優于目標模型的數量加一確定。當模型A的95%置信區間下限分數高于模型B的上限分數時,認為模型A在統計上優于模型B。

· 風格控制排名:考慮了響應長度和Markdown使用等影響因素的模型排名,從而將模型性能與潛在的混淆因素分離。

「綜合」(Overall)選項上,Grok-3和GPT-4.5排名并列第一,后者在部分項目上有微弱優勢。

在編程(coding)和數學(math)上,GPT-4.5的確和Grok-3并列第一。

按不同語言分類,Grok-3和GPT-4.5在英文、中文、德文等語言上并列第一。

此外DeepSeek-R1在中文上也是第一。

WebDev Arena是實時進行的AI編程競賽,各個模型在「網頁開發」挑戰中直接對決,GPT-4.5壓根沒參賽!

而且OpenAI的模型表現并非佳,最好的o3-mini-high與Early-grok-3并列第4,落后與Claude 3.7 Sonnet、Claude 3.5 Sonnet以及DeepSeek-R1。

GPT-4.5新王登基?測試讓人大跌眼鏡

對于GPT-4.5,某研究者也發表了一篇博客,來對它詳細進行了剖析。

GPT-4.5在社區中引發了褒貶不一的反應。

盡管前期進行了大肆炒作,該模型卻未能完全達到人們的高期望。

一些測試結果讓人大跌眼鏡。

Karpathy的測試表明,在五分之四的情況下,用戶更傾向于GPT-4o的回答。

盡管GPT-4.5被宣傳為更具創意和情商,但在實際的用戶體驗中,這些優勢并沒有充分體現出來。

甚至有用戶反饋,在創意寫作方面,GPT-4.5的表現不如之前的模型。

此外,高昂的使用成本也成為了推廣GPT-4.5的一大障礙。

與GPT-4o相比,GPT-4.5的API價格大幅上漲:輸入token價格從每百萬2.50美元漲到了75美元,輸出token價格從每百萬10美元漲到了150美元。

用戶對GPT-4.5的高價普遍表示難以接受,一些網友直言「只是為了感覺更有氛圍而花75美元」。

對于小型公司和獨立開發者來說,如此高昂的成本無疑是一個巨大的負擔,影響了GPT-4.5的廣泛應用。

GPT-4.5的高價格可能反映了背后的資源約束。

Altman表示,盡管公司希望同時推出GPT-4.5 Plus和Pro版本,但GPU資源已經用盡,計劃在下周增加數萬個GPU,然后才能推廣到Plus用戶。

盡管GPT-4.5在某些方面取得了明顯的進步,許多人期望的全面改進卻并未實現。

由于其龐大的規模和復雜的架構,GPT-4.5的響應速度更慢,降低了用戶體驗。

Sam Altman對GPT-4.5的高調宣傳,抬高了人們的期望,他將其描述為第一個「真正讓人感受到AGI」的時刻。

如果現實未能達到預期,這種宣傳也會像回旋鏢一樣對他不利。

為什么現在發布GPT-4.5?

與GPT-4兩年前的盛大發布相比,GPT-4.5的發布出奇地低調簡約,令許多人感到意外。

Sam Altman沒有親自出席這次發布會,這引發了外界對OpenAI對GPT-4.5的重視程度和信心的疑問。

GPT-4.5的目標受眾主要是廣大的普通用戶,借助AI完成撰寫郵件、總結文章等任務。

GPT-4.5是OpenAI從GPT-4o向GPT-5過渡的關鍵橋梁,成為了創意、溝通和解決實際問題的日常伙伴。

OpenAI明確表示,GPT-4.5并非旨在取代GPT-4o,這一表態進一步增加了市場對GPT-4.5未來的不確定性。

對許多人來說,ChatGPT就是AI的代名詞,再加上OpenAI對AGI的大力炒作,提高了人們對新模型的期待。

GPT-4.5發布的原因可能是市場競爭加劇。

短時間內,越來越多更好的模型進入市場。DeepSeek R1可以與GPT-4o相媲美,xAI的Grok 3看起來幾乎像人類,OpenAI面臨著巨大的壓力。

GPT-5預計在幾個月內發布,首次在模型中結合推理和非推理組件,可以自主決定對查詢的反應強度,即「推理擴展」。

GPT-4.5是戰略性回應,目標是留住付費用戶,防止其在GPT-5發布前轉向競爭對手,保持OpenAI在市場中的領先地位。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-04-22 08:40:00

LLM模型開源

2025-02-28 09:00:00

2012-05-31 14:20:14

2024-05-20 15:25:47

2025-03-03 07:39:23

2024-08-08 13:03:46

2025-02-17 12:24:43

2024-05-06 08:25:00

2025-04-16 09:30:16

2023-12-18 15:08:00

GPTOpenAI泄露

2025-03-05 08:50:00

模型AI數據

2025-04-07 09:35:00

Meta模型開源

2013-09-12 11:17:02

2025-04-14 09:06:00

2024-12-31 12:35:46

2024-05-31 14:23:15

2024-03-08 13:02:56

Claude 3GPT-4Opus

2024-07-24 12:40:44

2025-03-03 08:00:00

OpenAI模型AI

2014-10-31 15:43:02

華為智慧
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久图文区 | 欧美激情一区二区三级高清视频 | 欧美黄色大片在线观看 | 亚洲国产精品一区二区第一页 | 国产日韩欧美一区 | 国产精品欧美一区二区三区不卡 | 国产美女高潮 | 国产视频第一页 | 精品不卡 | 欧美日本在线观看 | 91精品一区二区三区久久久久久 | 久视频在线观看 | 午夜在线免费观看视频 | 黄色大片在线视频 | 找个黄色片 | 中文成人在线 | 亚洲国产欧美一区 | 日皮视频免费 | a级片在线观看 | 久久国产精品一区二区 | 自拍偷拍欧美 | 黄色网址在线免费观看 | 亚洲另类自拍 | 超碰最新在线 | 中文字幕精品视频在线观看 | 精品久久久久久亚洲精品 | 国产美女福利在线观看 | 精品国产91久久久久久 | 中文字幕日韩一区 | 精品日韩一区二区 | 中文字幕成人av | 国产精品成人久久久久a级 久久蜜桃av一区二区天堂 | 亚洲va欧美va人人爽午夜 | av毛片在线免费观看 | 国产精品久久久久国产a级 欧美日韩国产免费 | 你懂的在线视频播放 | 一区二区三区国产精品 | 99综合 | 亚洲综合大片69999 | 免费h视频 | 欧美三级在线 |