GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位

Crystalcxt

發(fā)布于 2024-4-15 09:51

瀏覽

0收藏

啥？

新版GPT-4是在Q*的輸出上微調(diào)的？

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

在競技場重回榜一的新版GPT-4 Turbo，成功再次踩中大家嗨點。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

它此次的性能提升體現(xiàn)在數(shù)學、推理、代碼上，而且輸出內(nèi)容廢話更少。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

最讓大家感到興奮的是其數(shù)學/推理能力，現(xiàn)在可以在一些問題上完勝其他大模型。

比如“求y=x^4-5x^2-x+4和y=x^2-3x交點的y坐標之和。”只有最新版GPT-4 Turbo能測出來。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

這條推特被公開承認自己參與過Q*的Lukasz Kaiser轉發(fā)。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

Noam Brown也發(fā)推表示新版GPT-4 Turbo在推理能力上大幅提升——要知道，這位OpenAI科學家一直被外界認為正在研究Q*。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

各方信息匯總后，網(wǎng)友們一拍腦袋反應過來，這其中會不會就引入了Q*啊？

數(shù)學方面的提升意味著其中可能包含了一個數(shù)學模型，可能是Q*。

（以及他的數(shù)學題測試推特被OpenAI的人轉發(fā)了）

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

好家伙，難道OpenAI在悄悄搞大事？

新GPT-4的“新馬腳”？

OpenAI官方公告表示，最新版本的GPT-4 Turbo全方位大提升，現(xiàn)在ChatGPT用戶可直接體驗。

網(wǎng)友立馬沖去實測，有人給出評估結果，特別是數(shù)學/推理能力有了重大提升。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

實際問題測試中，在多個數(shù)學推理題上，GPT-4 Turbo都沒有翻車，但是如Command-R plus、Clauede-3 Opus等都有失誤。

比如一道乘電梯的推理題。陷阱在于這部神奇電梯無論坐幾層，最后都會停在一層。GPT-4 Turbo理解了這層邏輯，最后給出了正確答案。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

還有在修改二叉樹問題上，GPT-4 Turbo不僅回答正確，而且過程清晰完整。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

同時在“大海撈針”能力上，與之前版本對比，最新GPT-4 Turbo已經(jīng)是出版GPT-4能力的4.3倍。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

競技場的結果表明，在代碼能力方面，GPT-4 Turbo也更強了。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

文本輸出方面變得更加簡潔。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

生成代碼也少了很多廢話（下圖右側為新版本）。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

有人補充說，生成速度上也更快了。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

神秘Q*：OpenAI的最大秘密？

現(xiàn)在Q*已經(jīng)成了OpenAI的流量密碼了，只要出現(xiàn)這個關鍵字，網(wǎng)友們都會興奮不已。

畢竟當初奧特曼宮斗大戲就和它有關聯(lián)，還有人發(fā)出警告，Q*預示著AGI即將出現(xiàn)。

不過官方一直沒有公開承認過這個項目的存在，奧特曼拒絕回答，Transformer作者公開承認參與Q*也被OpenAI公關跳起來捂嘴。

從目前各方透露的信息來看，Q*專注于邏輯和數(shù)學推理能力，數(shù)學能力突出。

Transformer作者之一Lukasz Kaiser承認自己參與了這個項目。

德?lián)銩I之父、前FAIR（Meta）研究科學家Noam Brown也被視為是Q*項目的重要成員（推測來自LeCun）。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

他加入OpenAI的動作也被外界視為分析Q*的一個線索，“有理由懷疑Q是將LLM和AlphaGo結合起來，并用強化學習進行訓練”。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

Noam Brown開發(fā)出了第一個在打撲克牌上超越人類的AI，后來加入Meta致力于讓AI學會玩Diplomacy（外交游戲）。

目前，關于Q*的準確信息還是非常少。

可能奧特曼還在等一個合適的時機來回應外界。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

One More Thing

btw，網(wǎng)友們意外捉到總裁Brockman轉發(fā)的一個視頻演示里的提示詞是：

創(chuàng)建一個python腳本，使用pytube庫從YouTube下載視頻。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

看來大家拿GPT-4干的事也都差不多嘛（doge）。

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位-AI.x社區(qū)

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/THsEr_Lhd_gFE0G-KiYFeA??

標簽

GPT-4

推理

贊

回復

舉報

回復

相關推薦

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單

Crystalcxt ? 2315瀏覽 ? 0回復
甲骨文寵兒力壓GPT-4斬獲競技場首勝，不綁定廠商，不做聊天機器人，Transformer最年輕作者帶飛大模型創(chuàng)業(yè)新

51CTO技術棧 ? 2689瀏覽 ? 0回復
開源社區(qū)再次沸騰：GPT-4級別模型可以自由訪問的時代到來

Crystalcxt ? 3246瀏覽 ? 0回復
大模型競技場全面測評結果出爐：Llama3 70B成開源模型中最強王者！

AIGC最前線 ? 6159瀏覽 ? 0回復
AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 3128瀏覽 ? 0回復
拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓練治療LLM「中間迷失」

duhorse ? 2296瀏覽 ? 0回復
3D生成競技場來了！比拼360°環(huán)繞視頻，最強模型由你pick

Crystalcxt ? 2862瀏覽 ? 0回復
谷歌DeepMind：GPT-4高階心智理論徹底擊敗人類！第6階推理諷刺暗示全懂了

duhorse ? 2370瀏覽 ? 0回復
GPT-4欺騙人類高達99.16%驚人率！PNAS重磅研究曝出，LLM推理越強欺騙值越高

duhorse ? 2685瀏覽 ? 0回復
首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉三次

duhorse ? 2870瀏覽 ? 0回復
8B尺寸達到GPT-4級性能！北大等提出醫(yī)療專家模型訓練方法

duhorse ? 2347瀏覽 ? 0回復
如何通過壓縮提示降低GPT-4的成本

51CTO內(nèi)容精選 ? 2885瀏覽 ? 0回復
ECCV 2024 | 引入DiT的原生3D通用框架，適用任意神經(jīng)場、秒級生成

輕薄滴假象 ? 2707瀏覽 ? 0回復
被GPT4o的讀圖能力震撼到了

ceesoft ? 2310瀏覽 ? 0回復
GPT-4和GPT-4V能否像人類一樣進行抽象推理

lintoms ? 2140瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數(shù)學推理

Aceryt ? 2549瀏覽 ? 0回復
Anthropic秘密「混合模型」 Claude 4首曝細節(jié)，硬剛GPT-5！深度推理模型來了

duhorse ? 2787瀏覽 ? 0回復
Claude 4被曝發(fā)布在即！DeepSeek把大招都給逼出來了

Crystalcxt ? 1965瀏覽 ? 0回復
不用魔法，直接訪問微軟 Copilot GPT-4

丟翅膀的魚 ? 1554瀏覽 ? 0回復

Crystalcxt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

GPT-4升級被曝引入Q*，推理/數(shù)學更強廢話更少，競技場重奪王位

新GPT-4的“新馬腳”？

神秘Q*：OpenAI的最大秘密？

One More Thing

目錄