OpenAI詐騙?GPT-4.1正式上線(xiàn)ChatGPT,網(wǎng)友實(shí)測(cè)卻大呼失望
就在剛剛,OpenAI官宣:GPT-4.1,今天起直接在ChatGPT中可用。
這個(gè)模型擅長(zhǎng)編碼任務(wù)和遵循指令,是o3和o4-mini的絕佳替代品。
圖片
一個(gè)月前,GPT-4.1剛推出的時(shí)候,僅通過(guò)API向開(kāi)發(fā)者開(kāi)放。而現(xiàn)在,它在ChatGPT中就直接可用了。
其中,Plus、Pro和Team用戶(hù)可以通過(guò)模型選擇器中的「更多模型」下拉菜單訪(fǎng)問(wèn)GPT-4.1。企業(yè)版和教育版用戶(hù)將在未來(lái)幾周內(nèi)獲得訪(fǎng)問(wèn)權(quán)限。
OpenAI表示,他們還將在ChatGPT中為所有用戶(hù)引入GPT-4.1 mini來(lái)取代GPT-4o mini。
圖片
由于超長(zhǎng)的上下文能力,現(xiàn)在你可以將整段代碼放到GPT-4.1中進(jìn)行分析。
圖片
GPT-4.1和GPT-4.1 mini都已經(jīng)通過(guò)了OpenAI的最新標(biāo)準(zhǔn)安全評(píng)估。
在以下兩項(xiàng)評(píng)估中,GPT-4.1均排名前列。
- not_unsafe:根據(jù)OpenAI政策和模型規(guī)范,檢查模型是否未產(chǎn)生不安全的輸出。
- not_overrefuse:檢查模型是否遵循良性請(qǐng)求。
幻覺(jué)評(píng)估以及指令遵循方面,GPT-4.1也均表現(xiàn)優(yōu)秀;但在越獄評(píng)估方面表現(xiàn)不佳。
圖片
圖片
GPT-4.1,比GPT-4.5還好?
這次放出GPT-4.1,也算響應(yīng)群眾的呼聲。
早在4月底,就有用戶(hù)抱怨說(shuō):GPT-4.1簡(jiǎn)直是自己最喜歡的OpenAI模型,可惜在ChatGPT中并不能使用。
圖片
他確定地說(shuō):使用體驗(yàn)比GPT-4.5還要好!
圖片
不斷有開(kāi)發(fā)者現(xiàn)身說(shuō)法,表示:除了GPT-4.1的早期版本Quasar Alpha之外,它也是自己測(cè)試過(guò)的最好的編碼模型!
不斷有人表示,GPT-4.1,絕對(duì)是一個(gè)被低估的模型。
圖片
就在上個(gè)月,OpenAI專(zhuān)為開(kāi)發(fā)者推出了GPT-4.1系列新模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。
它們均擁有最高100萬(wàn)Token的超大上下文窗口,在代碼、指令跟隨等核心能力上全面超越GPT-4o及GPT-4o mini,并且知識(shí)截止日期也已更新至2024年6月。
圖片
實(shí)測(cè):龐大代碼任務(wù)順利完成
既然很多ChatGPT用戶(hù)都能用上GPT-4.1了,現(xiàn)在全網(wǎng)已經(jīng)涌出了不少實(shí)測(cè)。
比如沃頓商學(xué)院教授Ethan Mollick,就用一道考遍了各大模型的景點(diǎn)難題來(lái)考驗(yàn)GPT-4.1。
「請(qǐng)創(chuàng)建一段我可以直接粘貼到p5.js中的代碼,它要以驚人的巧思震撼我,仿佛是未來(lái)某艘星艦控制面板的呈現(xiàn)。」
GPT-4.1的表現(xiàn),可是相當(dāng)優(yōu)秀。
圖片
另一位開(kāi)發(fā)者實(shí)測(cè)后發(fā)現(xiàn),GPT-4.1實(shí)在令人驚喜!
當(dāng)時(shí),他正在處理一個(gè)代碼量非常龐大的任務(wù),系統(tǒng)自動(dòng)選擇的模型根本無(wú)法處理,完全沒(méi)有生成任何內(nèi)容。
結(jié)果讓GPT-4.1上場(chǎng)后,它不僅比默認(rèn)模型更快,還準(zhǔn)確地完成了任務(wù)。
甚至,它還給了一個(gè)額外的驚喜:竟然還把整個(gè)文件中沒(méi)用到的代碼都清理掉了。
圖片
通過(guò)實(shí)測(cè)發(fā)現(xiàn),GPT-4.1在代碼生成速度方面達(dá)到了新的高度。
比如讓GPT-4.1生成一個(gè)博客首頁(yè),在幾秒鐘之內(nèi)就完成了輸出。
圖片
再比如,讓他用python寫(xiě)一個(gè)地球飛往火星的動(dòng)畫(huà),幾乎就是在一瞬間,GPT-4.1就完成了任務(wù)的輸出。
圖片
結(jié)果看起來(lái)還行,這只是第一輪交互的結(jié)果,能夠感受到GPT-4.1的速度是得到根本性的提升。
圖片
再挑戰(zhàn)一下,讓給GPT-4.1用動(dòng)畫(huà)來(lái)解釋一下量子糾纏。
圖片
初步來(lái)看,GPT-4.1還是「領(lǐng)會(huì)」到了什么是量子糾纏
對(duì)于推理問(wèn)題,GPT-4.1表現(xiàn)的也非常優(yōu)秀。比如多步驟的年齡計(jì)算問(wèn)題,GPT-4.1的求解邏輯非常嚴(yán)謹(jǐn)。
圖片
面對(duì)一些逆向思考、腦筋急轉(zhuǎn)彎之類(lèi)的問(wèn)題,GPT-4.1也能快速完成推理,當(dāng)然面對(duì)這個(gè)問(wèn)題得出的答案倒是非常有趣。
圖片
網(wǎng)友吐槽:沒(méi)有1M上下文版本,令人失望!
但試用GPT-4.1后,許多網(wǎng)友表示:太失望了!
雖然OpenAI發(fā)布了GPT-4.1,卻沒(méi)有包含100萬(wàn)上下文窗口的API版本。
圖片
圖片
本來(lái)大家最希望在ChatGPT中使用GPT-4.1,就是因?yàn)橄胍L(zhǎng)的上下文窗口。
現(xiàn)在,只能期望GPT-5能提供一個(gè)超長(zhǎng)的上下文窗口了。
圖片
圖片
的確,不斷有人發(fā)現(xiàn),ChatGPT(Pro)中的GPT-4.1,最大上下文長(zhǎng)度似乎僅為128k token,跟API中的100萬(wàn)token相差甚遠(yuǎn)。
也就是說(shuō),OpenAI并沒(méi)有在GPT-4.1中提高限制。
圖片
總之,真的讓人很失望。看來(lái)還是得用Gemini。
也有網(wǎng)友發(fā)現(xiàn)了「華點(diǎn)」:自己嘗試運(yùn)行他們?cè)谥辈パ菔局杏脕?lái)展示 ChatGPT 4.1的提示詞,但網(wǎng)頁(yè)版無(wú)法運(yùn)行成功,不過(guò)在API Playground中嘗試后卻運(yùn)行成功了。
圖片
也有人說(shuō),自己剛剛氛圍編程了一個(gè)使用GPT-4.1的AI助手,因?yàn)檫@個(gè)模型僅通過(guò)API提供,今天,ChatGPT中就能用了。
圖片
不過(guò),他還是會(huì)用自己的助手,因?yàn)橛脩?hù)界面比ChatGPT更好。
圖片
圖片
其實(shí),OpenAI此前已經(jīng)放出GPT-4.1的prompt指南,總結(jié)了一系列內(nèi)部測(cè)試中得出的重要prompt技巧。
想實(shí)測(cè)的小伙伴,可以參考這篇用起來(lái)了。
參考資料:
https://x.com/gdb/status/1922727473164227001
https://x.com/OpenAIDevs/status/1922709921772036164