智譜版o1終于也來了:直接拿下考研數(shù)學(xué),一句話就能做小游戲!
終于,在2024年的最后一天,智譜版o1也來了!
名字叫做GLM-Zero-Preview,Zero推理模型(下文簡稱Zero模型),自稱是擅長通過邏輯推理來解決數(shù)理問題。
既然如此,那么我們就直接一套2024年考研數(shù)學(xué)真題來伺候一下吧~
規(guī)則也很簡單,就是把真題的題目以截圖的方式“喂”給Zero模型,這樣也可以順便考驗一下它的視覺理解能力。
例如我們小試牛刀地截取第一道函數(shù)選擇題:
這道題怎么解?
從Zero模型生成的結(jié)果來看,主要分為四大部分:
- 讀題審題
- 深度思考
- 解題步驟
- 最終答案
上下滑動查看所有內(nèi)容:
有意思的是,Zero模型在深度思考過程中,它的思維方式像極了人類,而且每一步思考也描述的非常詳細(xì),最終給出了正確答案:C。
但同樣的問題給到了ChatGPT o1……Emmm,先敗在了“識圖”這一步。
再來第二道測試題——線性代數(shù):
還是同樣的“配方”,來看下Zero的解題過程(上下滑動查看所有內(nèi)容):
Zero模型按照邏輯順序一步步拆解了這個問題,從基本定義、條件推導(dǎo)到最終結(jié)果,展示了較為清晰的解題思路。
在過程中,Zero模型對關(guān)鍵條件還進行了分步分析,同時對結(jié)果的數(shù)學(xué)意義進行了驗證。
最終,依舊是給出了正確答案:D。
在函數(shù)、線性代數(shù)之后,我們再來一道概率統(tǒng)計:
我們來看下Zero模型的解析過程(上下滑動查看所有內(nèi)容):
回答依然正確:D。
在嘗試不同類型的選擇題之后,我們不妨再來測一波大題。
直接上壓軸題!
值得注意的一點是,這道題需要同時解答兩個問題,我們來看下結(jié)果(上下滑動查看所有內(nèi)容):
Zero模型統(tǒng)統(tǒng)答對了!
看來智譜版o1敢把“擅長數(shù)理問題”直接打出來,確實是有點東西在身上的。
據(jù)官方介紹,同基座模型相比,GLM-Zero-Preview 在不顯著降低通用任務(wù)能力的情況下,在專家任務(wù)能力方面表現(xiàn)大幅提升。
并且它在AIME 2024、MATH500 和 LiveCodeBench評測中,已經(jīng)取得了與OpenAI o1-preview相當(dāng)?shù)男Ч?/p>
而且有一說一,拋出解析過程和結(jié)果,相比其它類o1大模型來說,單是整體的布局這塊,不論是文字和公式,似乎更加符合數(shù)學(xué)之美。
但畢竟數(shù)學(xué)還是只是評測大模型推理能力的維度之一,因此,我們繼續(xù)開啟更多維度的“極限挑戰(zhàn)”。
一句話讓馬斯克跳舞變字符畫
代碼編程能力,同樣也是類o1推理模型重要的一面。
我接下來就實測一下Zero模型能否用一句話生成小游戲:
用HTML做一個貪吃蛇。
Zero模型根據(jù)要求,一步一步推理過后生成了一段完整的代碼(上下滑動查看所有內(nèi)容):
然后我們只需復(fù)制粘貼到了IDE里,并在瀏覽器中運行,一個可玩的簡單版貪吃蛇游戲就做好了。
再來一個有意思的:
HTML實現(xiàn)動態(tài)黑客帝國雨,全屏幕,豎著下,錯落有致,敏感交錯。
我們同樣先來看下生成出來的代碼(上下滑動查看所有內(nèi)容):
還是一個復(fù)制粘貼的動作,來看下效果:
嗯,確實是有點那個味道了。
或許你會說,這些代碼功能過于簡單了,別急,我們這就來上點難度——
把馬斯克跳舞名場面視頻,一句話變成字符畫版本!
我們的Prompt是這樣的:
在Mac中,用Python把輸入視頻內(nèi)容變成字符畫,然后再輸出一個新的視頻。
然后Zero模型就給出了代碼(上下滑動查看所有內(nèi)容):
同樣僅需復(fù)制粘貼,然后設(shè)置一些輸入、輸出文件的路徑,運行代碼后我們就可以得到這樣的視頻啦:
(PS:背景音樂為后期所配)
如果想再來點顏色,也是一句話的是:
在上面的代碼基礎(chǔ)上,進行彩色化處理。
由此可見,Zero模型在代碼生成方面可以說是過關(guān)的。
更多維度實測
在數(shù)學(xué)和代碼之后,我們繼續(xù)從更多維度來全方面測試一下Zero模型。
視覺推理
請聽題:
以下是一組數(shù)字與符號的對應(yīng)關(guān)系:
1→?
2→
3→?
4→?
請推測 6 的符號表示,并解釋推導(dǎo)過程。
上下滑動查看所有內(nèi)容:
Zero模型能夠根據(jù)數(shù)字與符號的關(guān)系,分析出潛在規(guī)律,推導(dǎo)過程的過程也是清晰地闡述了出來。
再來:
這幾個數(shù)字能組合成的最大數(shù)字是多少?
Zero模型給出的答案是這樣的(上下滑動查看所有內(nèi)容):
可以看到,Zero模型先是準(zhǔn)確識別出了臺球上的數(shù)字,然后用推理能力一步步將能夠組合成的最大數(shù)值給了出來。
加密問題
我們再來一道可以考驗大模型能力的加密問題。
請聽題:
已知 ukwmfvhxyondhxjz rhfvpfjzxn ukjzwmkajzhxyo -> practice makes perfect 請基于這個例子找到密文 ukqgfvsi gwjzkatjwmjz dttjzp hxtjiyjz 對應(yīng)的原文。
而這里出現(xiàn)的結(jié)果就比較有意思了。
Zero模型給出的答案是:hard work pays off.
但我們同時還用ChatGPT o1和DeepSeek V3做了比較:
- ChatGPT o1生成結(jié)果:pray before you code.
- DeepSeek V3生成結(jié)果:planned forest consented.
各家大模型的結(jié)果均不相同,這道題到底是誰正確,小伙伴們可以親測一下,然后在評論留言討論哦~
經(jīng)典問題:9.9和9.11哪個大?
最后一道測試,我們還是用那個非常經(jīng)典的問題:
9.9和9.11哪個大?
嗯,這個問題已經(jīng)是難不倒Zero模型了。
智譜的大模型再添一塊拼圖
在2024年的最后一天,智譜也是終于在各大玩家之后發(fā)布了類o1模型。
由此,其大模型的矩陣也變得更加龐大:
文本生成(GLM)、圖像生成(CogView)、視頻生成(CogVideoX)、音效生成(CogSound)、音樂生成(CogMusic)、端對端語音(GLM-4-Voice)、自主代理(AutoGLM)、AI推理(GLM-Zero-Preview)。
能夠以如此“全棧”姿態(tài)在大模型時代角逐的玩家,著實是屈指可數(shù)。
而另一方面,若是細(xì)數(shù)今年內(nèi)智譜的技術(shù)發(fā)布時間軸,結(jié)果是更加的密集且緊湊:
- 11月,發(fā)布AutoGLM升級版,可自主執(zhí)行超50步的長步驟操作,也可以跨app執(zhí)行任務(wù),開啟“全自動”上網(wǎng)新體驗,支持基于瀏覽器的數(shù)十個網(wǎng)站的無人駕駛。
- 11月,發(fā)布GLM-PC內(nèi)測,基于智譜多模態(tài)模型CogAgent,探索“無人駕駛”PC。可代替用戶參與視頻會議、處理文檔、搜索網(wǎng)頁并總結(jié)、遠(yuǎn)程定時操作。
- 11月,視頻模型CogVideoX升級,支持10s時長、4k、60幀超高清畫質(zhì)、任意尺寸以及更好人體動作和物理世界模擬。
- 10月,GLM-4-Voice端到端情感語音模型發(fā)布,并上線清言app,能夠理解情感,有情緒表達(dá)、情感共鳴,可自助調(diào)節(jié)語速,支持多語言和方言,并且延時更低、可隨時打斷。
- 10月,AutoGLM內(nèi)測版發(fā)布,只需接收簡單的文字/語音指令,就可以模擬人類操作手機,不受限于API調(diào)用。
- 10月,和三星、高通宣布合作,分別共同打造AI產(chǎn)品和端側(cè)多模態(tài)交互大模型。
- 8月,發(fā)布跨文本音頻和視頻模態(tài)實時推理大模型GLM-4-Videocall,實現(xiàn)AI與人實時視頻通話。通過API接口可無縫部署在包括手機在內(nèi)各類帶攝像頭端側(cè)設(shè)備。
- 8月,新一代基座大模型GLM-4-Plus發(fā)布,語言理解、指令遵循、長文本處理等方面性能全面提升。
- 7月,視頻生成模型“清影”在清言PC端、移動應(yīng)用端以及小程序端正式上線,提供文本生成視頻和圖像生成視頻的服務(wù),30秒即可完成6秒視頻生成,真實還原物理世界中的運動過程。
- 6月,GLM-4-9B模型,支持100萬Tokens長文本和26種語言,多模態(tài)能力比肩GPT-4V。
- 1月,新一代基座大模型GLM-4發(fā)布,整體性能相比上一代大幅提升,支持更長上下文,具備更強多模態(tài)能力,推理速度更快,支持更高并發(fā),大大降低推理成本。
這也有就很好理解為何在前不久,智譜能夠拿到30億元的新一輪融資,估值已超200億元。
模型夠全棧,技術(shù)夠密集,市場夠認(rèn)可,智譜可以說是給今年畫上了較為圓滿的句號。
除此之外,智譜選擇在今年最后一天發(fā)布類o1模型,其實也在預(yù)示著明年的大模型發(fā)展依舊會在推理Scaling Law上發(fā)力。
但與此同時,誠如ChatGPT o3這般“燒錢猛獸”目前也無法完全應(yīng)對Frontier Math、ARC-AGI等超高難度的測試。
那么智譜又將會在推理這塊如何出奇制勝,是值得期待一波。
Zero模型體驗地址:1、智譜清言: https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh2、智譜開放平臺:https://bigmodel.cn/dev/api/normal-model/glm-zero-preview。
2000萬token免費體驗資源包領(lǐng)取地址:https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K。
參考鏈接:https://kaoyan.eol.cn/shiti/shuxue/202312/t20231225_2550980_7.shtml。