智譜版o1終于也來了：直接拿下考研數(shù)學(xué)，一句話就能做小游戲！

2024-12-31 09:55:23

人工智能

在2024年的最后一天，智譜版o1也來了！名字叫做GLM-Zero-Preview，Zero推理模型（下文簡稱Zero模型），自稱是擅長通過邏輯推理來解決數(shù)理問題。

終于，在2024年的最后一天，智譜版o1也來了！

名字叫做GLM-Zero-Preview，Zero推理模型（下文簡稱Zero模型），自稱是擅長通過邏輯推理來解決數(shù)理問題。

既然如此，那么我們就直接一套2024年考研數(shù)學(xué)真題來伺候一下吧~

規(guī)則也很簡單，就是把真題的題目以截圖的方式“喂”給Zero模型，這樣也可以順便考驗一下它的視覺理解能力。

例如我們小試牛刀地截取第一道函數(shù)選擇題：

這道題怎么解？

從Zero模型生成的結(jié)果來看，主要分為四大部分：

讀題審題
深度思考
解題步驟
最終答案

上下滑動查看所有內(nèi)容：

有意思的是，Zero模型在深度思考過程中，它的思維方式像極了人類，而且每一步思考也描述的非常詳細(xì)，最終給出了正確答案：C。

但同樣的問題給到了ChatGPT o1……Emmm，先敗在了“識圖”這一步。

再來第二道測試題——線性代數(shù)：

還是同樣的“配方”，來看下Zero的解題過程（上下滑動查看所有內(nèi)容）：

Zero模型按照邏輯順序一步步拆解了這個問題，從基本定義、條件推導(dǎo)到最終結(jié)果，展示了較為清晰的解題思路。

在過程中，Zero模型對關(guān)鍵條件還進行了分步分析，同時對結(jié)果的數(shù)學(xué)意義進行了驗證。

最終，依舊是給出了正確答案：D。

在函數(shù)、線性代數(shù)之后，我們再來一道概率統(tǒng)計：

我們來看下Zero模型的解析過程（上下滑動查看所有內(nèi)容）：

回答依然正確：D。

在嘗試不同類型的選擇題之后，我們不妨再來測一波大題。

直接上壓軸題！

值得注意的一點是，這道題需要同時解答兩個問題，我們來看下結(jié)果（上下滑動查看所有內(nèi)容）：

Zero模型統(tǒng)統(tǒng)答對了！

看來智譜版o1敢把“擅長數(shù)理問題”直接打出來，確實是有點東西在身上的。

據(jù)官方介紹，同基座模型相比，GLM-Zero-Preview 在不顯著降低通用任務(wù)能力的情況下，在專家任務(wù)能力方面表現(xiàn)大幅提升。

并且它在AIME 2024、MATH500 和 LiveCodeBench評測中，已經(jīng)取得了與OpenAI o1-preview相當(dāng)?shù)男Ч?/p>

而且有一說一，拋出解析過程和結(jié)果，相比其它類o1大模型來說，單是整體的布局這塊，不論是文字和公式，似乎更加符合數(shù)學(xué)之美。

但畢竟數(shù)學(xué)還是只是評測大模型推理能力的維度之一，因此，我們繼續(xù)開啟更多維度的“極限挑戰(zhàn)”。

一句話讓馬斯克跳舞變字符畫

代碼編程能力，同樣也是類o1推理模型重要的一面。

我接下來就實測一下Zero模型能否用一句話生成小游戲：

用HTML做一個貪吃蛇。

Zero模型根據(jù)要求，一步一步推理過后生成了一段完整的代碼（上下滑動查看所有內(nèi)容）：

然后我們只需復(fù)制粘貼到了IDE里，并在瀏覽器中運行，一個可玩的簡單版貪吃蛇游戲就做好了。

再來一個有意思的：

HTML實現(xiàn)動態(tài)黑客帝國雨，全屏幕，豎著下，錯落有致，敏感交錯。

我們同樣先來看下生成出來的代碼（上下滑動查看所有內(nèi)容）：

還是一個復(fù)制粘貼的動作，來看下效果：

嗯，確實是有點那個味道了。

或許你會說，這些代碼功能過于簡單了，別急，我們這就來上點難度——

把馬斯克跳舞名場面視頻，一句話變成字符畫版本！

我們的Prompt是這樣的：

在Mac中，用Python把輸入視頻內(nèi)容變成字符畫，然后再輸出一個新的視頻。

然后Zero模型就給出了代碼（上下滑動查看所有內(nèi)容）：

同樣僅需復(fù)制粘貼，然后設(shè)置一些輸入、輸出文件的路徑，運行代碼后我們就可以得到這樣的視頻啦：

（PS：背景音樂為后期所配）

如果想再來點顏色，也是一句話的是：

在上面的代碼基礎(chǔ)上，進行彩色化處理。

由此可見，Zero模型在代碼生成方面可以說是過關(guān)的。

智譜的大模型再添一塊拼圖

在2024年的最后一天，智譜也是終于在各大玩家之后發(fā)布了類o1模型。

由此，其大模型的矩陣也變得更加龐大：

文本生成（GLM）、圖像生成（CogView）、視頻生成（CogVideoX）、音效生成（CogSound）、音樂生成（CogMusic）、端對端語音（GLM-4-Voice）、自主代理（AutoGLM）、AI推理（GLM-Zero-Preview）。

能夠以如此“全棧”姿態(tài)在大模型時代角逐的玩家，著實是屈指可數(shù)。

而另一方面，若是細(xì)數(shù)今年內(nèi)智譜的技術(shù)發(fā)布時間軸，結(jié)果是更加的密集且緊湊：

11月，發(fā)布AutoGLM升級版，可自主執(zhí)行超50步的長步驟操作，也可以跨app執(zhí)行任務(wù)，開啟“全自動”上網(wǎng)新體驗，支持基于瀏覽器的數(shù)十個網(wǎng)站的無人駕駛。
11月，發(fā)布GLM-PC內(nèi)測，基于智譜多模態(tài)模型CogAgent，探索“無人駕駛”PC。可代替用戶參與視頻會議、處理文檔、搜索網(wǎng)頁并總結(jié)、遠(yuǎn)程定時操作。
11月，視頻模型CogVideoX升級，支持10s時長、4k、60幀超高清畫質(zhì)、任意尺寸以及更好人體動作和物理世界模擬。
10月，GLM-4-Voice端到端情感語音模型發(fā)布，并上線清言app，能夠理解情感，有情緒表達(dá)、情感共鳴，可自助調(diào)節(jié)語速，支持多語言和方言，并且延時更低、可隨時打斷。
10月，AutoGLM內(nèi)測版發(fā)布，只需接收簡單的文字/語音指令，就可以模擬人類操作手機，不受限于API調(diào)用。
10月，和三星、高通宣布合作，分別共同打造AI產(chǎn)品和端側(cè)多模態(tài)交互大模型。
8月，發(fā)布跨文本音頻和視頻模態(tài)實時推理大模型GLM-4-Videocall，實現(xiàn)AI與人實時視頻通話。通過API接口可無縫部署在包括手機在內(nèi)各類帶攝像頭端側(cè)設(shè)備。
8月，新一代基座大模型GLM-4-Plus發(fā)布，語言理解、指令遵循、長文本處理等方面性能全面提升。
7月，視頻生成模型“清影”在清言PC端、移動應(yīng)用端以及小程序端正式上線，提供文本生成視頻和圖像生成視頻的服務(wù)，30秒即可完成6秒視頻生成，真實還原物理世界中的運動過程。
6月，GLM-4-9B模型，支持100萬Tokens長文本和26種語言，多模態(tài)能力比肩GPT-4V。
1月，新一代基座大模型GLM-4發(fā)布，整體性能相比上一代大幅提升，支持更長上下文，具備更強多模態(tài)能力，推理速度更快，支持更高并發(fā)，大大降低推理成本。

這也有就很好理解為何在前不久，智譜能夠拿到30億元的新一輪融資，估值已超200億元。

模型夠全棧，技術(shù)夠密集，市場夠認(rèn)可，智譜可以說是給今年畫上了較為圓滿的句號。

除此之外，智譜選擇在今年最后一天發(fā)布類o1模型，其實也在預(yù)示著明年的大模型發(fā)展依舊會在推理Scaling Law上發(fā)力。

但與此同時，誠如ChatGPT o3這般“燒錢猛獸”目前也無法完全應(yīng)對Frontier Math、ARC-AGI等超高難度的測試。

那么智譜又將會在推理這塊如何出奇制勝，是值得期待一波。

Zero模型體驗地址：1、智譜清言： https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh2、智譜開放平臺：https://bigmodel.cn/dev/api/normal-model/glm-zero-preview。

2000萬token免費體驗資源包領(lǐng)取地址：https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K。

參考鏈接：https://kaoyan.eol.cn/shiti/shuxue/202312/t20231225_2550980_7.shtml。

責(zé)任編輯：姜華來源：量子位

智譜版o1 推理模型人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智譜版o1終于也來了：直接拿下考研數(shù)學(xué)，一句話就能做小游戲！

一句話讓馬斯克跳舞變字符畫

更多維度實測

視覺推理

加密問題

經(jīng)典問題：9.9和9.11哪個大？

智譜的大模型再添一塊拼圖