成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智譜版o1終于也來了:直接拿下考研數(shù)學(xué),一句話就能做小游戲!

人工智能
在2024年的最后一天,智譜版o1也來了!名字叫做GLM-Zero-Preview,Zero推理模型(下文簡稱Zero模型),自稱是擅長通過邏輯推理來解決數(shù)理問題。

終于,在2024年的最后一天,智譜版o1也來了!

名字叫做GLM-Zero-Preview,Zero推理模型(下文簡稱Zero模型),自稱是擅長通過邏輯推理來解決數(shù)理問題。

圖片

既然如此,那么我們就直接一套2024年考研數(shù)學(xué)真題來伺候一下吧~

規(guī)則也很簡單,就是把真題的題目以截圖的方式“喂”給Zero模型,這樣也可以順便考驗一下它的視覺理解能力。

例如我們小試牛刀地截取第一道函數(shù)選擇題:

這道題怎么解?

圖片

從Zero模型生成的結(jié)果來看,主要分為四大部分

  1. 讀題審題
  2. 深度思考
  3. 解題步驟
  4. 最終答案

上下滑動查看所有內(nèi)容:

有意思的是,Zero模型在深度思考過程中,它的思維方式像極了人類,而且每一步思考也描述的非常詳細(xì),最終給出了正確答案:C

但同樣的問題給到了ChatGPT o1……Emmm,先敗在了“識圖”這一步。

圖片

再來第二道測試題——線性代數(shù):

圖片

還是同樣的“配方”,來看下Zero的解題過程(上下滑動查看所有內(nèi)容)

Zero模型按照邏輯順序一步步拆解了這個問題,從基本定義、條件推導(dǎo)到最終結(jié)果,展示了較為清晰的解題思路。

在過程中,Zero模型對關(guān)鍵條件還進行了分步分析,同時對結(jié)果的數(shù)學(xué)意義進行了驗證。

最終,依舊是給出了正確答案:D。

在函數(shù)、線性代數(shù)之后,我們再來一道概率統(tǒng)計:

圖片

我們來看下Zero模型的解析過程(上下滑動查看所有內(nèi)容)

回答依然正確:D。

在嘗試不同類型的選擇題之后,我們不妨再來測一波大題。

直接上壓軸題!

圖片

值得注意的一點是,這道題需要同時解答兩個問題,我們來看下結(jié)果(上下滑動查看所有內(nèi)容)

Zero模型統(tǒng)統(tǒng)答對了!

看來智譜版o1敢把“擅長數(shù)理問題”直接打出來,確實是有點東西在身上的。

據(jù)官方介紹,同基座模型相比,GLM-Zero-Preview 在不顯著降低通用任務(wù)能力的情況下,在專家任務(wù)能力方面表現(xiàn)大幅提升。

并且它在AIME 2024、MATH500 和 LiveCodeBench評測中,已經(jīng)取得了與OpenAI o1-preview相當(dāng)?shù)男Ч?/p>

圖片

而且有一說一,拋出解析過程和結(jié)果,相比其它類o1大模型來說,單是整體的布局這塊,不論是文字和公式,似乎更加符合數(shù)學(xué)之美。

但畢竟數(shù)學(xué)還是只是評測大模型推理能力的維度之一,因此,我們繼續(xù)開啟更多維度的“極限挑戰(zhàn)”。

一句話讓馬斯克跳舞變字符畫

代碼編程能力,同樣也是類o1推理模型重要的一面。

我接下來就實測一下Zero模型能否用一句話生成小游戲:

用HTML做一個貪吃蛇。

Zero模型根據(jù)要求,一步一步推理過后生成了一段完整的代碼(上下滑動查看所有內(nèi)容):

然后我們只需復(fù)制粘貼到了IDE里,并在瀏覽器中運行,一個可玩的簡單版貪吃蛇游戲就做好了。

圖片

再來一個有意思的:

HTML實現(xiàn)動態(tài)黑客帝國雨,全屏幕,豎著下,錯落有致,敏感交錯。

我們同樣先來看下生成出來的代碼(上下滑動查看所有內(nèi)容):

還是一個復(fù)制粘貼的動作,來看下效果:

圖片

嗯,確實是有點那個味道了。

或許你會說,這些代碼功能過于簡單了,別急,我們這就來上點難度——

把馬斯克跳舞名場面視頻,一句話變成字符畫版本!

圖片

我們的Prompt是這樣的:

在Mac中,用Python把輸入視頻內(nèi)容變成字符畫,然后再輸出一個新的視頻。

然后Zero模型就給出了代碼(上下滑動查看所有內(nèi)容):

同樣僅需復(fù)制粘貼,然后設(shè)置一些輸入、輸出文件的路徑,運行代碼后我們就可以得到這樣的視頻啦:

(PS:背景音樂為后期所配)

如果想再來點顏色,也是一句話的是:

在上面的代碼基礎(chǔ)上,進行彩色化處理。

由此可見,Zero模型在代碼生成方面可以說是過關(guān)的。

更多維度實測

在數(shù)學(xué)和代碼之后,我們繼續(xù)從更多維度來全方面測試一下Zero模型。

視覺推理

請聽題:

以下是一組數(shù)字與符號的對應(yīng)關(guān)系:
1→?
2→圖片
3→?
4→?圖片
請推測 6 的符號表示,并解釋推導(dǎo)過程。

上下滑動查看所有內(nèi)容:

Zero模型能夠根據(jù)數(shù)字與符號的關(guān)系,分析出潛在規(guī)律,推導(dǎo)過程的過程也是清晰地闡述了出來。

再來:

這幾個數(shù)字能組合成的最大數(shù)字是多少?

Zero模型給出的答案是這樣的(上下滑動查看所有內(nèi)容)

可以看到,Zero模型先是準(zhǔn)確識別出了臺球上的數(shù)字,然后用推理能力一步步將能夠組合成的最大數(shù)值給了出來。

加密問題

我們再來一道可以考驗大模型能力的加密問題。

請聽題:

已知 ukwmfvhxyondhxjz rhfvpfjzxn ukjzwmkajzhxyo -> practice makes perfect 請基于這個例子找到密文 ukqgfvsi gwjzkatjwmjz dttjzp hxtjiyjz 對應(yīng)的原文。

而這里出現(xiàn)的結(jié)果就比較有意思了。

圖片

Zero模型給出的答案是:hard work pays off.

但我們同時還用ChatGPT o1和DeepSeek V3做了比較:

  • ChatGPT o1生成結(jié)果:pray before you code.
  • DeepSeek V3生成結(jié)果:planned forest consented.

各家大模型的結(jié)果均不相同,這道題到底是誰正確,小伙伴們可以親測一下,然后在評論留言討論哦~

經(jīng)典問題:9.9和9.11哪個大?

最后一道測試,我們還是用那個非常經(jīng)典的問題:

9.9和9.11哪個大?

圖片

嗯,這個問題已經(jīng)是難不倒Zero模型了。

智譜的大模型再添一塊拼圖

在2024年的最后一天,智譜也是終于在各大玩家之后發(fā)布了類o1模型。

由此,其大模型的矩陣也變得更加龐大:

文本生成(GLM)、圖像生成(CogView)、視頻生成(CogVideoX)、音效生成(CogSound)、音樂生成(CogMusic)、端對端語音(GLM-4-Voice)、自主代理(AutoGLM)、AI推理(GLM-Zero-Preview)

能夠以如此“全棧”姿態(tài)在大模型時代角逐的玩家,著實是屈指可數(shù)。

圖片

而另一方面,若是細(xì)數(shù)今年內(nèi)智譜的技術(shù)發(fā)布時間軸,結(jié)果是更加的密集且緊湊:

  • 11月,發(fā)布AutoGLM升級版,可自主執(zhí)行超50步的長步驟操作,也可以跨app執(zhí)行任務(wù),開啟“全自動”上網(wǎng)新體驗,支持基于瀏覽器的數(shù)十個網(wǎng)站的無人駕駛。
  • 11月,發(fā)布GLM-PC內(nèi)測,基于智譜多模態(tài)模型CogAgent,探索“無人駕駛”PC。可代替用戶參與視頻會議、處理文檔、搜索網(wǎng)頁并總結(jié)、遠(yuǎn)程定時操作。
  • 11月,視頻模型CogVideoX升級,支持10s時長、4k、60幀超高清畫質(zhì)、任意尺寸以及更好人體動作和物理世界模擬。
  • 10月,GLM-4-Voice端到端情感語音模型發(fā)布,并上線清言app,能夠理解情感,有情緒表達(dá)、情感共鳴,可自助調(diào)節(jié)語速,支持多語言和方言,并且延時更低、可隨時打斷。
  • 10月,AutoGLM內(nèi)測版發(fā)布,只需接收簡單的文字/語音指令,就可以模擬人類操作手機,不受限于API調(diào)用。
  • 10月,和三星、高通宣布合作,分別共同打造AI產(chǎn)品和端側(cè)多模態(tài)交互大模型。
  • 8月,發(fā)布跨文本音頻和視頻模態(tài)實時推理大模型GLM-4-Videocall,實現(xiàn)AI與人實時視頻通話。通過API接口可無縫部署在包括手機在內(nèi)各類帶攝像頭端側(cè)設(shè)備。
  • 8月,新一代基座大模型GLM-4-Plus發(fā)布,語言理解、指令遵循、長文本處理等方面性能全面提升。
  • 7月,視頻生成模型“清影”在清言PC端、移動應(yīng)用端以及小程序端正式上線,提供文本生成視頻和圖像生成視頻的服務(wù),30秒即可完成6秒視頻生成,真實還原物理世界中的運動過程。
  • 6月,GLM-4-9B模型,支持100萬Tokens長文本和26種語言,多模態(tài)能力比肩GPT-4V。
  • 1月,新一代基座大模型GLM-4發(fā)布,整體性能相比上一代大幅提升,支持更長上下文,具備更強多模態(tài)能力,推理速度更快,支持更高并發(fā),大大降低推理成本。

這也有就很好理解為何在前不久,智譜能夠拿到30億元的新一輪融資,估值已超200億元。

模型夠全棧,技術(shù)夠密集,市場夠認(rèn)可,智譜可以說是給今年畫上了較為圓滿的句號。

除此之外,智譜選擇在今年最后一天發(fā)布類o1模型,其實也在預(yù)示著明年的大模型發(fā)展依舊會在推理Scaling Law上發(fā)力。

但與此同時,誠如ChatGPT o3這般“燒錢猛獸”目前也無法完全應(yīng)對Frontier Math、ARC-AGI等超高難度的測試。

那么智譜又將會在推理這塊如何出奇制勝,是值得期待一波。

Zero模型體驗地址:1、智譜清言: https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh2、智譜開放平臺:https://bigmodel.cn/dev/api/normal-model/glm-zero-preview。

2000萬token免費體驗資源包領(lǐng)取地址:https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K。

參考鏈接:https://kaoyan.eol.cn/shiti/shuxue/202312/t20231225_2550980_7.shtml。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-04-01 13:03:00

AI模型

2015-08-03 10:21:04

設(shè)計模式表達(dá)

2020-11-27 09:57:11

Python代碼PyPy

2023-09-05 23:34:52

Kubernetes云原生

2010-03-29 11:55:12

無線上網(wǎng)報錯

2023-05-08 15:44:23

3D數(shù)字人

2019-03-27 09:31:36

互聯(lián)網(wǎng)面試技術(shù)

2024-01-06 17:12:44

視頻AI

2025-01-24 08:30:00

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度

2020-12-16 10:43:44

PythonPyPy代碼

2014-05-07 10:47:51

移動金融互聯(lián)網(wǎng)金融GMIC

2023-02-06 10:48:48

谷歌

2019-08-15 11:42:56

程序員電腦軟件

2025-01-02 07:00:00

2023-02-10 15:45:05

ChatGPTAIGPT-3

2023-09-06 15:23:30

Docker容器K8S

2011-06-03 16:42:47

SEO

2014-12-16 08:58:17

甲骨文Oracle數(shù)據(jù)庫選件

2023-12-13 21:50:59

騰訊AI模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美久久久久久久久 | 精品久久一区 | 欧美日韩精品一区二区 | 亚洲精品白浆高清久久久久久 | 亚洲国产第一页 | 亚洲一区二区三区视频 | 久久精品美女 | 九色视频网站 | 久草中文在线 | 国产不卡在线观看 | 激情欧美日韩一区二区 | 中文字幕在线一区二区三区 | 国产99久久 | 国产精品国产a | 久艹网站 | 在线色网 | 99久久精品国产毛片 | 国内精品成人 | 91精品福利 | 熟女毛片 | 国产精品欧美一区喷水 | 国产精品视频一区二区三区, | 99久久婷婷国产综合精品电影 | 亚洲综合首页 | 国产在线观看免费 | 中国三级黄色录像 | 第一区在线观看免费国语入口 | 精品一区二区三区四区在线 | 中文字幕1区2区3区 亚洲国产成人精品女人久久久 | 欧美一区二区在线观看 | 久久久噜噜噜久久中文字幕色伊伊 | 九九热免费看 | 久久一区二区精品 | 九九av| 欧美成人精品二区三区99精品 | 一区二区三区韩国 | 蜜臀网| 亚洲国产精品一区 | 欧美日本在线观看 | 四虎永久免费影院 | 国产精品日韩欧美一区二区三区 |