成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

考研數學得126分、還能編寫小游戲,智譜首個推理模型來了,人人免費用

人工智能
GLM-Zero-Preview 是 GLM 家族中專注于增強 AI 推理能力的模型,擅長處理數理邏輯、代碼和需要深度推理的復雜問題。同基座模型相比,GLM-Zero-Preview 既沒有顯著降低通用任務能力,又大幅提升了專家任務能力。

2024 年的最后一天,智譜 GLM 模型家族迎來了一位新成員——GLM-Zero 的初代版本 GLM-Zero-Preview,主打深度思考與推理。

從年初到年末,在接連推出新一代基座大模型、多模態模型、視頻生成模型以及語音模型之后,智譜補上了推理模型這塊拼圖。

據介紹,GLM-Zero-Preview 是 GLM 家族中專注于增強 AI 推理能力的模型,擅長處理數理邏輯、代碼和需要深度推理的復雜問題。同基座模型相比,GLM-Zero-Preview 既沒有顯著降低通用任務能力,又大幅提升了專家任務能力。

以數學能力為例,智譜讓 GLM-Zero-Preview 做了一整套 2025 年考研數學一,最后得分為 126,達到了優秀研究生水平。從下圖可以看到,模型給出了詳細的解題步驟。

圖片

再看下代碼能力,GLM-Zero-Preview 熟練使用多種編程語言,可以幫助開發者快速編寫代碼,如下使用 HTML 語言獨立編寫了一個第一人稱射擊游戲。另外它還可以調試代碼,快速識別錯誤并給出修復建議。

圖片

目前,GLM-Zero-Preview 已經上線使用。用戶可以在智譜清言網頁端選擇「Zero 推理模型」智能體,上傳文字或圖片就能免費體驗。另外,GLM-Zero-Preview 的 API 也在智譜開放平臺同步上線以供開發者調用。

圖片


  • 智譜清言:http://chatglm.cn/
  • 智譜開放平臺:https://bigmodel.cn/
  • 2000萬token免費體驗資源包領取地址:https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K

一手實測

智譜深度推理大摸底

先來看官方給出的指標。作為智譜首個基于擴展強化學習技術訓練的推理模型,GLM-Zero-Preview 在多個基準上與 OpenAI o1-preview 互有勝負,其中在數學基準測試 AIME 2024、MATH500 以及代碼生成基準測試 LiveCodeBench 中實現小幅超越。

圖片

在技術實現上,由于強化學習訓練量的增加,GLM-Zero-Preview 的深度推理能力得到穩步提升。同時隨著模型在推理階段可以思考的 token 數變多以及計算量增加,GLM-Zero-Preview 的輸出結果質量也穩步提升。

得益于以上兩點,GLM-Zero-Preview 表現出了類人的思考決策過程,初步具備了「推理過程中自主決策、問題拆解、嘗試多種方式解決問題」等能力。

是騾子是馬,溜后才知道。GLM-Zero-Preview 在真實世界任務中的表現如何?機器之心進行了一波全方位的測試。

我們搜羅了各種類型的推理問題,看看 GLM-Zero-Preview 能不能 hold 住這些容易繞暈人的中文邏輯陷阱題,以及需要數學、物理等專業學科知識與思辨能力的題目。

比大小不會翻車、有干擾項也無妨

大模型以前經常翻車的小數點后比大小問題,GLM-Zero-Preview 輕松搞定。我們看到了該模型的深度思考鏈路,它的顯著特點是在理解問題及解題關鍵的基礎上,從不同的角度分析、驗證并給出答案。整個過程看下來,GLM-Zero-Preview 有點「PUA」自己,生怕會出錯,多次檢查并肯定自己的答案無誤。

圖片

對于一些設置了干擾項的推理問題,GLM-Zero-Preview 也絲毫不會受到影響,很快理清思路,排除干擾項。

圖片

不落入語言陷阱、拿捏復雜推理


中文語境下有很多陷阱,比如歧義性、語境依賴、隱含信息、文化背景等,應對起來要求推理大模型「吃透」語言特點,并能夠結合上下文信息、語義知識和常識推理,明辨其中的彎彎繞。

面對這類中文陷阱題目,GLM-Zero-Preview 給出的深度思考過程顯示,它從不同的視角考慮和深度推理,排除一切的不可能之后,確認最合理的解釋和答案。

圖片

另外,面對復雜的中文邏輯推理問題,尤其涉及多個角色人物時,GLM-Zero-Preview 不會被搞混。通過深度思考進行情況羅列與假設分析,并輔以縝密的條件驗證,整個過程像抽繭剝絲的判案一樣。

圖片

GLM-Zero-Preview 給出了邏輯清晰的解題步驟。

圖片

常識推理無壓力、時間感知能力強

如今的大模型在「喂」給足夠多的高質量數據之后,像人一樣掌握了豐富的常識,做起此類推理題來沒有壓力。

圖片

在時間推理中,大模型需要理解時間順序、事件發生的時序關系,要有清晰的預測和推斷能力。比如下面的時間推理場景,想必很多人都會被繞暈,而 GLM-Zero-Preview 做到了對多個角色參與的復雜時間關系的準確判斷。

圖片

數學小能手上線

大模型的數學能力可以為人們在很多數學任務中提供有力支持,比如代數、微積分、概率統計。GLM-Zero-Preview 具備了更強的歸納與演繹能力,比如下面這道序列求解題,它在深度思考過程中觀察規律、找出規律、驗證規律。

圖片

面對經典的青蛙爬井問題,GLM-Zero-Preview 不僅給出了正確的解題思路和答案,還總結了一波經驗心得。

圖片

再考它一道出自 2024 高考數學北京卷的條件判斷題,顯然難不倒 GLM-Zero-Preview,它通過等價代換的方式得出了正確答案。

圖片

hold 弱智吧

在面對一些弱智吧問題時,GLM-Zero-Preview 一板一眼地進行理論層面以及實際可行性的分析,并展開論證,令人忍俊不禁。

圖片

視覺推理多面手

目前,GLM-Zero-Preview 支持上傳 png、jpg、jpeg、webp 等多種格式的圖片,并能夠應對很多類型的推理任務,比如解帶有電路圖的高考物理題(2024 北京卷):

圖片

以下為完整的解題步驟:

圖片

還能理解梗圖:

圖片

推理模型大 PK

誰更勝一籌

接下來,機器之心讓 GLM-Zero-Preview 與 o1、DeepSeek-R1-Lite 預覽版、QwQ-32B-Preview 等競品模型來了一場對決。

先考它們一道數學組合題,看看哪個模型邏輯性更強。

首先是 GLM-Zero-Preview:

圖片

然后是 o1:

圖片

接著是 DeepSeek-R1-Lite 預覽版:

圖片

最后是 QwQ-32B-Preview:

圖片

比較下來,我們可以發現,o1 的推理過程最簡單,缺少驗證的環節。其他三個模型在給出解題思路之后都對步驟和計算進行了確認,其中 DeepSeek-R1-Lite 預覽版、QwQ-32B-Preview 的驗證相對簡單一些,而 GLM-Zero-Preview 不僅解題過程更清晰完整,還展示了自我反思、自我懷疑、自我肯定等擬人化的思維模式。

再來第二輪較量,這次是一道中文陷阱推理題,看看哪個模型頭腦更清楚。

首先是 o1 與 QwQ-32B-Preview,思考過程很短:

圖片

圖片

GLM-Zero-Preview、DeepSeek-R1-Lite 預覽版的解釋更透徹,充分考慮了條件限制與現實世界的可能性。不過,DeepSeek-R1-Lite 預覽版的一些解釋又略顯重復,不如 GLM-Zero-Preview 明了。

圖片

圖片

思考過程與思維鏈路上的優勢,足以讓 GLM-Zero-Preview 不輸其他一眾推理大模型。

結語

在對 GLM-Zero-Preview 體驗一番后,我們的最大感受是:它的深度思考過程讓邏輯推理更加完整、連貫,準確度和說服力更強。從「審題、分析、多方式證明」到「自我懷疑、驗證、再驗證」到「最后確認」,環環相扣。

當然,智譜表示,目前 GLM-Zero-Preview 與 o3 還有不少的差距,未來會通過強化學習技術的持續優化迭代,讓它成為更聰明的推理者。正式版 GLM-Zero 將很快推出,到時候深度思考能力會從數理邏輯擴展到更通用的技術,保證更專精的同時全能性也更強。

回看這一整年,智譜動作不斷,GLM 家族更加壯大,包括基座模型、多模態模型、視頻生成模型、語音模型、推理模型以及智能體方面火出圈的 AutoGLM、GLM-PC,如今這家大模型獨角獸的產品矩陣在完整度層面稱得上業界領先。

持續出新的背后是智譜對 AGI 終極目標的追求。智譜形成了一套從 L1 到 L5 階段的 AGI 路線圖,在 AI 分級上注入自己的能力進化思考。在一步步邁向 AGI 的過程中,從低到高在各個 AI 層級做能力填充,夯實語言、多模態、邏輯推理、工具使用等基礎能力。GLM-Zero-Preview 代表智譜邁出了 L4 階段的關鍵一步,大模型開始內省,并具備自我學習、自我反思、自我改進能力。

圖片

現在,市面上的推理大模型已經有了一些,甚至 OpenAI 發布了更強的 o3 系列模型。智譜在年末最后一天這個時間節點推出了自己的 GLM-Zero,可見對于所有以 AGI 為目標的玩家來說,2025 年模型推理能力無疑是被寄予厚望的一年。

責任編輯:姜華 來源: 機器之心
相關推薦

2024-12-31 09:55:23

2025-02-25 14:46:59

2025-02-06 09:52:12

2025-02-25 08:15:09

2024-02-06 20:39:21

2025-06-11 14:39:50

AILLMMistral

2025-03-05 00:22:00

2024-12-02 13:30:00

2025-06-11 09:19:46

2024-09-24 11:01:03

2025-06-10 03:30:00

2024-12-26 07:10:00

2025-04-30 02:00:00

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-05-30 02:00:00

獎勵模型RRMAI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-02-25 09:02:26

2025-02-14 11:18:57

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-05-13 05:11:00

推理模型微調
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产色婷婷久久99精品91 | 毛片免费在线观看 | 欧美黄视频 | 日韩av电影在线观看 | 欧美 日韩 在线播放 | 成人h片在线观看 | 久久亚洲视频网 | 亚洲一区二区在线视频 | 99久久久久久 | 亚洲视频中文字幕 | 亚洲视频在线观看 | 亚洲欧美国产毛片在线 | 日韩在线视频观看 | 艹逼网 | 国产成人99久久亚洲综合精品 | 久久久久久久av | 日韩亚洲欧美综合 | 久久亚洲国产精品 | 欧美一级黄色片 | 久久中文一区二区 | 国产精品极品美女在线观看免费 | 男女视频在线免费观看 | 国产人成精品一区二区三 | 国产大片一区 | 国产一区在线免费观看视频 | 在线视频成人 | 在线亚洲一区二区 | 久久精品国产久精国产 | 欧美在线一区二区三区 | 精品国产一区二区三区久久 | 男女网站在线观看 | 国产成人综合在线 | 国产精品99| 狠狠操狠狠操 | 夜夜爽99久久国产综合精品女不卡 | 亚洲精品乱码久久久久久黑人 | 日韩1区2区 | 一片毛片 | 亚洲国产精品一区二区第一页 | 国产精品一区二区视频 | 无码日韩精品一区二区免费 |