清華大學與智譜AI重磅開源 GLM-4:掀起自然語言處理新革命
自 2023 年 3 月 14 日開源 ChatGLM-6B 以來,GLM 系列模型受到了廣泛的關注和認可。特別是在 ChatGLM3-6B 開源之后,開發者對智譜 AI 推出的第四代模型充滿了期待。而這一期待,隨著 GLM-4-9B 的發布,終于得到了滿足。
GLM-4-9B 的誕生
為了賦予小模型(10B 以下)更加強大的能力,GLM 技術團隊經過近半年的探索,推出了這一全新的第四代 GLM 系列開源模型:GLM-4-9B。
創新預訓練技術
在預訓練過程中,我們引入大語言模型進行數據篩選,最終獲得了 10T 高質量多語言數據。這一數據量是 ChatGLM3-6B 模型的 3 倍以上。此外,我們采用了 FP8 技術進行高效的預訓練,相較于第三代模型,訓練效率提高了 3.5 倍。考慮到用戶的顯存需求,GLM-4-9B 的參數規模從 6B 提升到了 9B。最終,我們將預訓練計算量增加了 5 倍,從而在有限的顯存條件下最大化性能。
卓越性能展示
綜合以上的技術升級,GLM-4-9B 具備了更強大的推理性能、更加優異的上下文處理能力、多語言支持、多模態處理以及全工具 All Tools 調用等優勢。
GLM-4-9B 系列包括多個版本:
- 基礎版本:GLM-4-9B(8K)
- 對話版本:GLM-4-9B-Chat(128K)
- 超長上下文版本:GLM-4-9B-Chat-1M(1M)
- 多模態版本:GLM-4V-9B-Chat(8K)
GLM-4-9B 的強大能力
基礎能力
在強大的預訓練基礎上,GLM-4-9B 的中英文綜合性能相比 ChatGLM3-6B 提升了 40%。尤其是中文對齊能力 AlignBench、指令遵從能力 IFeval,以及工程代碼處理能力 Natural Code Bench 方面都實現了顯著提升。即使對比訓練量更多的 Llama 3 8B 模型,GLM-4-9B 也絲毫不遜色,在英文表現上略有領先,而在中文學科領域,GLM-4-9B 更是提升了高達 50% [性能評測圖表]。
長文本處理能力
圖片
GLM-4-9B 模型的上下文長度從 128K 擴展到了 1M tokens,意味著能同時處理多達 200 萬字的輸入,相當于兩本《紅樓夢》或 125 篇學術論文的長度。GLM-4-9B-Chat-1M 模型在“大海撈針”實驗中,成功展示了其出色的無損處理長文本輸入的能力 [長文本實驗圖示]。
以下是兩個展示長文本處理能力的 demo 視頻案例:
- GLM-4-9B-Chat 模型: 輸入 5 個 PDF 文件,總長度約為 128K,給出寫一篇關于中國大模型發展的詳細調研報告的 prompt。模型能夠快速生成高質量的調研報告(視頻未加速)。
- GLM-4-9B-Chat-1M 模型: 輸入《三體》全集約 90 萬字,要求模型給該小說寫續集大綱的 prompt。模型合理規劃并給出續寫框架(視頻加速 10 倍)。
多語言支持
GLM-4-9B 支持多達 26 種語言,包括漢語、英語、俄語等。我們將 tokenizer 的詞表大小從 65K 擴展到 150K,編碼效率提高了 30%。在多語言理解和生成任務中,GLM-4-9B-Chat 顯著超越 Llama-3-8B-Instruct [多語言性能比較圖]。
Function Call 能力
GLM-4-9B 的函數調用能力相較上一代提升了 40%,在 Berkeley Function-Calling Leaderboard 上,其 Function Call 能力與 GPT-4 不相上下 [函數調用性能對比圖表]。
All Tools 全工具調用
“All Tools”能力即模型可以理解和使用各種外部工具(如代碼執行、聯網瀏覽、畫圖等)來輔助完成任務。在 1 月 16 日的 Zhipu DevDay 上,GLM-4 模型全線升級了 All Tools 能力,可以智能調用網頁瀏覽器、代碼解釋器、CogView 等工具,完成復雜請求 [All Tools 任務圖示]。
多模態處理
GLM-4V-9B 作為 GLM-4 基座的開源多模態模型,能夠處理高分辨率輸入,將視覺和文本數據直接混合進行訓練,展現了顯著的多模態處理效果,與 GPT-4V 性能相當。在識別和處理復雜多模態任務時,表現非常出色 [多模態應用實例圖]。
圖片
未來展望
GLM-4-9B 展現了其在多種任務中的強大性能,是自然語言處理領域的一大突破。無論是學術研究還是工業應用,GLM-4-9B 都將成為您的不二選擇。
我們誠摯邀請您加入 GLM-4 的使用者行列,共同探索這款卓越模型帶來的可能性:
- GitHub 倉庫
- Hugging Face 模型頁面
- 魔搭社區