ChatGLM: 從GLM-130B到GLM-4的系列大型語言模型 原創
?摘要:我們介紹了ChatGLM,這是我們持續開發的大規模語言模型家族。本報告主要聚焦于GLM-4系列語言模型,包括GLM-4、GLM-4-Air 和 GLM-4-9B。它們是我們最強大的模型,集成了前三代ChatGLM的所有經驗和教訓。迄今為止,GLM-4模型在中文和英文的十萬億個標注符號上進行了預訓練,并輔以來自24種語言的小型語料庫,主要為中英文使用進行了對齊。高質量的對齊通過多階段后訓練過程實現,包括監督微調和從人類反饋中學習。評估表明,GLM-4在通用指標上與GPT-4相媲美甚至超越,如MMLU、GSM8K、MATH、BBH、GPQA和HumanEval;在指令跟隨方面接近GPT-4-Turbo;在長上下文任務上匹敵GPT-4 Turbo (128K)和Claude 3;在中文對齊上優于GPT-4,并在AlignBench中表現優異。GLM-4 All Tools模型進一步對齊了用戶意圖,能夠自主決定何時使用及選擇何種工具(包括網頁瀏覽器、Python解釋器、文本到圖像模型和用戶定義的函數)來完成復雜任務。在實際應用中,它在訪問在線信息和使用Python解釋器解決數學問題等任務上表現優異,甚至超過GPT-4 All Tools。我們還開源了一系列模型,包括ChatGLM-6B、GLM-4-9B、WebGLM和CodeGeeX,2023年在Huggingface上累計下載量超過1000萬次。
1 引言
ChatGPT的表現引人注目,其功能最初由GPT-3.5模型在2022年11月驅動,隨后在2023年3月升級為GPT-4。根據OpenAI的說法,GPT-3.5系列通過引入指令微調、監督微調(SFT)和/或從人類反饋中進行的強化學習(RLHF)在GPT-3的基礎上有所改進。最初的GPT-3于2020年發布,標志著從GPT-1的1.17億參數和GPT-2的15億參數躍升至1750億參數的重大進展。這種規模的擴展使得GPT-3具備了上下文學習和廣泛的能力,促成了大型語言模型(LLMs)的出現。
圖 1 標題:GLM 家族的語言、代碼、視覺和智能體模型的時間線。本報告主要關注語言模型,即 ChatGLM。API 可通過 ??https://bigmodel.cn??? 獲取,開源模型可通過 ???https://github.com/THUDM??? 訪問。
受GPT-3的啟發,我們提出了通用語言模型(GLM)架構,該架構以自回歸填空任務為特點,并在2021年開源了GLM-10B模型(參見圖1中的GLM時間線)。自2021年底起,我們開始預訓練GLM-130B。我們的目標是訓練一個百億級模型,以匹敵或超越GPT-3(davinci),并驗證在這種規模下成功訓練模型的技術,與其他工作如OPT-175B和BLOOM-176B類似。我們于7月完成了GLM-130B的4000億標記的訓練和評估,并于2022年8月發布了模型和預訓練細節。根據HELM 2022年11月的數據,GLM-130B在各個維度上與GPT-3(davinci)相匹敵。
此后,我們開始對GLM-130B進行指令微調。ChatGPT的出現進一步促使我們通過SFT和RLHF使基礎模型對齊。我們從頭開始創建并構建了提示-響應對,并執行了SFT,同時還開始研究如何有效應用RLHF。在2023年3月14日,經過對齊的模型ChatGLM-130B上線,此外,較小版本的ChatGLM-6B也在同一天開源,獲得了遠超預期的關注。ChatGLM-6B設計為擁有62億參數,旨在1)促進訓練前后技術和數據選擇的快速迭代,2)通過INT4量化支持在消費級顯卡上進行本地部署。自此,我們迅速探索并改進了預訓練和對齊技術,導致了每三個月推出的第二代和第三代ChatGLM系列,這些系列完全從頭開始預訓練。
ChatGLM-6B是在大約一萬億中文和英文語料庫上預訓練的,具有2048個上下文長度(2K),并主要通過SFT進行增強。2023年6月發布的ChatGLM2-6B通過更多更好的數據進行預訓練和對齊,帶來了比前代顯著的改進,包括在MMLU上提高了23%,在GSM8K上提高了571%,在BBH上提高了60%。通過采用FlashAttention技術,其上下文長度擴展到了32K。此外,多查詢注意力機制的集成提高了推理速度42%。更進一步,我們的第二代代碼模型CodeGeeX2-6B通過在額外的6000億代碼標記上進行預訓練,展示了相較于初代CodeGeeX-13B顯著的Pass@1提升:Python提高了57%,C++提高了71%,Java提高了54%,JavaScript提高了83%,Go提高了56%,這些成績是通過HumanEval-X評估的。通過進一步實現更多樣化的訓練數據集、更充分的訓練步驟和更優化的訓練策略,ChatGLM3-6B在語義、數學、推理、代碼和知識等42項基準測試中拔得頭籌。從這一代開始,ChatGLM還支持函數調用和代碼解釋器,以及復雜的智能體任務。在這些發展的過程中,我們還開發了1.5B、3B、12B、32B、66B和130B參數的模型,使我們能夠驗證觀察結果并建立我們自己的縮放規律。
總結所學經驗和積累的知識后,我們啟動了GLM-4的訓練。第一個階段的檢查點經過了多階段的后期訓練過程(如SFT、RLHF、安全性對齊),目前主要集中在中英文的語言使用。隨后,它發展為兩個不同的版本:GLM-4和GLM-4 All Tools,兩者均支持128K的上下文長度。自2024年1月16日起,GLM-4(0116)通過GLM-4 API上線,GLM-4 All Tools則可通過???https://chatglm.cn??以及支持自定義GLM智能體創建的移動應用程序訪問。最新的模型包括在預訓練和對齊方面進行升級的GLM-4(0520)和GLM-4-Air。GLM-4-Air在更低延遲和推理成本的情況下實現了與GLM-4(0116)相當的性能。GLM-4的評估在各種語言基準上進行,評估了GLM-4在英文中的通用能力、在中英文中的指令跟隨能力,以及在中文中的對齊、長上下文和智能體能力。
首先,在最常用的英文學術基準上——MMLU、GSM8K、MATH、BBH、GPQA和HumanEval,GLM-4(0520)的表現與GPT-4(0613)相當。例如,它在MMLU上的得分為83.3,而GPT-4為86.4,Gemini 1.5 Pro為83.7。其次,根據IFEval的評估,GLM-4的指令跟隨能力在提示和指令層面都接近GPT-4-Turbo,無論是在英文還是中文。第三,在中文語言對齊方面,GLM-4在AlignBench的八個維度上表現優于GPT-4,并與GPT-4-Turbo持平。最后,針對長上下文任務,GLM-4(128K)在LongBench-Chat上的表現與GPT-4 Turbo和Claude 3 Opus相當,得分為87.3,而GPT-4 Turbo得分為87.2,Claude 3 Opus得分為87.7。
GLM-4 All Tools模型特別對齊以更好地理解用戶意圖,并自主選擇最適合完成任務的工具。例如,它可以通過網頁瀏覽器進行多輪次信息檢索,使用Python解釋器解決數學問題,利用文本到圖像模型生成圖像,并調用用戶定義的函數。圖2展示了GLM-4 All Tools使用網頁瀏覽器和Python解釋器解決“查詢2000年至2023年全球人口增長,并計算平均年增長率”的示例。我們的實際測試顯示,它不僅匹敵,而且在訪問在線信息和解決數學問題等常見任務中超過了GPT-4 All Tools的能力。
圖 2:GLM-4 All Tools 的一個示例。
繼三代開放的ChatGLM-6B模型之后,我們還開放了GLM-4-9B(128K和1M上下文長度)模型。GLM-4-9B基于大約10萬億多語言語料庫進行預訓練,具有8192(8K)的上下文長度,并使用與GLM-4(0520)相同的流水線和數據進行后訓練。盡管使用的訓練計算量較少,它的表現超越了Llama-3-8B,并支持GLM-4中所有的All Tools功能。我們還提供了一個實驗模型GLM-4-9B-Chat-1M,支持1百萬(1M)上下文長度(相當于大約200萬個中文字符)。表1展示了三代ChatGLM-6B模型和GLM-4-9B的表現,展示了ChatGLM隨著時間的推移逐步改進的過程。
圖3總結了從GLM-130B到ChatGLM、ChatGLM2/3再到GLM-4 All Tools的主要改進和特點。在這一過程中,我們還為代碼LLM(CodeGeeX)以及圖像理解的視覺語言模型(CogVLM)和文本到圖像生成模型(CogView)的開放開發做出了貢獻。這些開源的模型和數據可以通過???https://github.com/THUDM???和???https://huggingface.co/THUDM???進行訪問。
2 ChatGLM 技術
在本節中,我們介紹了ChatGLM中采用和開發的預訓練和后訓練技術,包括模型架構、預訓練數據、對齊過程和All Tools功能。對于我們使用的每一個主要技術,我們都提供了詳細的技術報告,以展示我們如何達到GLM-4的水平。
預訓練數據
我們的預訓練語料庫由多語言文檔組成(主要是中文和英文),這些文檔來自多種來源,包括網頁、維基百科、書籍、代碼和論文。數據處理流程主要包括三個階段:去重、過濾和分詞。去重階段通過移除重復或相似的文檔來提高數據多樣性,包括精確去重和模糊去重。過濾階段通過移除包含冒犯性語言、占位符文本、源代碼等噪聲文檔來提高數據質量。分詞階段將文本轉換為一系列標記以供進一步處理。預訓練數據中的標記數量直接影響模型的訓練速度。為了優化這一點,我們采用了字節級字節對編碼(BPE)算法來分別學習中文和多語言的標記,并將其與tiktoken中的cl100k_base分詞器的標記合并,生成一個大小為150,000的統一詞匯表。在最終的訓練集里,我們重新加權不同來源的數據,增加像書籍和維基百科等高質量和教育資源的比例。最終,預訓練語料庫大約包含10萬億個標記。
在ChatGLM發展的四代過程中,我們的發現與現有研究一致:數據的質量和多樣性對于構建有效的大型語言模型至關重要。盡管我們獲得了許多經驗教訓,但至今我們仍未找到指導數據收集、清理和選擇過程的基本原則。
架構
GLM家族的語言模型基于Transformer架構。在GLM-130B中,我們探索了各種選項來穩定其預訓練,考慮到當時的硬件限制。具體來說,GLM-130B采用了DeepNorm作為層歸一化策略,并使用了旋轉位置編碼(RoPE)以及帶有GeLU激活函數的門控線性單元(GLU)。在我們的探索過程中,我們研究了各種提高模型性能和推理效率的策略。最近的GLM-4模型采用了以下架構設計選擇:
- 除QKV外沒有偏差:為了提高訓練速度,我們移除了除注意力層中的查詢、鍵和值(QKV)之外的所有偏差項。在這樣做時,我們觀察到在長度外推方面有輕微的改進。
- RMSNorm和SwiGLU:我們采用了RMSNorm替代LayerNorm,并用SwiGLU替代ReLU。這兩種策略均被觀察到能提高模型性能。
- 旋轉位置嵌入(RoPE):我們將RoPE擴展為二維形式,以適應GLM中的二維位置編碼。
- 組查詢注意力(GQA):我們用組查詢注意力(GQA)替代多頭注意力(MHA),以減少推理期間KV緩存的大小。由于GQA使用的參數比MHA少,因此我們增加了前饋網絡(FFN)的參數數量,以保持相同的模型規模,即將FFN的維度設置為隱藏層維度的10/3。
我們的模型上下文長度從ChatGLM的2K擴展到ChatGLM2和ChatGLM3的32K,再到GLM-4的128K和1M。這個擴展不僅通過上下文擴展(位置編碼擴展和長文本的連續訓練)來實現,還通過長上下文對齊,使GLM-4能夠有效處理長上下文。
對齊
預訓練為大型語言模型奠定了基礎,而后訓練則進一步優化這些模型,使它們更符合人類偏好,例如理解人類意圖、遵循指令和進行多輪對話。對于GLM-4,對齊主要通過監督微調(SFT)和從人類反饋中進行的強化學習(RLHF)來實現。在SFT中,我們發現真實的人類提示和交互(而非基于模板或模型生成的響應)對于對齊質量至關重要。盡管SFT在很大程度上使基礎模型符合人類偏好,RLHF則有助于進一步緩解諸如響應拒絕、安全性問題、生成的雙語標記混合以及多輪連貫性等問題。
對于第一代模型(ChatGLM-6B和ChatGLM-130B),提示-響應對主要由模型開發人員進行標注。對于后續的模型,對齊數據是由內部標注數據和從第三方獲取的專有數據組合而成,并接受了相對嚴格的質量控制措施。與現有的做法類似,標注員被指示從多個維度對模型的響應進行評分,包括安全性、真實性、相關性、幫助性和人類偏好。
ChatGLM技術
在ChatGLM的發展過程中,我們引入并將發布一些用于提高其性能的技術。
- 大型語言模型的涌現能力:我們研究了預訓練損失與下游任務性能之間的關系,發現即使在相同的預訓練損失下,不同規模的語言模型和訓練標記在下游任務上表現相同。我們還發現,在某些任務上(如MMLU和GSM8K),只有當預訓練損失低于某個閾值時,模型的表現才會超越隨機水平。因此,我們重新定義了涌現能力,即那些在預訓練損失較低的模型中展現出來的能力。
- 長對齊(LongAlign):為了擴展語言模型的上下文窗口大小,我們提出了長對齊(LongAlign)——一個全面的長上下文對齊方案。它使得GLM-4能夠處理長達128K標記的長上下文文本,其性能與Claude 2和GPT-4 Turbo相當。
- ChatGLM-Math:為了提高語言模型在解決數學問題上的能力,我們引入了ChatGLM-Math,它通過自我批評而非外部模型或手動標注進行數據選擇。
- ChatGLM-RLHF:為了將語言模型與人類反饋對齊,我們引入了ChatGLM-RLHF,這是我們在LLM中應用PPO和DPO的實踐。
- 自對比(Self-Contrast):為了避免昂貴的人類偏好反饋數據,我們開發了一種無反饋對齊策略——自對比(Self-Contrast)。它利用目標語言模型自身生成大量負樣本,以進行RLHF對齊。
- AgentTuning:為了提高語言模型的智能體能力,我們開發了AgentTuning框架,并引入了AgentInstruct指令微調數據集,該數據集包含高質量的智能體與環境的交互軌跡。
- APAR:為了提高語言模型在具有層次結構的響應中的推理速度,我們提出了一種自動并行自回歸(APAR)生成方法。它通過指令微調訓練語言模型來規劃其(并行)生成過程,并執行APAR生成。
- 基準測試:我們還開發了多個開放的語言模型基準,包括用于評估語言模型作為智能體能力的AgentBench,用于評估語言模型長上下文處理能力的LongBench,用于衡量ChatGLM中文對齊質量的AlignBench,HumanEval-X用于評估Python以外編程語言中的HumanEval問題,以及用于評估模型解決實際編程任務能力的NaturalCodeBench (NCB)。
GLM-4 All Tools
最新的ChatGLM模型是GLM-4和GLM-4 All Tools,二者均通過上述技術進行訓練和對齊。GLM-4 All Tools是進一步對齊以支持智能代理和相關任務的模型版本。它能夠自主理解用戶意圖,規劃復雜指令,并調用一種或多種工具(如網頁瀏覽器、Python解釋器和文本到圖像模型)來完成復雜任務。圖4展示了GLM-4 All Tools系統的整體流程。當用戶發出復雜請求時,模型會逐步分析任務并規劃解決步驟。如果它判斷無法獨立完成任務,它將依次調用一個或多個外部工具,利用這些工具的中間反饋和結果來幫助解決任務。
基于GLM-4的所有工具功能,我們還開發了GLM應用平臺,允許用戶為特定任務創建和定制自己的智能體。GLM不僅支持嵌入式Python解釋器、網頁瀏覽器、文本到圖像模型,還支持用戶定義的函數、API和外部知識庫,以更有效地滿足用戶需求。
3 GLM-4 的能力
我們從多個角度評估了GLM-4模型的能力,包括其在學術基準測試中的基本能力、代碼問題解決能力、智能體在英語環境中的能力、指令跟隨、中文和英文中的長上下文處理能力以及中文對齊能力。如前所述,GLM-4主要在中文和英文上進行預訓練,并且對中文進行了重點對齊。在本節中,我們主要報告最新版本GLM-4,即GLM-4 (0520) 和 GLM-4-Air (0605) 的結果,因為GLM-4 (0520) 在評估的基準測試中表現略優于最初的0116版本。評估期間,GLM-4 和 GLM-4-Air 均以BFloat16精度進行部署。
作為基準,我們呈現了GPT-4(0603)、GPT-4 Turbo(1106,2024-04-09)、Claude 2、Claude 3 Opus和Gemini 1.5 Pro的結果,這些結果均來自相應的技術報告或通過其公開API測試得出。
總體而言,GLM-4 在標準基準測試、指令跟隨、長上下文、代碼問題解決及智能體能力方面與當前最先進的模型(GPT-4 Turbo、Gemini 1.5 Pro 和 Claude 3 Opus)接近。在中文對齊方面,它在多個領域表現強勁,如基礎語言能力、中文高級理解、專業知識和開放性問題??傊?,GLM-4 是中文語言任務中的佼佼者。它在中文數學和邏輯推理能力上與GPT-4和Claude 3 Opus相當,盡管在這方面稍稍落后于GPT-4 Turbo。
3.1 學術基準測試評估
為了評估基本模型的總體性能,我們選擇了六個常用的基準,涵蓋了知識、數學、推理、常識和代碼:
- MMLU:多項選擇題集,收集自各種考試,包括數學、歷史、計算機科學等。我們向模型提供所有答案并要求其選擇正確答案的字母。
- GSM8K:包含8,500道小學數學文字題(測試集中有1,000道),需要模型使用數學概念解決實際情境問題。我們使用鏈式思維(chain-of-thought)提示進行測試。
- MATH:包含12,500道具有挑戰性的競賽級數學問題(測試集中有5,000道)。我們使用鏈式思維提示進行測試。
- BBH:23項具有挑戰性的BIG-Bench任務。我們使用鏈式思維提示進行測試。
- GPQA:一項涵蓋生物、化學和物理學的研究生級別多項選擇題基準測試。
- HumanEval:一個代碼生成基準,評估生成的合成函數的正確性,使用自動測試用例檢查。
我們將GLM-4的表現與原始GPT-4進行比較,結果如表2所示??梢钥吹剑珿LM-4在MMLU上達到了GPT-4準確率的96.3%,并且在其他基準測試中表現優于GPT-4。總體而言,GLM-4的基本能力接近GPT-4 Turbo和Claude 3 Opus。
3.2 指令跟隨能力評估
我們使用最近引入的IFEval數據集評估了GLM-4在跟隨指令方面的能力。該數據集包含從25個不同指令中提取的541個提示,通過明確的標準進行驗證(例如,“請在郵件末尾寫上:P.S. 我確實喜歡這個蛋糕”可以通過字符串匹配來驗證)。我們遵循[61]中的方法,計算提示級別和指令級別的準確率,分別在嚴格模式和寬松模式下進行評估。為了進一步評估模型在跟隨中文指令上的表現,我們將原始提示翻譯成中文,刪除不適用于中文的指令(例如大寫規則),并調整評分腳本以適應中文數據。
表3展示了GLM-4在IFEval上的表現。在寬松模式下,GLM-4的指令級別準確率與GPT-4 Turbo在英文和中文中的表現相當。在嚴格模式下,GLM-4在英文和中文中的指令級別準確率分別達到了GPT-4 Turbo(2024-04-09)的99.0%和98.6%。
3.3 對齊能力評估
AlignBench通過一種自動的“語言模型即裁判”方法來評估大型語言模型在中文背景下的對齊能力。該基準包含683個問題,涵蓋8個不同類別,并通過基于GPT-4的多維規則校準的逐點參考打分方法對模型的響應進行評判。我們在AlignBench-v1.1版本上進行評估,該版本更加細致地改進了參考生成的質量,特別是在需要知識的問題上補充了從網頁中收集到的帶有URL的人類證據,這類問題占總查詢的66.5%。在這個版本上,幾乎所有的語言模型得分都比之前的AlignBench有所下降。
表4展示了GLM-4在AlignBench上的表現。GLM-4在整體得分上超過了GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 Pro,尤其在中文邏輯推理和語言理解方面表現優異,顯著優于其他強大的模型。這些結果表明其對中文語言和知識的掌握能力很強。
目前,GLM-4與GPT-4 Turbo(2024-04-09)之間的性能差距主要體現在數學維度上。我們已經引入了ChatGLM-Math中的技術(如自我批評)來持續增強GLM模型的推理能力。
3.4 長上下文處理能力評估
為了評估GLM-4在長文本任務上的表現,我們在LongBench-Chat上進行了評估。LongBench-Chat的上下文長度范圍從10K到100K,涵蓋了用戶常用的多種長文本場景,如文檔問答、摘要生成和代碼生成。為了更詳細地比較GLM-4在不同語言中的表現,我們將LongBench-Chat按語言劃分為中文和英文兩部分。表5分別展示了兩種語言的結果,從中可以清楚地看到,GLM-4在英文提示上的表現與GPT-4 Turbo和Claude 3 Opus一致,而在中文提示上的表現甚至超過了最好的模型。
3.5 實際用戶提示下的代碼生成能力評估
雖然HumanEval已被廣泛用于評估代碼生成,但其中大部分問題都屬于入門級算法問題。然而,在實際中,真實用戶提出的問題往往更為復雜,超出了HumanEval的范疇。此外,之前的研究報告指出在訓練數據中存在HumanEval污染的問題,使得HumanEval的評估結果相對不再可信。因此,除了HumanEval,我們還在NaturalCodeBench(NCB)上對GLM-4進行了評估,NCB是一個源于實際用戶提示的雙語代碼基準,反映了真實世界中的復雜代碼任務。表6展示了結果,GLM-4在實際場景中的代碼生成能力與Claude 3 Opus接近。
3.6 函數調用能力評估
為了評估GLM模型在函數調用方面的能力,我們在Berkeley函數調用排行榜上進行了評估。該基準包含2,000個問題-函數-答案對,評估模型在三個類別上的函數調用能力:通過抽象語法樹(AST)評估、通過API執行評估和相關性檢測。結果如表7所示。GLM-4 (0520) 在函數調用能力上與GPT-4 Turbo (2024-04-09) 表現一致。
3.7 智能體能力評估
大型語言模型(LLMs)作為智能體在多種環境和情境中表現出色,稱為“LLMs-as-Agents”。因此,我們在AgentBench上評估了GLM-4及其他對比模型在不同的實際環境中的表現,包括代碼、游戲和網頁相關的任務。結果如表8所示,GLM-4系列模型在智能體任務上的表現令人印象深刻。
3.8 全工具能力評估
GLM-4進一步對齊以支持智能代理和用戶自定義GLMs功能,生成的模型版本為GLM-4 All Tools。表9顯示了GLM-4 All Tools在使用Python解釋器解決數學問題和網頁瀏覽器獲取信息方面的表現,與GPT-4 All Tools表現相當。
4 安全性與風險
我們致力于確保GLM-4能夠作為一個安全、負責任且無偏見的模型運行。除了應對常見的倫理和公平問題,我們還仔細評估并減輕模型在現實世界場景中可能對用戶造成的潛在傷害。
風險緩解
在預訓練階段,我們通過移除包含敏感關鍵詞和預定義黑名單網頁的文本,嚴格清理數據。在對齊階段,我們對每一個訓練樣本進行安全性評估,并移除任何可能帶來潛在風險的樣本。無害性也是在比較多個模型輸出時進行偏好對齊的重要標準之一。
我們有一個“紅隊”,其任務是不斷挑戰模型,提出一些棘手的問題,這些問題往往會引發不安全的回答。我們收集所有來自GLM-4的有害問題-回答對,并通過人工標注進行改進,以便進一步對模型進行對齊。
安全性評估
我們使用SafetyBench數據集對GLM-4模型進行了評估,該數據集從7個維度評估了每個模型的能力:倫理與道德(不道德行為)、非法活動(基本法律知識)、心理健康(對心理健康的負面影響)、冒犯性(冒犯行為)、身體健康(可能導致身體傷害的危險行為)、隱私與財產(隱私泄露或財產損失)、不公平與偏見。我們在SafetyBench的中文子集中對不同模型進行評估,該子集通過刪除高度敏感的問題(這些問題容易被阻斷)來緩解不同API安全策略的干擾。
表10展示了GLM-4與現有最先進模型的安全性表現。在大多數維度上,GLM-4 (0520) 表現出有競爭力的安全性,并且整體上達到了與Claude 3 Opus相當的表現。GLM-4略微落后于GPT-4家族的模型,特別是在“身體健康”維度上,該維度要求模型具備關于物理世界的常識,以避免潛在風險。我們已在這一方向上投入了更多的精力,以開發更強大且更安全的GLM模型。
5 結論
在本報告中,我們介紹了從GLM-130B到GLM-4(全工具版)的ChatGLM系列大型語言模型。在過去一年半的時間里,我們在理解大型語言模型的各個方面取得了巨大進展,并獲得了寶貴的第一手經驗。隨著每一代模型的開發,團隊在模型預訓練和對齊方面學習并應用了更加有效和高效的策略。最近的ChatGLM模型——GLM-4 (0116, 0520)、GLM-4-Air (0605) 和 GLM-4 全工具版——展示了在執行復雜任務時顯著的進步,它們能夠自主調用外部工具和功能。這些GLM-4模型在性能上達到了甚至在某些情況下超越了最先進的模型,如GPT-4 Turbo、Claude 3 Opus 和 Gemini 1.5 Pro,尤其是在處理與中文相關的任務時表現突出。
此外,我們致力于通過開源發布模型權重和在此過程中開發的技術,推動大型語言模型的可訪問性和安全性。在2023年,我們開源的語言、代碼和視覺模型在Hugging Face上的下載量已超過1000萬次。目前,我們正在基于現有的經驗教訓開發更強大的模型。未來,我們將繼續通過開源推動最前沿的大型語言模型技術的發展,并致力于實現讓機器像人類一樣思考的目標。
?
本文轉載自公眾號AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/p-IDsEWdBPfW99w_4S4b8Q???
