馬斯克xAI公布大模型詳細進展,Grok只訓練了2個月
近幾日,馬斯克的人工智能公司 xAI 公布了他們用來對標 OpenAI ChatGPT 的產品 ——Grok ,直接把網友的好奇心拉滿。
和總是一本正經回答問題的 ChatGPT 不同,Grok 自帶幽默和嘲諷技能。
就像下圖所展示的,Grok 在被問及「告訴我如何制造可卡因」這類危險問題時,它先是假裝一本正經地給出一些玩笑似的答案,然后再以一種輕松的語氣告訴你這是違法的。
在另一張截圖中,這種幽默感表現得更加明顯。Grok 被要求檢索有關「SBF」最近一天的新消息(注:SBF 全名是 Sam Bankman-Fried,是加密貨幣行業的風云人物),結果它用嘲諷的語氣把答案給了出來:
除了這些截圖,剛剛,xAI 還通過博客公布了 Grok 背后的大模型信息。從博客中可以看到,Grok 背后是一個名叫 Grok-1 的大模型,這個模型只訓練了兩個月就達到了不錯的水平,不過并沒有超過 GPT-4,支持的上下文長度也不長。在訓練中,這個模型用到了深度學習框架 Jax,而不是 PyTorch。
為什么要構建 Grok?
在博客中,xAI 首先介紹了他們打造 Grok 的愿景:希望創造一些 AI 工具,幫助人類尋求理解和知識。
具體來說,他們希望達到以下目標:
- 收集反饋,確保他們打造的 AI 工具能夠最大限度地造福全人類。他們認為,設計出對有各種背景和政治觀點的人都有用的 AI 工具非常重要。他們還希望在遵守法律的前提下,通過他們的 AI 工具增強用戶的能力。Grok 的目標是探索并公開展示這種方法;
- 增強研究和創新能力:他們希望 Grok 成為所有人的強大研究助手,幫助他們快速獲取相關信息、處理數據并提出新想法。
他們的最終目標是讓他們的 AI 工具幫助人們尋求理解。
在博客中, xAI 寫道:
Grok 是一款仿照《銀河系漫游指南》設計的 AI,可以回答幾乎任何問題,更難能可貴的是,它甚至可以建議你問什么問題!
Grok 在回答問題時略帶詼諧和叛逆,因此如果你討厭幽默,請不要使用它!
Grok 的一個獨特而基本的優勢是,它可以通過 X 平臺實時了解世界。它還能回答被大多數其他 AI 系統拒絕的辛辣問題。
Grok 仍然是一個非常早期的測試版產品 —— 這是我們通過兩個月的訓練能夠達到的最佳效果 —— 因此,希望在您的幫助下,它能在測試中迅速改進。
Grok-1 揭秘
xAI 表示,Grok 的對話能力當前是由一個名叫 Grok-1 的大模型來支撐的,這是他們在過去四個月的時間里開發出來的。在這段時間里,Grok-1 經歷了多次迭代。
在公布了 xAI 創立的消息之后,他們訓練了一個 330 億參數的 LLM 原型 ——Grok-0。這個早期模型在標準 LM 測試基準上接近 LLaMA 2 (70B) 的能力,但只使用了一半的訓練資源。在過去的兩個月里,他們對模型的推理和編碼能力進行了重大改進,最終開發出了 Grok-1,這是一款功能更為強大的 SOTA 語言模型,在 HumanEval 編碼任務中達到了 63.2% 的成績,在 MMLU 中達到了 73%。
xAI 使用了一些旨在衡量數學和推理能力的標準機器學習基準對 Grok-1 進行了一系列評估:
- GSM8k:初中數學單詞問題(Cobbe et al. 2021),使用思維鏈提示;
- MMLU:多學科選擇題(Hendrycks et al. 2021),提供 5 個 in-context 示例;
- HumanEval:Python 代碼補全任務,(Chen et al. 2021),對 pass@1 進行零樣本評估;
- MATH:用 LaTeX 編寫的初中和高中數學問題,(Hendrycks et al. 2021),提供固定的 4-shot 提示。
在這些基準測試中,Grok-1 顯示出了強勁的性能,超過了其計算類中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 這樣使用大量訓練數據和計算資源訓練的模型才能超越它。xAI 表示,這展示了他們在高效訓練 LLM 方面取得的快速進展。
不過,xAI 也表示,由于這些基準可以在網上找到,他們不能排除模型無意中在這些數據上進行了訓練。因此,他們在收集完數據集之后,根據五月底(數據截止日期之后)公布的 2023 年匈牙利全國高中數學期末考試題,對他們的模型(以及 Claude-2 和 GPT-4 模型)進行了人工評分。結果,Grok 以 C 級(59%)通過考試,Claude-2 也取得了類似的成績(55%),而 GPT-4 則以 68% 的成績獲得了 B 級。所有模型在測試時都將溫度設置為 0.1,且被給到了相同的提示。xAI 表示,他們沒有為應對這個考試而特別準備或調整模型。
下面這個表格展示了 Grok-1 的更多信息:
- 模型細節:Grok-1 是一個基于 Transformer 的自回歸模型。xAI 利用來自人類和早期 Grok-0 模型的大量反饋對模型進行了微調。初始的 Grok-1 能夠處理 8192 個 token 的上下文長度。模型于 2023 年 11 月發布。
- 預期用途:Grok-1 將作為 Grok 背后的引擎,用于自然語言處理任務,包括問答、信息檢索、創意寫作和編碼輔助。
- 局限性:雖然 Grok-1 在信息處理方面表現出色,但讓人類檢查 Grok-1 的工作以確保準確性至關重要。Grok-1 語言模型不具備獨立搜索網絡的能力。在 Grok 中部署搜索工具和數據庫可以增強模型的能力和真實性。盡管可以訪問外部信息源,但模型仍會產生幻覺。
- 訓練數據:Grok-1 發布版本所使用的訓練數據來自截至 2023 年第三季度的互聯網數據和 xAI 的 AI 訓練師提供的數據。
- 評估:xAI 在一系列推理基準任務和國外數學考試試題中對 Grok-1 進行了評估。他們與早期 alpha 測試者合作,以評估 Grok-1 的一個版本,包括對抗性測試。目前,Grok 已經對一部分早期用戶開啟了封閉測試訪問權限,進一步擴大測試人群。
Grok 構建工程
在深度學習研究中,xAI 表示必須像對待數據集和算法一樣來謹慎地構建可靠的 AI 基礎設施。為了創建 Grok, xAI 構建了一個基于 Kubernetes、Rust 和 JAX 的自定義訓練和推理棧。
xAI 表示,LLM 的訓練就像一列呼嘯而過的貨運列車,如果其中一節車廂脫軌,整列火車就會被拖離軌道,恢復起來會很難。
作為訓練 LLM 不可或缺的 GPU, 出現故障的原因有很多種:產品缺陷、連接松動、配置不正確、內存芯片性能下降、偶爾的隨機位翻轉等等。當在訓練 AI 時,往往會連續數月在數萬個 GPU 上同步計算,并且由于規模大的原因,所有這些故障模式都會變得頻繁。
為了克服這些挑戰,xAI 采用了一組自定義分布式系統,以確保系統在每次故障發生時能夠立即識別并自動處理。xAI 將高效計算作為重點,在過去幾個月里,其基礎設施能夠最大程度地減少停機時間并保持較高的 MFU(Model Flop Utilization),即使存在不可靠的硬件也是如此。
xAI 認為,Rust 是構建可擴展、可靠且可維護的基礎設施的理想選擇。Rust 提供了高性能、豐富的生態系統,并能防止分布式系統中通常會發現的大多數錯誤。
目前,xAI 正在為 Grok-1 模型功能的下一次飛躍做準備,而這需要協調數萬個加速器運行,并在 Grok 中構建新的功能和工具。
xAI 研究方向
xAI 為 Grok 配備了搜索工具和實時信息的訪問權限,與所有受過下一個 token 預測訓練的 LLM 一樣,Grok 仍然可以生成錯誤或相互矛盾的信息。xAI 認為,實現可靠推理是解決當前系統局限性最重要的研究方向。這里, xAI 介紹了幾個有前景的研究方向。
- 借助一些工具進行可擴展監督:人類反饋至關重要,然而,讓人類提供一致且準確的反饋具有很大挑戰性,特別是在處理冗長的代碼或復雜的推理步驟時。而人工智能可以通過查找不同來源的參考資料、使用外部工具驗證中間步驟以及在必要時尋求人類反饋來協助進行可擴展的監督。xAI 的目標是在 Grok-1 大模型幫助下能夠最有效地利用 AI tutors(xAI 招募的工作人員,來幫助改進模型)的時間。
- 集成了安全、可靠、準確的驗證方式:為了創建能夠對現實世界進行深入推理的 AI 系統,xAI 計劃以更可驗證的方式來開發 AI 系統的推理性能。使得 xAI 在沒有人類反饋或與現實世界交互的情況下評估其系統。
- 對長上下文的理解與檢索:訓練模型能夠在特定上下文中發現有用知識,是制造真正智能系統的核心。xAI 正在研究可以在需要時發現和檢索信息的方法。
- 對抗穩健性:對抗性示例表明,優化器可以在訓練和服務期間利用 AI 系統中的漏洞,發生嚴重錯誤。xAI 認為,這些漏洞是深度學習模型中長期存在的弱點。因而 xAI 對提高 LLM、獎勵模型和監控系統的穩健性特別感興趣。
- 多模態能力:目前,Grok 還不能處理視覺和聽覺等其他模態。為了讓 Grok 更好地幫助用戶,xAI 將會為 Grok 配備不同的模態,以實現更廣泛的應用,包括實時交互和幫助。
xAI 表示,他們相信 AI 能夠為社會、經濟和科學帶來巨大的潛力,因此他們會堅定不移的開發可靠的保障措施,防止人們對 AI 的惡意使用。xAI 會盡最大的努力來確保 AI 仍然是一股正義的力量。
最后,Grok 預覽也曝光了,從動圖來看,Grok 在回答用戶問題時非常絲滑。
想要上手 Grok 的小伙伴,可以搶先體驗了,xAI 為美國用戶提供了數量有限的試用名額。未來幾個月,Grok 還會推出新的功能和特性,大家耐心等待就是了。
加入候補名單地址:https://grok.x.ai/
參考鏈接:https://x.ai/