做完GPT-4完整測評，微軟爆火論文稱初版AGI就快來了

作者：機器之心 2023-03-24 16:02:59

GPT-4 的能力什么檔次？

1956 年，在達特茅斯學院召開的一個研討會上，人工智能這一概念正式被提出。

之后這個詞一直挑戰著心理學家、哲學家和計算機科學家，因為它太難被定義了。1994 年，52 名心理學家聯合發文試圖捕捉它的本質。

隨著時間的推移，研究者開始將注意力轉移到特定領域的 AI 系統，如 2016 年 AlphaGo 挑戰韓國冠軍棋手大獲全勝。之后，時間來到 20 世紀 90 年代末和 21 世紀初，研究者不滿足于專用 AI，因此開發更通用的人工智能系統呼聲越來越高。隨之而來的是，通用人工智能 (AGI) 一詞開始在 2000 年代初期流行起來。

最近一段時間，如大家所見，大型語言模型 (LLM) 走到聚光燈下，這些神經網絡基于 Transformer 架構，并在大量文本數據集上訓練而成。尤其是 OpenAI 最新發布的 GPT-4，更是展示了大型語言模型的通用性，在數學、文字、法律、醫學等領域樣樣精通。

我們不禁會問，GPT-4 是邁向 AGI 的重要一步嗎？

微軟給出的答案是肯定的，在其最近發布的一篇論文中，他們闡述了這個觀點。文中對 GPT-4 進行了全面評測。微軟認為「鑒于 GPT-4 能力的廣度和深度，我們相信它應該被合理視作一個通用人工智能（AGI）系統的早期（但仍不完整）版本。」

微軟還表示，「本文的主要目標是對 GPT-4 的能力和局限性進行探索，我們相信 GPT-4 的智能標志著計算機科學及其他領域的真正范式轉變。」

論文地址：https://arxiv.org/pdf/2303.12712.pdf

有趣的是，這篇火爆的論文還被人發現有大量刪減，因此有人找出了未刪節版論文。

從未刪減版本中，這個博主也扒出了大量隱藏的細節，如 GPT-4 的內部名稱為 DV-3，實際上也是該論文的隱藏第三作者，后被刪除；這些微軟的研究人員對 GPT-4 的技術細節似乎了解也并不多。此外博主也透露這篇論文發布時刪除了有關毒性內容的部分（防止給 OpenAI 造成負面？）。

我們下面粘貼了該博主的 Twitter 線程，感興趣的可以查看。

Twitter thread：https://twitter.com/DV2559106965076/status/1638769434763608064

回到文章本身。

根據文章所認定的 AGI，是具體的擁有推理、計劃、解決問題、抽象思維、理解復雜思想、快速學習和從經驗中學習的能力。從這些能力出發，論文進行了有趣的實驗和評測。

論文分為 10 個章節：第一章為總括部分；第二章介紹了多模態，主要和視覺生成內容相關；第三章代碼，根據指令生成代碼、理解現有代碼；第四章數學能力；第五章與世界的交互；第六章與人類的交互；第七章判別力；第八章 GPT-4 局限性；第九章社會影響；第十章未來方向及結論。

下面我們通過具體的示例，看看 GPT-4 是不是真的邁進了 AGI 時代。

多模態和跨學科組成

為了測試模型將藝術與編程相結合的能力，該研究要求 GPT-4 用 javascript 寫一段代碼，以生成康定斯基風格的隨機圖像，下圖第一張為 Wassily Kandinsky 創作的，第二張和第三張分別由 GPT-4 和 ChatGPT 生成的：

下面為 GPT-4 代碼實現過程：

進行視覺概念理解：在這個作圖任務中，輸入提示讓模型結合字母 Y、O、H 的形狀來畫一個人。其實在 GPT-4 的訓練過程從沒有關于字母形狀的認識，只能從相關訓練數據中、模糊地學習到字母與一些特定形狀有關，結果顯示 GPT-4 生成的結果還不錯：

用于草圖生成：GPT-4 還能與 Stable Diffusion 進行結合。下圖為 3D 城市建模截圖，輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有 4 個按鈕，顏色分別為綠色、藍色、棕色和紅色。下面是生成結果：

你還能要求 GPT-4 用 ABC 記譜法生成和修改曲調：

編程能力

GPT-4 有非常強大的編程能力，包括根據指令編寫代碼和理解現有代碼。該研究具體測試了 GPT-4 在編程方面的能力。

代碼編寫?

下圖 3.1 是一個讓 GPT-4 寫 python 函數的例子，該研究使用 LeetCode 在線判斷代碼是否正確。

然后，該研究讓 GPT-4 將上表 2 中 LeetCode 上的準確率數據可視化為圖表，結果如下圖 3.2 所示。

前端 / 游戲開發?

如下圖 3.3 所示，該研究讓 GPT-4 用 JavaScript 在 HTML 中編寫 3D 游戲，GPT-4 在零樣本的情況下生成了一個滿足所有要求的游戲。

深度學習編程?

為深度學習編寫代碼需要數學、統計學知識，并熟悉 PyTorch、TensorFlow、Keras 等框架和庫。如下圖 3.4 所示，研究者要求 GPT-4 和 ChatGPT 編寫自定義優化器模塊，該任務對于人類深度學習專家來說也是具有挑戰性的。研究者為 GPT-4 和 ChatGPT 提供了自然語言描述，其中包括一系列重要的操作，例如應用 SVD 等等。