GPT-4技術細節保密惹爭議,OpenAI首席科學家回應了
昨天凌晨,OpenAI 出人意料地發布了 GPT-4。
這次發布令科技界頗感意外,畢竟人們普遍認為 GPT-4 會在微軟周四的「The Future of Work with AI」活動上宣布。
距離 ChatGPT 首次亮相才不過四個月,它便創造了「歷史上增長最快的消費者應用程序」記錄。如今 GPT-4 上線,這款產品的應對能力又上了一層樓。
震撼之余,很多研究者認真閱讀了 GPT-4 的技術報告,卻感到了失望:怎么沒有技術細節呢?
一次違背創始精神的發布
在公告中,OpenAI 分享了大量 GPT-4 基準和測試結果以及一些有趣的演示,但幾乎沒有提供有關用于訓練系統的數據、算力成本或用于創建 GPT-4 的硬件或方法等信息。
比如,一種省流讀 GPT-4 論文的結論是:「我們用的 Python。」
更有人打趣道:「我讀到了 GPT-4 是基于 Transformer 架構的。」
許多 AI 領域的成員批評了這一決定,指出它破壞了 OpenAI 作為研究型組織的創始精神,并使其他人更難復現其工作。
對 GPT-4 封閉模型的大多數初始反應都是負面的,但似乎憤怒已經不能改變其「閉源」的決定:
其實對于 OpenAI 不開源的批判已持續了一段時間。連 OpenAI 的創始團隊成員馬斯克都公開質疑過其「背離初心」:
就這件事,讓馬斯克至今仍感到困惑:「我不懂,當初投了近 1 億美元的非營利機構怎么就變成了市值 300 億的商業公司呢?」
Nomic AI 信息設計副總裁 Ben Schmidt 說道:「我認為可以停止稱其『Open』了 —— 介紹 GPT-4 的 98 頁論文自豪地宣稱他們沒有披露關于訓練集內容的任何信息。」
還有一些人認為, OpenAI 隱藏 GPT-4 細節的另一個原因是法律責任。AI 語言模型是在巨大的文本數據集上訓練的,許多模型(包括早期的 GPT 系統)都會從網絡上抓取信息,其中一個來源可能包括受版權保護的素材。目前已有幾家公司正被獨立藝術家和圖片網站 Getty Images 起訴。
一些人表示,更重要的是,這會使針對 GPT-4 構成的威脅制定保障措施變得更困難。Ben Schmidt 也認為,由于無法看到 GPT-4 訓練的數據,很難知道該系統可以在哪里安全使用并提出修復方案。
「眾所周知,像 GPT-4 這樣的神經網絡是黑盒子。事實上,它們的操作是不可預測和難以理解的,這是關于是否應該使用它們、在何處使用它們的最重要問題之一。現在 OpenAI 正逐步制定一個標準,進一步擴展了這個謎團。」Ben Schmidt 表示。
OpenAI 首席科學家:開源 GPT-4 是不明智的
OpenAI 的首席科學家兼聯合創始人 Ilya Sutskever 對上述爭議進行了回應,表示 OpenAI 不分享更多 GPT-4 細節信息的原因是「害怕競爭和擔心安全」:
「從競爭格局上看,外界的競爭很激烈。GPT-4 的開發并不容易,幾乎集聚了所有的 OpenAI 力量,經過很長時間的努力才產出了這個東西,而且有很多公司都想做同樣的事情。」
「安全方面的原因不像競爭方面那樣突出,但它也會發生變化。這些模型是非常高效的,而且它們變得越來越高效。某些時候,如果有人愿意,用這些模型造成巨大的傷害將會相當容易。隨著這些能力越來越高,不公開它們是有道理的。」
當被問及「為什么 OpenAI 改變了分享研究成果的方式」,Sutskever 回答說:「坦率地說,我們錯了。如果你像我們一樣相信,在某個時候,AI 或 AGI 將變得極其強大、令人難以置信,那么開源就沒有意義。這是一個壞主意,我完全相信在幾年內,每個人都會清楚地認識到開源 AI 是不明智的。」
Lightning AI 首席執行官、開源工具 PyTorch Lightning 的創建者 William Falcon 對 VentureBeat 表示,自己能從商業角度理解這個決定:「作為一家公司,你完全有權這樣做。」
但他也表示,OpenAI 此舉為更廣泛的社區樹立了一個「壞的模板」,可能會產生有害影響。
關于 OpenAI 不共享其訓練數據的原因,Sutskever 的解釋是:「我對此的看法是,訓練數據是技術。我們不公開訓練數據的原因與我們不公開參數數量的原因幾乎相同。」當被問及 OpenAI 是否可以明確聲明其訓練數據不包含仿版材料時,Sutskever 沒有回答。
Sutskever 同意 OpenAI 批評者的觀點,即開源模型有助于保障措施的開發。「如果有更多人研究這些模型,我們就會了解更多,那就更好了,」他說。出于這些原因,OpenAI 向某些學術和研究機構提供了訪問其系統的權限。
接下來,我們期待什么?
由 GPT-4 引發的熱議預計還會持續一陣,以至于人們可能會忽略一些其他動態。
比如,在昨日鋪天蓋地的討論中,谷歌的發布就顯得靜悄悄。目前,Google Workspace 中已經全面集成了生成式 AI,更新了生成圖片、演示文稿、電子郵件、文檔等功能。可以想象的是,這將是一次生產力的大提升。
接下來,人們可以期待的還有很多:不久之后,微軟 CEO 薩蒂亞?納德拉將親自登臺演講,介紹微軟和 OpenAI 的更多合作,比如基于 GPT-4 的 Office 套件。
消息來源:https://www.theinformation.com/articles/microsoft-rations-access-to-ai-hardware-for-internal-teams
讓我們拭目以待。