黑客入侵OpenAI，細節一年后才公開，三類數據資源讓AI公司成為活靶子原創

發布于 2024-7-11 14:29

瀏覽

0收藏

作者 | Devin Coldewey

編譯 | 伊風

前OpenAI員工Leopold Aschenbrenner，最近在一檔播客中暗示OpenAI曾被黑客成功入侵。隨后，《紐約時報》對這次攻擊進行了更詳細的報道。

2023 年初，一名黑客成功入侵了 OpenAI 的內部通信系統，并進入了內部員工的在線社區，平臺中包含公司最新人工智能技術的討論。

2023 年 4 月，OpenAI 的高管向員工和董事會披露了這一事件，但由于沒有客戶或合作伙伴的相關數據被泄露，OpenAI決定不將其公之于眾。領導層認為，黑客是一個獨立的實體，與任何外國政府都沒有關聯，因此他們沒有讓執法部門介入。這也引發了人們對OpenAI透明度的質疑。

雖然，OpenAI強調在這起入侵事件中，沒有泄露任何用戶的對話或個人信息。然而，這次黑客攻擊本身給人帶來的不安還只是表面性的——更重要的提示是，AI公司已經迅速成為黑客們最有吸引力的目標之一。

任何安全漏洞都不應被輕視，尤其是竊聽內部OpenAI開發討論確實有巨大的價值。但這遠非黑客的全部目標：獲取內部系統、研發中的模型、秘密路線圖等等。

事實上，這些AI公司已經成為龐大數據的守門人。

OpenAI和其他AI公司創建了海量的數據，最值得被黑客“惦記”的莫過于：高質量的訓練數據、大量用戶互動及客戶數據。

1.高質量的訓練數據

目前尚不清楚它們擁有哪些訓練數據，因為這些公司對它們的數據庫進行了嚴格保密。

但認為它們只是大量收集的網絡數據是錯誤的。AI公司確實使用網絡爬蟲或像Pile這樣的數據集，不過要將這些原始數據塑造成能夠訓練像GPT-4o這樣的模型所需的數據，需要大量的人工工作——這只能部分自動化。

一些機器學習工程師推測，在創建大型語言模型（或任何基于Transformer的系統）時，最重要的因素之一是數據集的質量。這就是為什么在Twitter和Reddit上訓練的模型永遠不會像在上個世紀的所有出版作品上訓練的模型那樣雄辯。（也可能是OpenAI據稱使用了在法律上有爭議的數據來源，如版權書籍，他們聲稱已放棄這種做法。）

因此，OpenAI構建的訓練數據集對競爭對手來說具有巨大的價值，無論是其他公司、對手國家還是美國的監管機構。

2.用戶互動數據

更有價值的也許是OpenAI擁有的大量用戶數據 —— 大約數十億與ChatGPT進行的對話，涉及數十萬個主題。

就像搜索數據曾經是理解網絡集體心理的關鍵一樣，ChatGPT現在觸及的人群也許沒有谷歌用戶那么廣泛，但提供了更多的深度。（如果你不知道，除非你選擇退出，否則你的對話正在用作訓練數據。）

黑客入侵OpenAI，細節一年后才公開，三類數據資源讓AI公司成為活靶子-AI.x社區圖片

開啟“為所有用戶改進模型”時，對話會進入訓練數據庫

例如，Google上搜索“空調”的頻率增加，則說明該市場正在升溫。但這些用戶接下來不會告訴谷歌：他們想要什么、愿意花多少錢、他們的家是什么樣子、他們想避免的制造商等等。

但你知道這是非常有價值的信息——谷歌正試圖通過用AI交互替代搜索來獲取這些信息！

想想人們與ChatGPT的對話有多少，以及這些信息對開發AI的人員、市場團隊、顧問、分析師來說有多有用，這是一座金礦。

3.客戶數據

最后一類數據可能是開放市場上價值最高的：客戶實際如何使用AI，以及他們自己向模型輸入的數據。

數百家大公司和無數小公司使用像OpenAI和Anthropic的API這樣的工具，執行同樣廣泛的任務。為了使語言模型對他們有用，通常需要在它們自己的內部數據庫上進行微調或以其他方式提供訪問權限。

這可能是一些乏味的舊預算表或人事記錄（例如，使它們更易搜索），也可能是未發布的軟件代碼。他們如何利用AI的能力（以及它們是否真的有用）是他們的事，但事實是，AI提供商有特權訪問，就像其他任何SaaS產品一樣。

這些都是工業機密，而AI公司突然間就處在這些機密的核心位置。這個行業的新奇性帶來了特殊的風險，因為AI流程尚未標準化或完全理解。

像任何SaaS提供商一樣，AI公司完全有能力提供行業標準的安全性、隱私性、本地選項，并且通常會負責任地提供服務。我毫不懷疑OpenAI的財富500強客戶的私密數據庫和API調用是嚴密鎖定的！他們肯定對在AI環境下處理機密數據的風險非常了解。（OpenAI沒有報告此次攻擊是他們的選擇，但這并未增加一個急需信任的公司的信任。）

但良好的安全措施并不會改變它們所保護的東西的價值，也不會改變惡意行為者和各種對手正在試圖闖入的事實。

安全不僅僅是選擇正確的設置或保持軟件更新——盡管基礎的舉措也很重要。