GenAI與數據保護:對雇主來說最大的風險是什么?
如果你是雇主,打算試驗像ChatGPT這樣的GenAI工具,有一些數據保護陷阱需要引起注意。近年來,美國、歐洲和全球范圍內的隱私和數據保護立法不斷增加,你不能簡單地將人力資源數據輸入GenAI工具。畢竟,員工數據通常是高度敏感的,包括績效數據、財務信息,以及健康數據。
顯然,雇主在這一領域應尋求適當的法律指導,同樣,咨詢AI專家關于使用GenAI的倫理問題也是個好主意(這樣你不僅在法律范圍內行動,還能做到道德和透明),但作為起點,這里有兩個主要考慮因素需要雇主了解。
將個人數據輸入GenAI系統
正如我所說,員工數據通常是高度敏感和個人化的,這種數據,取決于你的司法管轄區,通常受最高形式的法律保護。
這意味著將這些數據輸入GenAI工具是極其危險的,為什么?因為許多GenAI工具會使用提供給它們的信息來微調其底層語言模型,換句話說,它可能會將你提供的信息用于培訓目的,并且可能會在未來向其他用戶披露這些信息。例如,假設你使用GenAI工具根據內部員工數據創建一份員工薪酬報告,該數據可能會被AI工具用來在未來向其他用戶(在你組織之外)生成響應,個人數據可能會很容易地被GenAI工具吸收并重復使用。
這并不像聽起來那么陰險,深入研究許多GenAI工具的條款和條件,你會發現它們明確聲明提交給AI的數據可能會用于培訓和微調,或者在用戶要求查看以前提交的問題示例時披露,因此,首先要做的是始終了解在同意使用條款時你到底簽署了什么。
作為基本保護,我建議提交給GenAI服務的任何數據都應該是匿名化的,去除了任何可識別個人身份的數據,這也被稱為“去識別”數據。
與GenAI輸出相關的風險
這不僅僅是關于你輸入到GenAI系統中的數據,GenAI輸出或創建的內容也存在風險,特別是,GenAI工具的輸出可能基于在違反數據保護法律的情況下收集和處理的個人數據。
例如,假設你要求GenAI工具生成一份關于你所在地區典型IT薪資的報告,存在工具可能從互聯網抓取個人數據——未經同意,違反數據保護法律——然后將這些信息提供給你的風險。使用GenAI工具提供的任何個人數據的雇主可能會在數據保護違規中承擔一定責任。現在,這在法律上是一個灰色地帶,并且最有可能的是,GenAI提供商會承擔大部分或全部責任,但風險依然存在。
通過了解這些風險,雇主可以更好地準備在利用GenAI工具時采取適當的保護措施和策略,以確保數據隱私和保護的合規性。
這樣的案例已經開始出現。確實,有一起訴訟聲稱,ChatGPT是在未經同意的情況下,通過收集大量的個人數據(包括醫療記錄和兒童信息)進行訓練的。你不希望你的企業無意中卷入這樣的訴訟中。基本上,我們談論的是違反數據保護法律的“繼承”風險,但這仍然是一種風險。
在某些情況下,互聯網上公開可用的數據不算作個人數據的收集,因為這些數據已經存在,然而,這在不同的司法管轄區有所不同,因此請注意你所在司法管轄區的細微差別。此外,對你考慮使用的任何GenAI工具進行盡職調查。查看它們如何收集數據,并盡可能協商服務協議,以減少你的繼承風險。例如,你的協議可以包括保證GenAI提供商在收集和處理個人數據時遵守數據保護法律的條款。
前進的道路
雇主必須考慮使用GenAI時的數據保護和隱私影響,并尋求專家建議,但不要因此完全放棄使用GenAI。仔細使用并在法律范圍內,GenAI對雇主來說可以是一個非常有價值的工具。
還值得注意的是,新的工具正在開發中,它們考慮到了數據隱私。一個例子是哈佛開發的AI沙箱工具,該工具使用戶能夠利用某些大型語言模型(包括GPT-4),而不泄露他們的數據。用戶輸入的提示和數據僅對個人可見,不能用于訓練模型。此外,一些企業正在創建自己的專有版本的工具,如ChatGPT,這些工具不會將數據分享給企業外部。