OpenAI DALL-E 3 模型存生成“不當內容”漏洞,一微軟員工上報后反遭“封口令”
2 月 2 日消息,微軟軟件工程部門經理 Shane Jones 日前發現 OpenAI 旗下 DALL-E 3 模型存在漏洞,據稱能夠生成一系列 NSFW 不當內容,在上報相關漏洞后,Shane Jones 卻被下達“封口令”,不過該員工最終還是選擇向外界披露相關漏洞。
▲ 圖源 Shane Jones 對外披露的報告
IT之家注意到,Shane Jones 在去年 12 月通過獨立研究發現 OpenAI 文字生成圖片的 DALL-E 3 模型存在一項漏洞,能繞過 AI 護欄(AI Guardrail)生成一系列 NSFW 不當內容。
之后 Shane Jones 將漏洞曝光上報微軟及 OpenAI,并在領英上發布公開信,聲稱相關漏洞會對大眾造成安全風險,呼吁 OpenAI 在解決漏洞前應暫時下架 DALL-E 3 模型。
隨后 Shane Jones 被微軟法務部及高管找上門,并警告他立即刪除領英公開信并停止對外披露任何內容,但卻并未給予任何解釋說明,此后 Shane Jones 屢次尋求公司內部溝通,但均未得到公司回應,而漏洞也未修復,之后 Shane Jones 便向媒體及有關部門披露了相關漏洞。
Shane Jones 提到,近日網絡上出現 AI 生成的知名歌手 Taylor Swift(泰勒?斯威夫特)不雅照便與該漏洞有一定關聯,這些不雅照據稱是使用微軟 Designer AI 功能生成,而 Designer 底層模型正是 DALL-E 3,因此微軟在本次事件中下達“封口令”存在重大過失。
此后微軟官方回應 Engadget 等媒體,聲稱將解決相關員工的疑慮,并修復相關漏洞,不過微軟同時聲稱 Shane Jones 披露的漏洞實際上成功率較低,“無法繞過微軟為模型設置的所有安全機制”、“目前還不清楚該漏洞與 Taylor Swift 不雅照事件是否有關聯性”。