OpenAI向1億ChatGPT用戶,公開10種安全措施
OpenAI為了保證全球超過1億的ChatGPT和數百萬開發人員,能以安全、穩定的方式使用其產品,更新了安全策略和保護措施。
以下是OpenAI最近更新的10種安全策略,并且會在首爾AI安全峰會上與更多的科學家、政務部門分享。
模型測試與發布前評估:在發布前,OpenAI會準備框架和自愿承諾,對模型安全性進行內部和外部的實證評估。如果新模型的風險等級達到準備框架中的“中等”風險閾值,將不會發布該模型,直到實施足夠的安全干預措施,將風險等級降低回“中等”。
例如,在發布GPT-4o時,超過70位外部專家幫助OpenAI通過外部紅隊努力評估相關的風險。這種評估不僅包括公司內部的審核,還包括外部專家的參與,以獲得更全面的風險評估。
對齊和安全研究:OpenAI的模型隨著時間的推移變得更加安全。這可以歸因于構建更智能的模型,這些模型通常犯的事實錯誤更少,即使在越獄等對抗條件下也不太可能產生有害內容。未來,OpenAI的模型將被訓練遵循的指令,旨在大幅提高AI模型對越獄等攻擊的魯棒性。
監控濫用:隨著通過API和ChatGPT部署越來越強大的語言模型,利用了包括專用內容審核模型和使用自己的模型監控安全風險和濫用在內的廣泛工具。
OpenAI已經分享了一些關鍵發現,包括與微軟聯合披露的濫用技術案例,以便其他人能更好地防范類似風險。還使用GPT-4進行內容政策開發和內容審核決策,實現政策細化的快速反饋循環,減少人類審核員暴露于濫用材料。
模型安全方法:在模型生命周期的每個階段實施一系列安全措施,從預訓練到部署。隨著在開發更安全、更一致的模型行為方面取得進展,也投資于預訓練數據安全、系統級模型行為引導、數據飛輪為持續安全改進和強大的監控基礎設施。
保護兒童:OpenAI在ChatGPT和DALL·E中構建了強大的默認防護措施和安全措施,以減輕對兒童的潛在傷害。2023年,還與Thorn的Safer合作,檢測、審查并向國家失蹤和受剝削兒童中心報告兒童性虐待材料。
公平誠信:OpenAI與政府和利益相關者合作,防止濫用確保AI生成內容的透明度,并提高獲取準確投票信息的途徑。為此,還引入了一個工具,用于識別DALL·E 3創建的圖像,加入了內容真實性倡議(C2PA)的指導委員會,并在DALL·E 3中加入了C2PA元數據,幫助人們了解在網上找到的媒體的來源。
影響評估和政策分析:OpenAI的影響評估工作在研究、行業規范和政策方面具有廣泛影響力,包括早期關于測量AI系統與化學、生物、放射性和核(CBRN)風險相關的工作,以及研究估計不同職業和行業可能受語言模型影響的程度。還發表開創性的工作,探討社會如何最好地管理相關風險。
安全和訪問控制措施:優先保護OpenAI的客戶、知識產權和數據。通過API將AI模型部署到世界各地,再通過API控制訪問實現政策執行。OpenAI的網絡安全工作包括限制對訓練環境和高價值算法秘密的訪問,基于需要知道的原則,進行內部和外部滲透測試,漏洞賞金計劃等。
OpenAI認為,保護先進的AI系統將從基礎設施安全的演變中受益,并正在探索像GPU的保密計算和AI在網絡防御中的應用等新穎控制措施。為了加強網絡防御,通過網絡安全資助計劃資助第三方安全研究人員。
與政府合作:OpenAI與世界各地的政府合作,為有效和適應性強的AI安全政策的發展提供信息。這包括展示工作和分享OpenAI的學習成果,合作試點政府和其他第三方保證,以及為新的標準和法律的公共辯論提供信息。
安全決策和董事會監督:作為OpenAI準備框架的一部分,建立一個安全決策的操作結構。OpenAI的跨職能安全咨詢小組在部署前審查模型能力報告并提出建議。公司領導層會做出最終決定,董事會對這些決定行使監督權。
本文轉自AIGC開放社區 ,作者:AIGC開放社區
