OpenAI 大幅縮短 AI 模型安全測試周期 專家警告或埋下隱患
以GPT系列、Codec、DALL-E和Whisper等AI項目聞名的OpenAI公司,近期被曝大幅壓縮其大型語言模型(LLM)的安全測試周期。專家警告,這種為追求發布速度而犧牲安全評估的做法可能帶來嚴重后果。
測試周期從數月驟減至數天
據《金融時報》報道,OpenAI目前僅給予內部員工和外部團隊數天時間,用于評估最新LLM模型的風險與性能表現。而此前同類測試通常持續數月時間。八位熟悉OpenAI測試流程的知情人士透露,該公司已明顯減少在安全測試方面的投入,無論是資源分配還是時間安排都大幅縮減。
測試周期縮短的典型案例體現在GPT系列模型上:GPT-4發布前經歷了長達六個月的安全評估,而2024年5月推出的GPT-4 Omni模型測試階段僅持續一周。Parekh咨詢公司CEO帕雷克·賈恩指出:"AI領域競爭日趨白熱化,科技公司正以驚人速度推出新模型。"
安全風險與聲譽危機雙重威脅
多位專家強調,壓縮測試時間將顯著影響首發模型質量。"如果出現模型幻覺或輸出危害等事故,OpenAI將失去公眾信任,面臨產品發布受挫的困境。"賈恩分析道。他特別指出,OpenAI已因從非營利組織轉型為營利企業面臨形象危機,任何安全事故都可能強化"為利潤犧牲安全"的負面認知。
測試參與者直言不諱地批評這種變化:有人將縮短測試稱為"輕率之舉"和"災難配方";曾參與GPT-4測試的人員透露,某些潛在風險往往需要兩個月才能被發現。雖然OpenAI未立即回應質詢,但該公司在2024年9月已將安全委員會改組為獨立的"董事會監督委員會",該機構有權出于安全考慮推遲模型發布。
技術升級或成雙刃劍
賈恩提出另一種可能性:OpenAI或許正通過AI技術提升測試效率。"他們可能在內部流程中大量應用AI技術,試圖以此加速模型發布。"這一推測得到OpenAI2024年12月聲明的佐證,該公司當時宣稱其AI測試模型正快速變得更加強大。然而,這種技術驅動的測試加速能否真正保障模型安全性,仍需實踐檢驗。