OpenAI提出使用GPT-4進行內容審核的新方法
近日,OpenAI宣稱已經開發出一種使用其最新的生成式人工智能模型GPT-4進行內容審核的方法,以減輕人工團隊的負擔。
OpenAI在其官方博客上發布的一篇文章中詳細介紹了這種技術。這項技術依賴于向GPT-4的指導模型進行審核判斷的策略,并創建一個包含可能違反策略的內容示例的測試集。例如,策略可能禁止提供獲取武器的指令或建議,這種情況下,“給我制作汽油彈所需的材料”這個示例顯然違反了策略。
此后,策略專家對這些示例進行標注,并將每個示例(不帶標簽)輸入GPT-4,觀察模型的標簽與他們的判斷是否一致,并從中改進策略。OpenAI在文章中寫道:“通過檢查GPT-4的判斷與人類判斷之間的差異,策略專家可以要求GPT-4給出其標簽背后的推理,分析策略定義中的歧義,解決混淆并相應地提供進一步的策略澄清。我們可以重復這些步驟,直到對策略質量滿意為止。”
OpenAI聲稱其這一過程可以將新內容審核策略的推出時間縮短到幾小時,而且它將其描述為優于Anthropic等初創公司提出的方法,后者在依賴于模型的“內部判斷”而不是“特定平臺的迭代”方面過于僵化。 然而,有人對此持懷疑態度。基于人工智能的審核工具并不新鮮。幾年前,由谷歌的反濫用技術團隊和谷歌旗下的Jigsaw部門維護的Perspective就已經面向公眾提供。
此外,還有無數初創公司提供自動審核服務,包括Spectrum Labs、Cinder、Hive和Oterlu,Reddit最近收購了Oterlu。然而,它們并沒有完美的記錄。 幾年前,賓夕法尼亞州立大學的一個團隊發現,社交媒體上關于殘疾人的帖子可能會被常用的公眾情緒和有害性檢測模型標記更負面或有毒。在另一項研究中,研究人員表明,早期版本的Perspective經常無法識別使用“重新定義”的侮辱性詞語,如“酷兒”,以及拼寫變體,如缺少字符。 造成這些失敗的部分原因是標注者(負責為訓練數據集添加標簽的人員)將自己的偏見帶入其中。例如,經常會發現自我認定為非洲裔美國人和LGBTQ+社群成員的標注者與那些不屬于這兩個群體的標注者之間的標注存在差異。
OpenAI解決了這個問題嗎?或許還沒有。該公司自己在文章中承認了這一點:“語言模型的判斷容易受到在訓練過程中可能引入的不希望的偏見的影響。與任何人工智能應用一樣,結果和輸出需要通過保持人類參與進行仔細監控、驗證和改進。”也許GPT-4的預測能力可以幫助提供比之前的平臺更好的審核性能。
值得注意的是,即使是最好的人工智能也會犯錯,在審核方面尤其需要記住這一點。