論語言模型對倫理和社會造成危害的風險
譯文本文概述了六個具體的風險領域:I. 歧視、排斥和毒害,II. 信息危害,III. 錯誤信息的危害,IV. 惡意使用,V. 人機交互危害,以及VI. 自動化、訪問和環境危害。
第一個風險領域討論了大規模語言模型中的公平性和毒害風險。包括四種不同的風險: LM可以通過使成見和社會偏見永久化,造成不公平的歧視以及代表性的重大傷害,即特定特征與社會身份的有害關聯。社會規范和類別可以排除或邊緣化圈子以外的那些人。LM使此類規范永久化,比如名叫“Max”的人是“男性”,或者“家庭”總是由父親、母親和孩子組成的——這種狹隘的類別使用可能會否認不同的身份。毒害語言會煽動仇恨或暴力,或者引起冒犯。最后,對某些社會群體而言比其他群體表現較差的LM會對弱勢群體造成傷害,比如說這類模型支持影響這些群體的技術。這種風險在很大程度上源于選擇含有有害語言、并過度代表某些社會身份的訓練語料庫。
第二個風險領域包括來自私密數據泄露或來自LM正確推斷私密或其他敏感信息的風險。這些風險源于訓練語料庫中的私密數據以及LM的高級推理能力。
第三個風險領域包括與LM提供虛假或誤導性信息相關的風險,包括這個風險:創建消息不太靈通的用戶,以及削弱對共享信息的信任。錯誤信息可能會在敏感領域造成危害,比如糟糕的法律或醫療建議。不良或虛假信息還可能導致用戶執行他們本來不會執行的不道德或非法行為。錯誤信息風險部分源于LM學習表示語言所采用的過程:底層的統計方法不能很好地區分事實正確的信息和事實不正確的信息。
第四個風險領域涵蓋嘗試使用LM造成危害的用戶或產品開發人員造成的風險。這包括使用LM來提高虛假信息宣傳活動的效果、大規模策劃個性化騙局或欺詐,或者為病毒或武器系統開發計算機代碼。
第五個風險領域側重于直接與人類用戶交互的“對話代理”的特定應用場景帶來的風險。這包括源于將系統呈現為“類似人”的風險,可能導致用戶高估了其功能,以不安全的方式使用它。另一個風險是,與此類代理的對話有可能帶來新的途徑,以操縱或提取用戶的私密信息。基于LM的對話代理可能會帶來語音助手已經知道的風險,比如通過自我展示使成見永久化,比如“助理是女的”。這些風險部分源于這類對話代理背后的LM訓練目標以及產品設計決策。第六個風險領域包括更廣泛地適用于LM和人工智能(AI)系統的風險。訓練和操作LM會產生高昂的環境成本。基于LM的應用程序可能使一些群體比其他群體獲得更大的好處,而LM本身對許多人來說是不可訪問的。最后,基于LM的自動化可能影響某些工作的質量,并破壞創意經濟的一些部分。由于LM在經濟中廣泛使用,來自LM的效益和風險在全球分布不均,這些風險就體現得尤為明顯。
我們共介紹了21個風險,然后討論了不同風險的來源,并指出潛在的風險緩解方法。危害的來源可能指明了適當的緩解措施:比如說,泄露私密數據的風險源于該數據存在于訓練數據集中。通過更好地編輯或整理訓練數據,可以從源頭緩解這個風險。然而,其他緩解方法也可能適用,并確保總體上緩解更有效。比如說,訓練過程中使用的算法工具(比如差分隱私方法)或產品決策(比如限制LM的訪問和應用場景),就是可以雙管齊下的另外的緩解方法。風險緩解方法多種多樣:從社會或公共政策干預、技術解決方案和研究管理、參與式項目,到產品設計決策,不一而足。最后,我們討論了實施此類緩解措施方面的組織責任以及協作扮演的角色。有效地衡量和減輕倫理和社會風險需要的廣泛專業知識以及受影響社區的公平參與。這點至關重要:在廣泛了解風險情況的前提下實施緩解措施,以確保緩解一種危害風險不會加劇另一種危害風險。否則,針對毒害言論的緩解方法可能會無意中導致針對一些社會群體的LM性能降低。
我們強調了進一步研究的方向,特別是擴展用于評估LM中概述的風險的工具包,并強調了需要包容性的參與方法。最后,我們表明了當前的工作即闡述風險情況為何是向更廣泛的負責任創新框架邁出的第一步。
原文標題:Ethical and social risks of harm from Language Models