IT領導者應力求避免的六大生成式AI危害
不同組織對生成式AI技術的應用方式往往各有差異,但造成的負面效果卻頗有共性。
OpenAI最近發布了自定義版本的ChatGPT,允許各家組織更輕松地以靈活方式使用生成式AI——但辯證法告訴我們,不存在只有積極作用的事物。大西洋兩岸已經連續數周舉行兩場AI安全峰會,這也引發人們對于AI潛在危害的擔憂。但無論是科幻小說中殺手機器人的暴力威脅,還是關于AI模型應當受到何種監管指導的具體討論,其實都只能算是老生常談。換言之,這一切并不足以幫助那些想要大規模應用生成式AI工具的組織找到合理的落地路徑。
目前,對生成式AI最大的反對聲音來自作家和藝術家群體,他們對自己的作品在未經許可的情況下被用于訓練大語言模型(LLM)而深感不滿。今年11月初,好萊塢就爆發了長達數月的編劇與演員罷工活動,要求制片廠做出讓步、限制AI工具取代人類編劇和演員的運營方式。但即使是在創意產業之外,其他組織也需要謹慎使用生成式AI。這不只是為了避免令人尷尬的反而效果,更是為了消解潛在的法律訴訟。
不少企業將版權視為值得關注的重要領域(聯邦貿易委員會似乎也有此意),意識到直接使用那種由AI“照搬”自競爭對手的商業計劃很可能惹出麻煩。但這絕不是生成式AI給我們鬧出的唯一爭議。
警惕商業聲譽受損
微軟最近與《衛報》之間的矛盾就堪稱教科書級案例,《衛報》方面表示這家科技巨頭的AI新聞系統自動生成了一項十分冷血的民意調查,邀請讀者猜測一位女性是否會死亡,并將其插入到新聞報道當中,因而給報社造成“嚴重的聲譽損害”。如果要選出近期最需要避免的生成式AI用例,此事顯然將榜上有名。
而且這已經不是Bing的AI新聞服務第一次在敏感報道中添加存在爭議的民意調查。同一款AI工具還生成過其他調查,詢問讀者在案件場景下是否同樣會開槍射殺某位女性、在國家公園發現的人體遺骸身份驗證是否屬實,某處50所房屋因火災而被毀的地區是否應當執行緊急疏散建議,以及是否支持一場本意為被燒傷兒童募捐、卻引發火災并導致兩名兒童死亡的活動。
AI驅動的Bing Chat所發布的廣告甚至包含惡意軟件鏈接。這款微軟推出的AI工具建議前往渥太華的游客前往“食品銀行”(即接濟當地窮人、發放食品的慈善組織)吃飯,高亮顯示來自無名小站關于拜登總統等政客的假新聞,甚至嚴重混淆新聞故事中的具體情節。例如,它暗示某位女演員襲擊了一位體育教練,但實際情況是該教練被指控虐待了一匹馬。
與ChatGPT等生成式AI模型種種匪夷所思的神奇操作相比,律師和醫療專業人員在大多數情況下至少還有機會認真檢查一下生成結果。而粗暴插入至《衛報》報道的民意調查似乎完全是由自動化系統在微軟資產之上直接發布,不僅直接面向數百萬讀者、而且未經任何人工核準。
微軟稱此次民意調查純屬意外失誤,并承諾開展調查。但從行動上看,微軟明顯違反了該公司自己提出的負責任AI使用原則,例如應告知人們正在與AI系統交互、以及嚴格遵循人機交互方針等。微軟曾向Azure OpenAI客戶反復強調不要制作“任何主題性內容”或者“在最新、要求信息嚴謹準確”(當然也包括新聞網站)等場合下使用AI,但他們自己根本就沒做到。
注意AI的過度使用
總的來講,Azure OpenAI的明確提示已經證明,該服務有可能生成不當、或者令人反感的內容,乃至不相關、虛假或歪曲事件原貌的觀點。微軟列出了幾種需要注意避免的情況——包括政治活動和高度敏感的事件,特別是過度使用/濫用時可能影響生存機會/法律立場的各類謹慎情形,例如醫療保健、教育、金融及法律領域的高風險領域。但這些僅限于特定領域的問題往往內容有限、相應的答案也比較短小簡單,不太可能覆蓋那些開放式、無限的提問形式。
微軟拒絕透露任何他們認為不適合應用生成式AI技術的領域,而是提供了一系列他們認為客戶正在取得成功的領域,包括創建內容、總結或改進語言表達、代碼生成以及語義搜索。但該公司發言人坦言:“我們正生活在一個AI愈發強大的世界,它能做到一些令人驚奇的事情。然而,最重要的是意識到這項技術需要發展過程,必須給予它充分的成長和發展空間。明確這一點非常重要。”
但并不是所有生成式AI的客戶都清楚這一點。由生成式AI輸出的、內容莫名其妙且文筆荒誕詭異的內容已經出現在商業環境當中。如果是會議紀要、博客文章或者內部場合的演示文稿還好,但對于正式商業文書明顯還遠遠不足。越來越多的專業作家和安全教育工作者開始直接使用此類內容,甚至還配上了AI生成的圖像——從那數量不一的手指頭就能看出端倪。這種愚蠢的胡言亂語未來可能變得更加普遍、令人不安,而企業必須對由此產生的聲譽威脅保持警惕。
另外,哪怕是不那么敏感的內容也有可能引發問題。民意調查和小測驗能讓漫長的會議和團隊溝通變得不那么平淡,而生成式AI正是根據對話內容創建這些素材的高效選項。但如果有人在其中提到親友患病或者寵物離世之類的具體信息,AI就可能搞出極為尷尬的鬧劇。
行業情報平臺GlobalData顛覆性技術項目副經理Saurabh Daga就強調,“生成式AI往往不具備同理心、道德判斷或者對人類之間細微差別的理解,因此在這類環境中表現很差。”他列出的敏感領域也與微軟的指導方針較為相似:“高風險決策,特別是那些一旦出錯可能產生重大法律、財務或健康相關后果的場合,最好不要使用AI。”
另外,在使用多模態模型處理各種事務之前,首先要對這種雜糅了文本與圖像的生成AI工具保持謹慎,因為錯誤的標題很可能將本來很好的內容轉化成令人反感的圖片。另外,圖像生成模型很容量假定所有護士都是女性,而所有企業高管都是男性。
戴爾科技集團AI戰略高級副總裁Matt Baker警告稱,“生成式AI尤其會放大那些以往存在,但卻沒有得到認真解決的問題。以流程管理為例,算法偏見很可能對人力資源和招聘工作產生影響。組織需要坦誠審視自己的數據衛生、優先級排序和敏感性問題,確保讓生成式AI工具產生最大回報、并將風險控制在最低水平。”
別以為AI永遠是對的
盡管生成式AI工具擁有令人印象深刻的表現,但其本質仍然是一種概率論。也就是說它們經常會犯錯,而危險就在于它們給出的結果可能不準確、不公平或者令人反感,但又因為其措辭過于自信且有說服力,而導致錯誤常常被人們忽視。
問題的關鍵,就是別指望能得到可以拿來即用的結果,并意識到生成式AI并不可靠。最好是將其視為激發新思路的靈感來源,而非已經成熟的完美結論。
正因為如此,微軟在其大多數生成式AI工具中采用的是Copilot、而非Autopilot。微軟CEO Satya Nadella在今年夏季的Inspire大會上表示,“必須讓人類參與其中,以人機協作的方式進行設計——即人類始終對強大的AI輔助工具保持掌控,再由AI幫助人類完成各項任務。”作為生成式AI的應用關鍵,我們必須學會使用提示詞以獲得更好的成果。目前Copilot Lab等工具已經在幫助員工培養這方面技能。
同樣的,不要直接使用自動化流程,而是要親自為生成式AI工具建立工作流程,鼓勵員工實驗并評估由AI生成的內容。請注意,一定要關注AI給出的建議具體基于哪些信息、嚴格審查結果并檢查它所引用的信息來源,而不能簡單接受給出的優先選項。拿來就用不僅沒法節約時間,反而可能因錯誤和偏見惹出更大的麻煩。
用戶還應充分理解自己從生成式AI處獲得的建議和決策,了解相應的潛在皇親并向他人證明其合理性。英國信息專員辦公室警告稱,“如果你的組織不對AI輔助決策做出解釋,那就可能面臨聲譽受損、公眾批評甚至是監管機構的介入。”
比較可靠的處理方式,就是每次都要求AI提供多種備選方案,并對建議內容做出具體解釋。此外,還應使用準確全面的提示詞來指導大語言模型當前響應的推理過程和判斷理由。除了讓生成式AI引用關鍵信息來源之外,還應考慮如何突出顯示需要認真核查的重要元素,例如日期、統計數據、政策和所依賴的行使等。
歸根結底,上述手段是為了建立一種新的工作文化。在這種文化中,生成式AI被視為一種有待驗證的實用工具,而非人類創造力和判斷力的直接替代方案。
Daga指出,“生成式AI或者任何其他形式的AI技術,都應被用于增強人類決策,而非在現有局限性之下、特別是可能造成傷害的場合中取代人類。人類審查員則應接受訓練,學會如何批判性地評估AI模型的輸出,而不僅僅是接受它那看似言之鑿鑿的結論。”
除了在流程當中引入人工審查、鼓勵對AI建議進行實驗和全面評估之外,我們還需要設置護欄,阻止在不適用的場景下對任務進行全面自動化。Daga補充道,“例如,AI可能會為企業生成新聞發言稿,但只有人類編輯才能核準并發出能夠與記者和出版社共享的最終文稿。”
生成式AI當然也有助于提高開發人員的工作效率,包括建立新的代碼庫、填充樣板代碼、自動補全函數和生成單元測試。我們應當運用這種額外的生產力,但也要確保這部分代碼不會在未經人工審核的情況下流入生產環境。
來自科羅拉多州的咨詢公司Sageable全球首席技術官兼創始人Andi Mann表示,企業應對其選擇的后果負責,特別是因不當部署AI所引發的負面影響。“客戶可不會聽什么「這全是AI的錯」那一套,所有數據泄露責任都會被歸咎在人的身上。”
別把AI隱藏起來
為了以負責任的方式使用AI系統,無論對于內部員工還是外部客戶,良好的透明度都是其中一項重要前提。但令人尷尬的是,已經有大量出版物開始使用AI生成的內容,而其糟糕的質量往往容易被讀者一眼識破。即使是高質量的內容,我們也應該明確標記哪些是由AI系統生成的,包括內部會議摘要、營銷信息或者聊天機器人響應等。請務必為聊天機器人等自動化系統設置“出口匝道”,允許用戶隨時轉接人工進行處理。
在Daga看來,“客戶應該有拒絕與生成式AI互動的權利,特別是拒絕與其討論敏感內容。”
AI沒有能力解決所有問題
隨著舔式AI在商業場景中的廣泛應用,我們必須對AI建議做出更加積極、主動且嚴格的判斷。在去年的《DevOps自動化現狀報告》中,80%的IT從業者已經意識到這個問題;而在2023年的《DevOps自動化與AI現狀研究》當中,這一比例已經超過了90%。
Mann表示這種謹慎有其道理,特別是在特定領域的訓練數據較為有限的情況下,更需要保證輸出結果的可預測性、合理性和可驗證性。以IT運營為例,一旦訓練數據不足,AI模型極易產出不準確的結果。
他警告稱,“對于各種需要應對新問題、邏輯鏈尚不清晰以及相關知識缺失/存量有限的用例,生成式AI的意義都非常有限。如果潛在輸入純粹是未廣泛公開的小圈子知識,那么根本無法訓練出穩定可靠的大語言模型。”
但他也認可將生成式AI作為助手的意義。“它可以成為顧問或者積極探索的專家,通過向訓練引擎提供跨學科定義和知識庫來理解「已知良好」的IT運營情況,再據此識別已知問題、診斷已知原因、識別已知的效率低下環節并通過已知補救措施進行響應。”不過千萬不可松懈,哪怕是看似能夠用熟悉流程和方案加以解決的新興IT問題,我們也很難預先判斷其中到底存在哪些例外情況。
Mann總結道,“我們都知道,在試圖讓AI解決「未知下的未知」問題時,它們幾乎永遠不愿承認自己無力處理,反而更傾向于拋出誤導性、虛假、錯誤甚至是惡意的結果。”
有時反而會增加人類的工作負擔
雖然生成式AI輸出的內容往往有所助益,但由于部署門檻太低,有時候盲目使用也會加大審查負擔、反而給從業者帶來更多不必要的工作量。
不少休閑雜志就報告稱,他們收到了大量由AI撰寫的低質量故事,其效果甚至達到了拒絕服務攻擊的程度。出版商一直在嘗試使用AI來做修訂和潤色,但作家和編輯紛紛表示AI建議的修改方式往往無益、無效,甚至在處理技術術語、特定文風、復雜的句子結構和精確用詞時完全錯誤。但對于初學者來說,這些情況其實很少遇到。所以請注意實事求是,以坦誠的態度看待生成式AI到底能夠在哪些領域做出積極貢獻。
采用AI工具的一大關鍵前提,就是先要建立起錯誤處理流程,而不是每次發現了錯誤再做個別調整。千萬別假設生成式AI能從錯誤中吸取教訓,也別以為相同的提示詞總能指出同樣的結果。對于重要內容,一定要使用提示詞工程和過濾器對相關結果做出約束和限定。
此外,還要為計劃之外的領域和流程做好迎接生成式AI技術的準備。新技術在這些領域和流程中的表現可能不佳,但良好的透明度往往有助于解決問題。員工需要了解企業何時允許使用生成式AI,具體如何披露可接受的使用政策。再有,我們還應當將生成式AI納入審計和電子取證環節,具體形式依照企業聊天系統。
組織可能需要抓緊時間、盡快著手制定這些政策。TECHnaanalysis Research在今年春季曾對1000家美國企業進行過調查,其中88%的受訪者表示已經在使用生成式AI,但只有7%的早期采用者為其制定了正式管理政策。
在IDC最近發表的一項關于AI技術機遇的研究中超過四分之一的企業領導者表示,缺乏AI治理與風險管理制度是限制該技術實施/擴展的一大挑戰。除了擔心企業數據泄露之外,商業聲譽受損也是另一個需要優先考慮的問題。此外,超過半數受訪者表示找不到熟練的技術人員也是一大障礙,這主要是指開發人員和數據工程師。再有,不具備理工技術背景的業務部門員工也需要接受培訓,學習如何向AI工具準確提問,而后評估并驗證其給出的結果。