無需等待未來,分析和人工智能災難已然出現!
從數據和機器學習算法中獲得的見解可能是無價的,但錯誤可能會導致損失聲譽、收入甚至付出生命的代價。
2017年,《經濟學人》(The Economist)宣布,數據已取代石油,成為“世界上最有價值的資源”。自此之后,各行各業的組織便開始加緊步伐在數據和分析方面進行大量投資。但就像石油一樣,數據和分析也有其陰暗面。
據《2023年CIO狀況報告》指出,34%的IT領導者表示,數據和業務分析將在今年推動其組織的大部分IT投資。26%的IT領導者表示,機器學習/人工智能將推動大部分IT投資。從機器學習算法驅動的分析和行動中獲得的洞察力可以為組織提供競爭優勢,但錯誤可能會在聲譽、收入甚至生命方面造成高昂的代價。
以下是過去十年中一些引人注目的分析和人工智能錯誤,以說明可能出現的問題。
ChatGPT“虛假”法庭案件
大型語言模型(LLM)在2023年取得的進展,引起了幾乎所有行業對生成式人工智能變革潛力的廣泛興趣。OpenAI的ChatGPT一直處于這種興趣激增的中心,預示著生成式人工智能如何擁有顛覆幾乎每個業務領域工作性質的力量。
但這項技術在真正接管大多數業務流程之前還有很長的路要走,這一點律師Steven a. Schwartz和美國地區法官P. Kevin Castel可謂深有體會。2023年,Schwartz在一起針對哥倫比亞航空公司阿維安卡(Avianca)的訴訟中使用了ChatGPT研究先例,但卻一度導致案件陷入困境。
Schwartz是Levidow、Levidow & Oberman律師事務所的律師,他使用OpenAI生成式人工智能聊天機器人查找之前的案例,以支持Avianca員工Roberto Mata在2019年因受傷提起的訴訟。唯一的問題是什么?摘要中提交的案件至少有六個是不存在的。在今年5月提交的一份文件中,Castel法官指出,Schwartz提交的案件包括虛假姓名和案件編號,以及虛假的內部引用。
在一份宣誓書中,Schwartz告訴法庭,這是他第一次使用ChatGPT作為法律研究來源,他不知道其內容可能是虛假的。他承認,他還沒有證實人工智能聊天機器人提供的消息來源。他還表示,他“非常后悔利用生成式人工智能來補充在此進行的法律研究,特別是在沒有絕對驗證其真實性的情況下,將來絕不會再這樣做。”
截至2023年6月的消息,Schwartz律師極有可能面臨法院的制裁。
AI算法可識別除COVID-19之外的所有事物
自COVID-19大流行開始以來,許多組織都在尋求應用機器學習(ML)算法來幫助醫院更快地診斷或分類患者。但根據英國國家數據科學和人工智能中心圖靈研究所的數據顯示,這些預測工具幾乎沒起什么作用。
《麻省理工科技評論》(MIT Technology Review)記錄了大量的失敗案例,其中大部分都源于工具訓練或測試方式的錯誤。使用錯誤標記的數據或來自未知來源的數據是最常見的原因。
劍橋大學機器學習研究員Derek Driggs及其同事在《自然機器智能》(Nature Machine Intelligence)上發表了一篇論文,探討了使用深度學習模型來診斷病毒。文中指出該技術不適合臨床使用。例如,Driggs的小組發現他們自己的模型存在缺陷,因為它是在一個數據集上訓練的,其中包括掃描時躺著的患者和站立的患者的掃描結果。躺著的病人患重病的可能性要大得多,因此該算法學會了根據掃描中人的位置來識別COVID風險。
一個類似的例子包括使用包含健康兒童胸部掃描的數據集訓練的算法。該算法學會了識別兒童,而非高危患者。
Zillow由于算法失誤導致裁員
2021年11月,在線房地產市場Zillow告訴股東,它將在未來幾個季度結束其AI炒房業務“Zillow Offers”并裁員25%(約2000名員工)。舊屋翻新(home-flipping)部門的困境是其用于預測房價的機器學習算法中的錯誤率所致。
Zillow Offers是一個程序,通過該程序,該公司能夠根據機器學習算法“Zestimate”得出的房屋價值對房產進行現金報價。其初衷是翻新這些房產并迅速出售。但Zillow的一位發言人稱,該算法的中位錯誤率為1.9%,對于場外房屋的錯誤率可能更高,高達6.9%。
據CNN報道,自2018年4月推出以來,Zillow已經通過Zillow Offers購買了27000套房屋,但到2021年9月底僅售出17000套。COVID-19大流行和家庭裝修勞動力短缺等“黑天鵝事件”導致了算法的準確性問題。
Zillow表示,該算法導致其以虛高的價格購買房屋,致使2021年第三季度的庫存減記3.04億美元。
Zillow聯合創始人兼首席執行官Rich Barton在公告發布后與投資者舉行的電話會議上表示,或許可以調整算法,但最終風險太大。
英國因超電子表格數據限制而丟失數千COVID病例
2020年10月,負責統計新的COVID-19感染病毒的英國政府機構英國公共衛生(PHE)透露,在9月25日至10月2日期間,有近16,000例冠狀病毒病例未報告。罪魁禍是Microsoft Excel 中的數據限制。
PHE使用自動化流程將COVID-19陽性實驗室結果作為CSV文件傳輸到Excel模板中,用于報告儀表板和聯系人追蹤。不幸的是,Excel電子表格每個工作表最多可以有1048576行和16384列。此外,PHE按列而不是按行列出案例。當案例超過16,384列的限制時,Excel會刪除底部的15841條記錄。
這個“小故障”并沒有阻止接受檢測的個人收到他們的結果,但它確實阻礙了接觸者追蹤工作,使英國國家衛生服務(NHS)更難識別和通知與感染患者密切接觸的個人。PHE臨時首席執行官Michael Brodie在10月4日的一份聲明中表示,NHS Test and Trace和PHE已經迅速解決了這個問題,并將所有未決案件立即轉移到NHS Test and Trace接觸者追蹤系統中。
PHE實施了“快速緩解”措施,拆分了大文件,并對所有系統進行了全面的端到端審查,以防止未來發生類似事件。
醫療保健算法未能標記黑人患者
2019年,發表在《科學》雜志上的一項研究顯示,美國各地的醫院和保險公司用來識別需要“高風險護理管理”計劃的患者的醫療預測算法,并不太可能單獨挑出黑人患者。
高風險護理管理計劃為慢性病患者提供訓練有素的護理人員和初級保健監測,以防止嚴重并發癥。但該算法更有可能為這些項目推薦白人患者,而不是黑人患者。
研究發現,該算法使用醫療保健支出作為確定個人醫療保健需求的代理。但據《科學美國人》報道,病情較重的黑人患者的醫療保健費用與健康白人的醫療費用相當,這意味著即使他們的需求更大,他們的風險評分也更低。
該研究的研究人員認為,可能有幾個因素起了作用。首先,有色人種收入較低的可能性更大,即使有保險,也可能使他們不太可能獲得醫療服務。隱性偏見也可能導致有色人種接受低質量的護理。
雖然該研究沒有透露算法或開發人員的名字,但研究人員告訴《科學美國人》,他們正在與開發人員合作解決這種情況。
數據集訓練微軟聊天機器人發布種族主義推文
2016年3月,微軟了解到,使用Twitter交互作為機器學習算法的訓練數據可能會產生令人沮喪的結果。
微軟在社交媒體平臺上發布了人工智能聊天機器人Tay。該公司將其描述為“對話理解”的實驗。這個想法是,聊天機器人將扮演一個十幾歲的女孩,并結合使用機器學習和自然語言處理,通過Twitter與個人互動。微軟給它植入了匿名的公共數據和一些喜劇演員預先編寫的材料,然后讓它從社交網絡上的互動中學習和發展。
結果在16小時內,該聊天機器人發布了95000多條推文,這些推文迅速變成了公然的種族主義、厭女主義和反猶太主義。最終,微軟選擇關閉了這項服務。
事件發生后,微軟研究與孵化公司副總裁 Peter Lee表示,
“我們對來自Tay的無意冒犯和傷害性推文深表歉意,這些推文并不代表我們的意見和立場,也不代表我們設計Tay的初衷。”
Lee指出,Tay的前身是微軟于2014年發布的“小冰”,在Tay發布前的兩年內,它已經成功與超過4000萬人進行了對話。微軟沒有考慮到的是,一群Twitter用戶會立即開始向Tay發布種族主義和厭惡女性的評論。該機器人迅速從該材料中學習并將其整合到自己的推文中。
亞馬遜人工智能招聘工具只推薦男性
與許多大公司一樣,亞馬遜也渴望獲得能夠幫助其人力資源部門篩選最佳候選人的工具。2014年,亞馬遜開始開發人工智能驅動的招聘軟件來做到這一點。但問題是,該系統非常偏愛男性候選人。2018年,經過路透社爆料后,亞馬遜取消了該項目。
據悉,亞馬遜的系統會給候選人從1到5的星級評分。但系統核心的機器學習模型是根據10年來提交給亞馬遜的簡歷進行訓練的——其中大部分來自男性。由于這些訓練數據,該系統開始對簡歷中包含“女性”一詞的措辭進行處罰,甚至降級來自全女子大學的候選人。
當時,亞馬遜表示,亞馬遜的招聘人員從未使用該工具來評估候選人。
該公司試圖對該工具繼續調整,以使其保持中立,但最終因無法保證它不會學習其他一些歧視性的候選人篩選方法,因此便終止了該項目。
Target分析侵犯隱私
2012年,零售巨頭Target的一個分析項目展示了公司可以從他們的數據中了解多少客戶。據《紐約時報》報道,2012年,Target的營銷部門開始研究如何確定客戶是否懷孕。這一調查催生了一個預測分析項目,而該項目導致零售商無意中向一名少女的家人透露了她懷孕的消息。
Target的營銷部門想要識別懷孕的個體,因為在生命中的某些時期——尤其是懷孕時期——人們最有可能從根本上改變他們的購買習慣。如果Target可以在這段時間接觸到客戶,它就能培養這些客戶的新行為,讓他們轉向Target購買雜貨、衣服或其他商品。
與所有其他大型零售商一樣,Target一直在通過購物者代碼、信用卡、調查等方式收集客戶數據。它將這些數據與其購買的人口統計數據和第三方數據混合在一起。通過對所有這些數據進行處理,Target的分析團隊能夠確定客戶的“懷孕預測”分數。然后,營銷部門可以針對高分客戶提供優惠券和營銷信息。
進一步的研究表明,研究客戶的生殖狀況可能會讓其中一些客戶感到毛骨悚然。據《泰晤士報》報道,該公司并沒有放棄其定向營銷策略,而是開始在他們知道孕婦不會購買的東西中混入廣告——割草機廣告旁邊的尿布廣告——讓客戶覺得該廣告組合是隨機的。
原文鏈接:https://www.cio.com/article/190888/5-famous-analytics-and-ai-disasters.html