斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

作者：我在思考中 2022-08-29 14:43:24

最近，斯坦福大學計算機科學系的Weixin Liang、李飛飛等人在《自然-機器智能》上共同發表了一篇題為“Advances, challenges and opportunities in creating data for trustworthy AI”的文章，在 AI 數據全流程的各個環節上討論了保證數據質量的關鍵因素和方法。

在當前 AI 模型的開發以模型為中心轉向以數據為中心的趨勢下，數據的質量變得尤為重要。

在以往的 AI 開發流程中，數據集通常是固定的，開發工作的重點是迭代模型架構或訓練過程來提高基準性能。而現在，數據迭代成為重心，因此我們需要更系統的方法來評估、篩選、清洗和注釋用于訓練和測試 AI 模型的數據。

論文地址：https://www.nature.com/articles/s42256-022-00516-1.epdf?sharing_token=VPzI-KWAm8tLG_BiXJnV9tRgN0jAjWel9jnR3ZoTv0MRS1pu9dXg73FQ0NTrwhu7Hi_VBEr6peszIAFc6XO1tdlvV1lLJQtOvUFnSXpvW6_nu0Knc_dRekx6lyZNc6PcM1nslocIcut_qNW9OUg1IsbCfuL058R4MsYFqyzlb2E%3D

AI 數據流程中的主要步驟包括：數據設計（數據的采集和記錄）、數據改善（數據篩選、清洗、標注、增強）以及用于評估和監控 AI 模型的數據策略，其中的每一個環節都會影響最終 AI 模型的可信度。

斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

圖1：從數據設計到評估的以數據為中心的方法開發路線圖。

1.AI 的數據設計

確定了一個人工智能應用程序后，開發 AI 模型第一步就是設計數據（即識別和記錄數據來源）。

設計應當是一個迭代過程——用試驗數據來開發初始的 AI 模型，然后再收集額外數據來修補模型的局限性。設計的關鍵標準是確保數據適用于任務，并覆蓋足夠的范圍來代表模型可能遇到的不同用戶和場景。

而目前用于開發 AI 的數據集通常覆蓋范圍有限或者具有偏差。例如在醫療 AI 中，用于開發算法的患者數據的收集在地區分布上不成比例，這會限制 AI 模型對不同人群的適用性。

提高數據覆蓋率的一種方法，是讓更廣泛的社區參與數據的創建。目前最大的公共數據集 Common Voice 項目就是一個例證，該數據集包含了來自 166000 多名參與者的 76 種語言的 11192 小時語音轉錄。

而當代表性數據難以獲得時，可以用合成數據來填補覆蓋空白。比如真實人臉的收集通常涉及隱私問題和抽樣偏差，而由深度生成模型創建的合成人臉現在已經被用于減輕數據不平衡和偏差。在醫療保健領域，可以共享合成醫療記錄來促進知識發現，而無需披露實際的患者信息。在機器人技術中，真實世界的挑戰是終極的測試平臺，也可以用高保真模擬環境來讓智能體在復雜和長期任務中實現更快、更安全的學習。

但合成數據也存在一些問題。合成數據與現實數據之間總是存在差距，所以在將基于合成數據訓練的 AI 模型轉移到現實世界時，通常會出現性能下降。如果模擬器的設計不考慮少數群體，那么合成數據也會加劇數據差異，而 AI 模型的性能高度依賴其訓練和評估數據的上下文，因此在標準化和透明的報告中記錄數據設計地上下文就非常重要。

現在，研究人員已經創建了各種「數據營養標簽」（data nutrition labels）來捕獲有關數據設計和注釋過程的元數據（metadata）。有用的元數據包括數據集中參與者的性別、性別、種族和地理位置的統計數據，這有助于發現是否有代表性不足的亞群未被覆蓋。數據來源也是一種元數據，它跟蹤數據的來源和時間以及產生數據的過程和方法。

元數據可以保存在一個專門的數據設計文檔里，數據文檔對于觀察數據的生命周期和社會技術背景來說非常重要。文檔可以上傳到穩定且集中的數據存儲庫（例如 Zenodo）中。

2.完善數據：篩選、清洗、標注、增強

初始數據集收集完成后，我們就需要進一步完善數據，為 AI 的開發提供更有效的數據。這是 AI 以模型為中心的方法與以數據為中心的方法的關鍵不同之處，如圖 2a ，以模型為中心的研究通常是基于給定的數據，專注于改進模型架構或優化此數據。而以數據為中心的研究則側重于可擴展的方法，通過數據清洗、篩選、標注、增強等過程來系統地改進數據，并且可以使用一站式的模型開發平臺。

斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

圖2a：AI 以模型為中心與以數據為中心的方法比較。MNIST、COCO 和 ImageNet 是 AI 研究中常用的數據集。

數據篩選

如果數據集的噪聲很大，我們就得仔細對數據進行篩選之后再做訓練，這樣可以顯著提高模型的可靠性和泛化性。圖 2a 中的飛機圖像就是鳥類數據集中應刪除的噪聲數據點。

在圖 2b 中，由于訓練數據的偏差，在以前使用的大型皮膚病學數據上訓練的四種最先進的模型都表現不佳，在深色皮膚圖像上的診斷效果尤其不好，而在較小的高質量數據上訓練的模型 1 在深淺膚色上都相對更可靠一些。

斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

圖 2b：淺色皮膚和深色皮膚圖像上的皮膚病診斷測試性能。

圖 2c 顯示，ResNet、DenseNet 和 VGG 這三種用于圖像分類的流行深度學習架構，如果是在噪聲大的圖像數據集上進行訓練，其性能都欠佳。而經過數據Shapley 值過濾后，質量較差的數據被刪除，此時在更干凈的數據子集上訓練的ResNet模型性能顯著更優。

斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

圖 2c：數據過濾前后不同模型的對象識別測試性能比較。括號中的數字表示過濾掉噪聲數據后剩下的訓練數據點的數量，結果匯總在五個隨機種子上，陰影區域代表 95% 置信區間。

這就是數據評估的意義所在，它旨在量化不同數據的重要程度，并過濾掉可能由于質量差或偏差而損害模型性能的數據。

數據清洗

在本文中，作者介紹了兩種數據評估方法來幫助清洗數據：

一種方法是測量在訓練過程中刪除不同數據時 AI 模型表現的變化，這可以采用數據的 Shapley 值或影響近似值來獲得，如下圖 3a。這種方法能夠有效計算大型 AI 模型的評估。

斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

圖3a：數據評估。當在訓練中刪除特定點（圖中被劃掉的褪色五角星）時，數據的 Shapley 值測量在不同數據子集上訓練的模型的性能變化，從而來量化每個數據點（五角星符號）的值。顏色表示類別標簽。

另一種方法則是預測不確定性來檢測質量差的數據點。數據點的人類注釋可能會系統地偏離 AI 模型預測，置信學習算法可以檢測出這些偏差，在 ImageNet 等常見基準測試中發現超過 3% 的測試數據被錯誤標注。過濾掉這些錯誤可以大大提升模型的性能。

數據標注

數據標注也是數據偏差的一個主要來源。盡管 AI 模型可以容忍一定程度的隨機標簽噪聲，但有偏差的錯誤會產生有偏差的模型。目前，我們主要依賴于人工標注，成本很昂貴，比如標注單個 LIDAR 掃描的成本可能超過 30 美元，因為它是三維數據，標注者需要繪制出三維邊界框，比一般的標注任務要求更高。

因此作者認為，我們需要仔細校準 MTurk 等眾包平臺上的標注工具，提供一致的標注規則。在醫療環領域，還要考慮到標注人員可能需要專業知識或者可能有無法眾包的敏感數據。

降低注釋成本的一種方法是數據編程。在數據編程中，AI 開發人員不再需要手動標記數據點，而是編寫程序標簽函數來自動標注訓練集。如圖 3b，使用用戶定義的標簽函數為每個輸入自動生成多個可能有噪聲的標簽后，我們可以設計額外的算法，來聚合多個標簽功能以減少噪聲。

斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

圖 3b：數據編程。

另一種降低標注成本的「人在回路」（human-in-the-loop）方法是優先考慮最有價值的數據，以便我們通過主動學習（active learning）來進行標注。主動學習從最佳實驗設計中汲取思想，在主動學習中，算法從一組未標注的數據點中選擇信息量最大的點，比如具有高信息增益的點或模型在其上具有不確定性的點嗎，然后再進行人工標注。這種方法的好處是，所需的數據數量比標準的監督學習所需的數據量要少得多。

數據增強

最后，當現有數據仍十分有限時，數據增強就是一種擴充數據集和提高模型可靠性的有效方法。

計算機視覺數據可以通過圖像旋轉、翻轉和其他數字轉換來增強，文本數據可以通過變換自動書寫風格來增強。還有最近的 Mixup，是一種更復雜的增強技術，它通過對訓練樣本對進行插值來創建新的訓練數據，如圖 3c。

除了人工數據增強之外，目前的 AI 的自動化數據增強流程也是一種流行方案。此外，當未標注的數據可用時，還可以通過使用初始模型進行預測（這些預測稱為偽標簽）來實現標簽增強，然后在具有真實和高置信度偽標簽的組合數據上訓練一個更大的模型。

斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

圖 3c：Mixup 通過創建對現有數據進行插值的合成數據來擴充數據集。藍點表示訓練集中的現有數據點，紅點表示通過插值兩個現有數據點創建的合成數據點。

3.用于評估和監控 AI 模型的數據

在模型經過訓練后，AI 評估的目標是模型的通用性和可信性。

為了實現這一目標，我們應該仔細設計評估數據，從而去找到模型的現實世界設置（real-world settings），同時評估數據也需要與模型的訓練數據有足夠大的差異。

舉個例子，在醫學研究中，AI 模型通常是基于少數醫院的數據訓練的。這樣的模型在新的醫院部署時，由于數據收集和處理方面的差異，其準確性就會降低。為了評價模型的泛化性，就需要從不同的醫院、不同的數據處理管道收集評價數據。在其他應用程序中，評估數據應該從不同的來源收集，最好由不同的注釋器標記為訓練數據。同時，高質量的人類標簽仍然是最重要的評價。

AI 評估的一個重要作用是，判斷 AI 模型是否在不能很好形成概念的訓練數據中將虛假相關性作為「捷徑」。例如，在醫學成像中，數據的處理方式（例如裁剪或圖像壓縮）可能產生模型拾取的虛假相關性（即捷徑）。這些捷徑表面上可能很有幫助，但當模型部署在稍有不同的環境中時，就可能會出現災難性的失敗。

系統的數據消融是檢查潛在的模型「捷徑」的好方法。在數據消融（data ablation）中，AI 模型在虛假相關表面信號的消融輸入上進行訓練和測試。

斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

圖 4：數據消融

使用數據消融探測出模型捷徑的一個例子是，一項關于常見自然語言推理數據集的研究發現，僅對文本輸入的前一半進行訓練的人工智能模型在推斷文本的前一半和后一半之間的邏輯關系方面取得了很高的準確性，而人類在相同的輸入上的推斷水平和隨機猜測差不多。這就表明人工智能模型利用虛假相關性作為完成這項任務的捷徑。研究團隊發現，特定的語言現象會被人工智能模型利用，如文本中的否定與標簽高度相關。

數據消融被廣泛適用于各個領域。例如，在醫學領域，可以屏蔽圖像中與生物相關的部分，用這種方式來評估人工智能是從虛假背景中學習，還是從圖像質量的人工制品中學習。

AI 評估通常局限于比較整個測試數據集的總體性能指標。但即使 AI 模型在總體數據層面工作良好，它仍然可能在特定的數據子組上顯示出系統性錯誤，而對這些錯誤集群的特征描述可以讓我們更加了解模型的局限性。

當元數據可用時，細粒度的評估方法應該盡可能地按數據集中參與者的性別、性別、種族和地理位置對評估數據進行切片——例如，“亞洲老年男性”或“美國土著女性”——并量化模型在每個數據子組上的表現。多精度審計（Multi-accuracy auditing）是一種自動搜索 AI 模型表現不佳的數據子組的算法。在此處，審計算法被訓練來使用元數據預測和聚類原始模型的錯誤，然后提供 AI 模型犯了什么錯，為什么會犯錯等問題的可解釋答案。

當元數據不可用時，Domino 等方法會自動識別評估模型容易出錯的數據集群，并使用文本生成來創建這些模型錯誤的自然語言解釋。

4.數據的未來

目前大多數 AI 研究項目只開發一次數據集，但現實世界的 AI 用戶通常需要不斷更新數據集和模型。持續的數據開發將帶來以下挑戰：

首先，數據和 AI 任務都可以隨著時間的推移而變化：例如，可能道路上出現了一種新的車輛模型（即領域轉移），或者可能 AI 開發人員想要識別一種新的對象類別（例如，不同于普通公交車的校車類型），這就會改變標簽的分類。而將扔掉數百萬小時的舊標簽數據十分浪費，所以更新勢在必行。此外，培訓和評估指標應該經過精心設計后用來權衡新數據，并為每個子任務使用適當的數據。

其次，為了持續獲取和使用數據，用戶將需要自動化大部分以數據為中心的 AI 過程。這種自動化包括使用算法來選擇將哪些數據發送給標注器，以及如何使用它來重新訓練模型，并且只在過程出現錯誤時（例如，準確度指標下降時）才向模型開發人員發出警報。作為“MLOps（Machine Learning Operations，機器學習操作）”趨勢的一部分，業界公司開始使用工具來實現機器學習生命周期的自動化。

責任編輯：未麗燕來源：雷鋒網

斯坦福大學李飛飛 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福李飛飛團隊新研究登 Nature 子刊：實現可信 AI，數據的設計、完善、評估是關鍵

1.AI 的數據設計

2.完善數據：篩選、清洗、標注、增強

數據篩選

數據清洗

數據標注

數據增強

3.用于評估和監控 AI 模型的數據

4.數據的未來