用 LLMs 做數據標注:優勢、局限與實操指南 原創 精華
編者按: 目前,LLMs 在機器翻譯、文本生成、多輪問答等任務上已表現得非常出色了。人們開始思考它們是否也可以用于數據標注工作。數據標注是訓練和評估各種機器學習模型的基礎,一直是一項昂貴且耗時的工作。是否能夠借助 LLMs 的強大能力來為數據標注流程降本增效呢?本文深入探討了這一問題。
本文作者從業界最新研究入手,全面評估了 LLMs 在數據標注領域的應用前景。文章指出,在某些場景下使用 LLMs 確實可以加快標注流程、降低成本,但也需要注意 LLMs 存在一些局限性,如對提示詞的高度敏感性、不能支持多種人類語言符號,以及難以模擬人類的內在推理邏輯等。因此,我們不能期望 LLMs 完全取代人工標注,特別是在涉及需要主觀判斷或敏感內容的領域。
本文立足前沿,觀點中肯,為 LLMs 在數據標注領域的應用前景勾勒出了輪廓,同時也直面了其短板,啟發讀者理性審視這一新興技術在實踐中的利弊權衡,為未來研究和實踐提供了極有價值的思路,對于推動人工智能技術在數據標注領域的良性發展具有重要意義。
作者 | Maja Pavlovic
編譯 | 岳揚
本文旨在提供一份簡單易懂的技術總結,介紹有關使用 LLMs 對數據進行標注的研究。我們將探討當前關于使用 LLMs1 標注文本數據的觀點,以及在實踐中使用該技術方案時需要注意的事項。
文章總覽:
- 為什么使用 LLMs 進行數據標注?
- 當前業界主流觀點
- 使用 LLMs 進行數據標注時需要注意哪些事項
- Summary | TL;DR
在這里插入圖片描述
Source: Pexels
01 為什么使用 LLMs 進行數據標注?
高質量的標注數據是訓練和評估各種機器學習模型的基礎。 目前,最常見的數據標注方法是雇傭眾包工人(例如 Amazon Mechanical Turk),或在涉及專業知識時雇傭相關領域專家。
這些方法可能相當昂貴且極其耗時,因此很多人開始想了解是否可以使用 LLMs 完成數據標注工作。對于預算有限的企業,可以通過構建滿足其特定需求的專用數據標注模型(specialised models)來完成數據標注需求。在醫學等較為敏感的領域,可以通過讓相關領域專家審查和修正 LLM 的標注內容來加快標注流程,而不是從頭開始進行數據標注。
此外, 卡內基梅隆大學(Carnegie Mellon) 和 谷歌(Google)的研究人員還發現,保護人工標注者免受標注過程中(例如仇恨言論)造成的心理傷害,以及保證數據中觀點的多樣性,也是行業推動使用 LLMs 進行數據標注的動機之一。
02 當前業界主流觀點
關于 LLMs 是否有潛力成為優秀的數據標注工具,各項研究的意見不一。雖然一些研究對其能力持樂觀態度,但也有一些研究持懷疑態度。表 1 概述了十二項相關研究的研究方法和研究結論。您可以在本文末尾的參考文獻中找到這些內容的出處。
在這里插入圖片描述
表 1 — z: zero-shot,f: few-shot,z&f: zero&few-shot;en+: 主要為英文語料 | 圖片由原文作者提供
2.1 模型2
表 1 中的 Model Families 列元素數量顯示 —— 大多數研究只測試了一個 Model Families。查看使用的具體模型可以發現,除了研究[7][11]外,幾乎所有研究都使用了 GPT。 研究[7]是唯一專注于探索開源 LLMs 的研究(見表2)。
在這里插入圖片描述
表 2 | 圖片由原文作者提供
2.2 數據集
表 1 的 Number of Datasets 列介紹了該研究用于數據標注的數據集數量。不同的研究所探索的任務不同,因此也探索使用了不同的數據集。大多數研究在多個數據集上進行了性能測試。研究[3]通過在20個不同數據集上測試 LLM 的分類性能(LLM classification performance)而顯得特別突出。關于數據集的更多細節,請在下方的表 3 中尋找,應當可以幫助您找到最相關的研究。
在這里插入圖片描述
表 3 | 圖片由原文作者提供
如果一開始手頭沒有標注數據:請尋找、查看現有的與目標任務類似的標注數據集(labelled datasets),并用 LLM 對其進行標注。通過詳細分析錯誤和潛在問題(the errors and potential issues),將 LLM 生成的標簽與人工標注的標簽進行比較。這樣,就能夠幫助我們了解 LLM 在目標任務中的表現,以及是否值得投入時間和其他成本。
2.3 Perspectivist Approach
Perspectivist Approach 簡單來說就是認識到理解數據集或解決問題(understand a dataset or solve a problem)沒有一種“唯一正確”的方法。從不同的角度看問題可以帶來不同的見解(insights)或解決方案(solutions)。在傳統方法中,大多數數據集都是使用 majority voting approach(譯者注:會讓多個人(如專家或眾包工人)為同一個數據樣本打上標簽。由于每個人的判斷可能有出入,最終需要一種機制來確定這個數據樣本的“ground truth”(真實標簽)。在傳統的數據標注過程中,這種機制通常為“少數服從多數”。)進行標注,這意味著最常被選擇的標簽被視為“ground truth”(真實標簽) :
在這里插入圖片描述
Majority Voting Vs. Perspectivist Approach | 圖片由原文作者提供
在表 1 中,根據研究采用的是 majority voting 方法還是 perspectivist mindset 方法,對數據標注方法進行了分類。可以看到,大多數研究都采用了 majority voting 方法進行數據標注工作。
2.4 真的可以將 LLMs 使用為數據標注工具?
最后一列總結了每項研究的結果,打勾??表示該研究傾向于認為 LLMs 可以在數據標注過程中發揮作用。雖然有些研究對其潛力非常樂觀,甚至認為完全可以取代人工標注者,但也有一些研究認為它們更適合作為輔助工具,而不是完全替代人類進行數據標注。即便在這些持積極態度的研究中,也有些任務場景是 LLMs 表現不夠出色的。
此外,有三項研究(其中兩項采用了 perspectivist approach 方法)得出結論認為 LLMs 不適合用于數據標注。另一項研究(未在表中記錄)采用了不同的方法,表明目前通過單一獎勵函數(single reward function)對 LLMs 進行對齊的方法,并不能反映不同人類子群體(human subgroups)的偏好多樣性(diversity of preferences),特別是少數群體的觀點。
03 使用 LLMs 作為標注工具時需要考慮的事項
3.1 Prompting: Zero vs. Few-shot
直接從 LLMs 中獲得非常有意義的模型響應可能頗具挑戰。那么,如何最有效地通過提示詞讓 LLM 來標注數據集呢? 從表 1 中我們可以看到,上述研究探討了 zero-shot 或 few-shot prompting (譯者注:Zero-shot prompting 不向語言模型提供任何相關示例,直接向模型發送自然語言的問題或指令,讓模型自行生成答案或執行任務。沒有提供任何“示例”說明預期的輸出應該是什么樣的。Few-shot prompting 在prompt中包含了少量的“示例”內容,告訴大模型用戶期望的輸出格式和風格是什么樣的。),或兩者兼而有之。Zero-shot prompting 要求 LLM 在沒有任何示例的情況下回答問題。而 Few-shot prompting 則在提示詞中包含多個示例,以便 LLM 能理解用戶期望的回答格式:
在這里插入圖片描述
Zero Vs Few-Shot Prompting | source:??https://github.com/amitsangani/Llama-2/blob/main/Building_Using_Llama.ipynb??
至于哪種方法效果更好,研究結果各不相同。一些研究在解決目標任務時采用 few-shot prompting,另一些則采用 zero-shot prompting 。因此,我們可能需要探索哪種方法最適合我們的任務場景和使用的模型。
如果你想知道如何學習撰寫提示詞(Prompt),Sander Schulhoff 和 Shyamal H Anadkat 創建了 LearnPrompting[1],可以幫助我們學習有關提示詞的基礎知識和更高級的技巧。
3.2 LLMs 對提示詞的敏感程度
LLMs 對 prompt(提示詞)的細微變化非常敏感。 改變 prompt 中的一個詞可能就會影響模型響應。如果想要盡量應對這種變化,可以參考研究[3]的做法。首先,由 task expert (譯者注:對任務所在領域有深入理解的領域專家。)提供初始提示詞。然后,使用 GPT 生成 4 個意義相似的提示詞,并對這 5 個提示詞的模型響應的內容評估指標取平均值。或者,我們也可以嘗試使用 signature[2] (譯者注:一種自動化的提示詞生成方式,可以理解為一種參數化的提示詞模板。)代替人工輸入的提示詞,并讓 DSPy[3] 來優化提示詞,如 Leonie Monigatti 的博客文章內容[4]所示。
3.3 如何選擇用于數據標注的模型?
選擇哪個模型來標注數據集?有幾個因素需要考慮。讓我們簡要談談一些關鍵的考慮因素:
- 開源 vs. 閉源:是選擇最新的、性能最好的模型?還是更注重定制化開源模型?需要考慮的因素包括預算、性能要求、是否需要定制、是否需要擁有模型所有權、安全需求以及社區支持要求等方面。
- 保護措施(Guardrails):LLMs 配備了防止產生不良信息或有害內容的保護措施。如果目標任務涉及敏感內容,模型可能會拒絕標注這些數據。而且,不同 LLMs 的保護措施強度不一,因此需要不斷進行探索和比較,找到最適合目標任務的數據標注模型。
- 模型大小(Model Size):LLMs 有不同的 size ,較大的模型可能表現更好,但也需要更多的計算資源。如果你想要使用開源 LLMs 但是計算資源有限,可以試試使用模型量化技術[5]。就閉源模型而言,目前較大的模型每次使用的成本更高。但較大 size 的模型一定更好嗎?
3.4 模型存在的偏見問題
根據研究[3],較大的、經過指令微調的3(instruction-tuned)模型在數據標注性能方面表現更優越。 然而,該研究并未評估其模型輸出中是否存在偏見。另一項研究表明,偏見會隨著模型規模(scale)和上下文模糊程度(ambiguous contexts)的增加而增加。 有幾項研究還警告說,LLMs 有左傾傾向,并且在準確代表少數群體(如老年人或少數宗教)的觀點方面能力有限。總體來看,當前的 LLMs 存在相當大的文化偏見(cultural biases),并且在看待少數群體的相關問題時存在刻板印象。這些都是在項目各個階段需要根據目標任務考慮的問題。
在這里插入圖片描述
“默認情況下,LLM 的響應更類似于某些群體的觀點,如來自美國、某些歐洲和南美洲國家的群體” — 摘自研究[2]
3.5 模型參數:Temperature
表 1 中的大多數研究都提到了 temperature 參數,該參數主要用于調整 LLMs 輸出內容的“創造力”表現。研究[5]和[6]在較高和較低的 temperature 參數值下進行了實驗,發現使用較低的 temperature 參數值時 LLMs 響應的一致性更高(譯者注:對于同一提示詞輸入,模型在不同時刻生成的響應彼此之間的差異較小,更加一致),同時不影響準確性。因此,他們建議在數據標注任務中使用較低的 temperature 參數值。
3.6 使用 LLMs 進行數據標注任務存在語言方面的限制
如表 1 所示,大多數研究都評估了 LLMs 在英語數據集上的標注性能。研究[7]探索了法語、荷蘭語和英語數據集的性能,發現非英語語言的標注性能顯著下降。 目前,LLMs 在英語數據集中的表現更好,但也有其他方法嘗試將這種優勢擴展到非英語語言。包括 Aleksa Gordi? 開發的 YugoGPT[6](用于塞爾維亞語、克羅地亞語、波斯尼亞語、黑山語)和 Cohere for AI 的 Aya[7](支持101種不同語言)。
3.7 分析人類的標注內容,來窺探和理解人類在做出某些判斷時的內在推理邏輯和行為動機
除了簡單地請求 LLM 為數據打上標簽外,我們還可以要求其為所選擇的標簽提供一段解釋。研究[10]發現,GPT 提供的解釋內容與人類的解釋內容相當,甚至更為清晰。 然而,卡內基梅隆大學和谷歌的研究人員指出,LLMs 尚未能模擬人類的決策過程[8],在標簽的選擇決策過程中也未表現出類似人類的行為[9]。他們發現,經過指令微調的模型更無法表現出類似人類的行為,因此他們認為在標注流程中, 不應當使用 LLMs 來替代人類。在目前的階段,作者建議謹慎使用大語言模型(LLM)生成的自然語言解釋內容。
“使用 LLMs 替代標注員會影響三種價值觀:參與者利益的代表性(譯者注:如果完全由 LLM 生成自然語言解釋內容,可能無法充分代表參與標注任務的人員(如專家、工人等)的真實利益和關切點。);人類在開發過程中的參與權、發言權、主導權和決策權。” — 摘自 Agnew(2023)
04 Summary | TL;DR
在這里插入圖片描述
使用 LLMs 進行數據標注優點與缺點 | image by author
- 對于那些預算有限、任務相對客觀的情況,使用 LLM 進行數據標注是一個不錯的選擇,在這些任務中,一般關注的是最可能的標簽。在意見可能存在較大分歧的主觀任務中,對正確標簽(correct label)的看法可能會大相徑庭,這時就要小心了!
- 避免使用 LLMs 來模擬人類的內在推理邏輯和行為動機。
- 對于更關鍵的任務(如醫療保健領域任務),可以使用 LLMs 來加速標注過程,讓人類來糾正已標注的數據;但千萬不要讓人類完全脫離數據標注過程!
- 批判性地評估標注方案,檢查是否存在偏見和其他問題,并考慮這些錯誤可能帶來的麻煩是否值得。
這篇文章并非對使用 LLMs 和人工標注進行詳盡的比較。如果您有其他資料或在使用 LLM 進行數據標注的個人經驗,煩請在評論中留言分享。
References
- 由于參考資料較多,此鏈接單獨列出了用于撰寫這篇博客文章所參考的所有論文:??https://towardsdatascience.com/can-large-language-models-llms-label-data-2a8334e70fb8#1525??
- 如果您想了解表 1 和這些研究的更多信息,請參閱此論文:??https://arxiv.org/abs/2405.01299??
腳注 Footnotes
1這不是對所有相關文獻的全面回顧,僅涵蓋了我在研究這一主題時發現的論文。此外,我主要關注的還是分類任務(classification tasks)。
2鑒于 LLM 的發展速度,與本文介紹的這些研究中測試的模型相比,現在肯定還有很多更強大的模型可用于數據標注。
3經過指令微調過的大模型(Instruction-tuned models)的訓練重點是根據給定的指令/提示詞(instructions/prompts)理解和生成準確且連貫的模型響應。
Thanks for reading!
Maja Pavlovic
Google DeepMind PhD Scholar, simplifying Data Science and Deep Learning concepts || London (UK) ||
END
參考資料
[1]??https://learn-prompting.webflow.io/testimonials??
[2]??https://towardsdatascience.com/intro-to-dspy-goodbye-prompting-hello-programming-4ca1c6ce3eb9#7029??
[3]??https://towardsdatascience.com/intro-to-dspy-goodbye-prompting-hello-programming-4ca1c6ce3eb9??
[4]??https://medium.com/@iamleonie??
[6]??https://gordicaleksa.medium.com/??
[7]??https://cohere.com/research/aya??
[8]??https://medium.com/@majapavlo/references-for-llms-as-annotators-1c2886b50b86#9e13??
[9]??https://medium.com/@majapavlo/references-for-llms-as-annotators-1c2886b50b86#fb0c??
本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。
原文鏈接:
??https://towardsdatascience.com/can-large-language-models-llms-label-data-2a8334e70fb8??
