機器教學入門指南
什么是機器教學?
盡管人工智能(AI)已在許多行業得到廣泛應用,但根據麻省理工學院斯隆管理學院的研究,只有不到10%的采用人工智能的企業真正實現了預期的商業收益。要從人工智能中真正獲益,企業必須找到將人類與機器緊密結合的方式,這一概念被稱為“組織學習”。具體而言,許多企業在初期應用人工智能時,通常會選擇那些已經具備大量可用數據且容易訓練模型的低難度場景,比如客戶支持分流、社交媒體情感分析以及市場營銷中的客戶細分等。雖然這些應用場景較為普遍,但往往并不是企業中最具價值的部分。對于成功的企業來說,要利用人工智能創造最大價值,通常應關注那些能夠增強領域專家能力的應用場景。
然而,這也帶來了一個問題:要利用人工智能來增強領域專家的能力,就必須讓這些專家參與到模型的訓練過程中。例如,一家大型醫療機構可能會選擇開發一個人工智能系統,用于診斷某些特定類型的癌癥。為了讓人工智能完成該任務,必須使用由腫瘤學家和放射科醫生等專家標注的高質量數據進行模型訓練。然而,對大多數企業而言,這個過程成本過高,因為專家資源非常緊張,難以長時間投入到數據標注工作中。麻省理工學院的研究團隊提出了“組織學習”的解決方案,即讓領域專家與機器協作,共同學習。這種人機互學的模式被認為是人工智能成功的關鍵。然而,要實現這種模式并不容易,首先是領域專家本就稀缺,難以兼顧數據標注工作和日常專業任務。因此,人機互學并未完全解決企業面臨的專家數量不足的核心問題。
近年來,機器教學日益受到關注,主要側重于解決人工智能的領域專家瓶頸問題。傳統的機器學習研究通常聚焦于優化學習算法或網絡架構,而如今的機器教學則更關注如何提高人類在訓練模型時的效率。雖然一個“更聰明的學生”(即創新的模型架構)能夠用更少的樣本比“普通學生”更快地學習專家知識,但這種創新往往非常稀少且難以預測。與此相比,在任何人工智能/機器學習應用中,無論“學生”模型有多么復雜,一個更高效的“老師”(即領域專家)都能產生巨大的影響,可以在同一時間內完成成百上千人的工作。
目前人工智能/機器學習實施中的最大制約因素是專家稀缺,但在現有的機器學習工作流程中,還存在其他重大障礙,妨礙各企業從投資中獲得應有的回報。機器學習工作流程本身存在脫節和技術債務,導致機器學習科學家發揮的效率遠低于潛在水平。此外,隨著模型漂移問題的出現,幾乎無法保持工作流程的敏捷性,因為發生漂移的模型需要通過新的數據進行重新訓練,而這往往會耗費專家標注員大量的時間去維護原有模型管道。此外,現有的機器學習流程在可解釋性方面也存在問題。如果訓練數據集存在偏差且無法追溯到具體的標注員(因為標注員太多或者相應標注員已經離職),那就難以理解導致這些偏差的原因。
工作效率
軟件工程師長期強調“心流狀態”(Flow State)對于編程的重要性,但在數據科學的工作流程中,這一概念并未得到足夠重視。例如,在開始構建模型之前,首先需要標注好的數據才能進入下一步。然而,在項目確定后,可能還需要等待數周才能完成數據標注。這個標注過程常常是整個工作流程中最為耗時的環節,而在此環節完成之前,幾乎無法進行其他任何后續工作。
“你永遠都在標注數據”是機器學習專家常常帶著憤怒說出的一句話。即便模型已經構建并投入使用,標注工作也沒有結束。模型并不會永遠保持靜態。隨著時間的推移,由于數據環境的變化,模型會產生漂移,性能也會下降。為了應對漂移,需要定期重新訓練模型。然而,如何衡量模型漂移?盡管可以通過一些統計指標(例如Kullback-Leibler散度、Jensen-Shannon散度或Kolmogorov-Smirnov檢驗)來追蹤模型輸入和輸出,但在沒有具體標注數據可供參考的情況下,難以解讀這些統計指標。與在開發環境中一樣,通常通過查看精度、準確率、召回率等指標來評估模型性能,但這些指標都是通過將模型預測結果與標注數據對比得出的。在開發環境中,可以使用驗證數據集作為基準,然而在生產環境中,唯一可用的基準標注數據,往往只能通過定期標注生產數據來獲得。這一過程難以擴展,因為每個生產模型都需要持續的人力投入來進行維護。
簡而言之,標注工作是機器學習工作流程中最需要反復進行的環節,也是整個過程中的關鍵瓶頸。由于人工標注需要耗費大量時間,現有的機器學習工作流程往往存在脫節且效率低下的問題,難以保持高效、流暢的進展狀態。
敏捷性
當預測對象發生變化時,模型會受到什么影響?例如,假設你正在構建一個分類器,用以基于相關規則或法規來識別個人身份信息(PII),如果這些規則或法規發生變化,新增了某種全新的個人身份信息類型,那么模型該如何應對?
再比如,假設你是電子郵件服務數據科學團隊的一員。你們團隊負責管理垃圾郵件檢測模型,并且曾投入大量精力,基于多個特征構建了一個高效的模型,成功識別了垃圾郵件。可是,隨著時間的推移,你們發現模型的性能開始下滑,誤報和漏報的比例逐漸增加。這很可能是因為輸入數據發生了變化,比如,用戶的行為發生了變化,可能用戶現在發送郵件的頻率大幅增加;或者垃圾郵件發送者改進了策略,繞過了模型的檢測。
為了解決這些問題,團隊需要重新標注數據并重新訓練模型,但應該多久進行一次重新標注和重新訓練?應該從什么時候開始提前創建新的訓練數據?重新標注和重新訓練的過程往往需要數周的時間,這意味著團隊難以快速適應變化,尤其是在發生突發事件(比如新冠疫情爆發)時,快速響應至關重要,而目前的機器學習工作流程無法充分適應這種需求,導致響應速度較慢。
可解釋性
在模型開發流程中,可解釋性是大多數機器學習從業者都非常重視的一個關鍵概念。為了提升模型的可解釋性,我們可以采取多種方法,例如使用Shapley值,或者選擇本身易于解讀的模型。然而,偏差問題通常來源于訓練數據本身。如果標注員帶有偏見,或數據采樣方式本身存在偏差,則模型很容易學習到這些偏差。通過各種方法提升模型的可解釋性,我們可以診斷出模型偏差,發現訓練數據中的問題,但真正的挑戰在于如何解讀數據中標注的標簽。
雖然找出數據中存在的偏見和偏差很有幫助,但更重要的問題是能否解釋其中原因,例如,為什么標注員認為某條包含仇恨言論的推文不屬于有毒內容?為什么標注員錯誤地將某份來自少數群體的信貸申請打上了不合格標簽?目前,唯一能夠獲得這種深層次可解釋性的方法就是直接詢問標注員,了解他們打上某個標簽的具體原因,但這并非易事。標注團隊人員流動率高,標注員可能為了趕進度而無法做到充分專注,而且有時難免會出現失誤。這些因素使得我們很難追溯到標注錯誤的根本原因,也導致數據團隊難以快速解決模型中的問題。
應用場景覆蓋
如前文所述,大多數企業未能從人工智能投資中獲得預期回報的主要原因是,最具價值的應用場景往往需要領域專家付出大量時間和精力。目前,許多最具影響力的機器學習/人工智能解決方案都需要大量標注數據,往往被認為太難實現或成本過高,甚至不值得嘗試。例如,假設你想開發一個用于檢測磁共振(MRI)影像中特定類型癌癥的模型,就需要大量的放射科醫生和腫瘤學專家參與數據標注工作。毫無疑問,如果這類模型能夠成功構建,將會帶來巨大的價值,因此從影響力的角度來看,構建這類模型的理由非常明確。然而,很多企業可能只有少數幾位這類領域專家,而他們的時間非常寶貴,難以投入到數據標注工作中。于是,盡管該項目存在巨大的潛在價值,但由于專家資源稀缺,商業案例難以推進,最終導致項目擱置。
幾乎所有垂直行業都面臨這一挑戰:領域專家的成本過高,導致極具價值的模型難以獲得足夠的資源支持。而那些易于構建的模型往往實際價值較低。這樣一來,很多企業陷入困境,難以讓人工智能真正發揮出巨大的影響力。
機器教學解決方案的特性
通過聚焦于提高機器教師的效率,我們可以更有效地解決工作流程中的人工瓶頸,一舉解決上述四個問題。一個高效的機器教學解決方案應具備以下特性,才能顯著降低人力成本:
- 簡便的數據探索領域專家應能輕松瀏覽數據,從中發現規律,提煉出有價值的信息。
- 表達能力強的信息和上下文捕捉接口在與數據交互的過程中,領域專家應能夠記錄他們發現的模式及上下文信息。例如,用戶可能希望定義一個正則表達式或其他函數,大致描述某一標簽所對應的數據特征。
- 緊密的反饋循環在工作過程中,領域專家應能獲得平臺的反饋,指導他們如何高效利用時間。這些指導可能是對領域專家已發現模式的反饋,或是平臺提供的優化建議,幫助專家將精力集中在最具影響力的方面。
- 以自動化為核心最終,標注員的工作應僅限于系統完全接管前的階段。持續維護工作流程的成本應盡可能接近零。
- 良好的可解釋性和推理能力由于高度依賴自動化,機器教學平臺必須具備強大的可解釋性。這些系統用于訓練并部署在生產環境中使用的模型,因此,關鍵在于能夠清晰地解釋“為什么標簽是Y1而不是Y2”,并基于此做出相應調整。
- 機器學習專家與領域專家的職責分離在某些情況下,“領域專家”可能是機器學習從業者,但大多數時候并非如此。因此,必須明確區分兩者的職責:領域專家應專注于提供專業知識,而機器學習專家則專注于從這些領域知識中進行機器學習和模型訓練。將這一框架應用于上述實際問題,可以清晰地展現機器教學如何顯著改善現有工作流程。
工作效率
不再需要大量標注員,通常只需一兩位領域專家即可完成標注工作。
得益于高度自動化,標注過程從幾周縮短為幾小時或幾天。
敏捷性
隨著環境的變化,根據平臺中提煉出的上下文進行調整時成本應該可以忽略不計。如果類別定義發生變化,或者輸入數據出現漂移,平臺應能輕松調整以適應這些變化。
應用場景覆蓋
由于機器教學工作流不需要大量領域專家,這就能夠輕松實現一些原本由于領域專家成本過高而難以實現的應用場景。只需一名領域專家花費幾小時啟動系統,等到自動化技術開始運作,后續就只需偶爾檢查,處理模型在生產環境中出現的漂移。
可解釋性
可解釋性是機器教學平臺的核心特性,我們能夠獲得比單純模型輸出更為深入的解釋。通過機器教學平臺,我們可以快速發現標注錯誤,并迅速分析原因(是概念提煉不準確?環境發生了變化?還是平臺缺少足夠的信號來正確理解該類別?)