探索性數據分析:決定人工智能與機器學習效果的第一步
數據質量低下正嚴重損害人工智能(AI)與機器學習(ML)技術的實際表現。這個問題困擾著不同規模的企業,從小型初創公司到谷歌這類科技巨頭都無法幸免于難。但數據質量為什么總不可靠?人為因素可能才是關鍵所在。
如今,企業手中掌握的數據總量遠超以往任何時候,但將這些數據轉化為實際價值卻仍然困難重重。AI與ML帶來的自動化功能,已被廣泛視為解決現實數據復雜難題的有效手段;眾多公司也迫切希望利用它們增強自身業務。但是,這種熱潮本身,也引起大量上游數據分析項目的匆忙上馬。
在自動化管道構建完成之后,其中的算法已經能夠完成大部分工作,而且幾乎不需要更新數據收集過程。但請注意,管道建成并不代表它可以一勞永逸地永遠運作。我們需要隨時間推移不斷探索并分析底層數據,關注哪些漂移模式正不斷侵蝕管道性能。
好消息是,數據團隊完全有能力降低這種侵蝕風險,但成本就是付出必要的時間與精力。為了維持自動化管道的執行效率,我們必須定期進行探索性數據分析(EDA),保證整個體系始終精準運行。
探索性數據分析是什么?
EDA是成功實現AI與ML的第一步。在分析算法本體之前,我們首先需要理解數據內容。數據質量,終將決定下游分析管道的實際效果。在正確起效之后,EDA將幫助用戶識別出數據中不必要的模式與噪聲,同時指導企業更準確地選取適當算法。
在EDA階段,我們需要積極查詢數據以確保其中的行為模式合乎預期。首先,先從以下十個需要全面分析的重要問題起步:
1、是否擁有充足的數據點?
2、數據中心與離散的量度,是否與預期相符?
3、有多少個數據點質量良好、可用于實際分析?
4、是否存在缺失值?這些壞值是否構成數據中的重要部分?
5、數據的經驗分布如何?數據是否符合正態分布?
6、數值中是否存在特殊聚類或分組?
7、是否存在離群值?應如何處理這些離群值?
8、不同維度間是否具有相關性?
9、是否需要通過重新格式化等手段進行數據轉換,以供下游分析及解釋?
10、如果數據為高維形式,是否能夠在不損失過多信息的前提下降低維數?其中某些維度是否屬于噪聲?
這些問題又會衍生出更多問題。這不是完整的問題清單,而僅僅只是思考的開始。最終,希望大家能對現有數據模式建立起更好的理解,而后正確處理數據并選擇最適合的處理算法。
底層數據一直在不斷變化,這就要求我們在EDA上引入更多時間,確保算法接收到的輸入特征始終保持穩定。例如,Airbnb發現,數據科學家在模型開發周期中近七成的時間被用于數據收集與特征工程,通過大量分析工作確定數據結構與模式。簡而言之,如果不花時間理解這些數據,那么AI與ML計劃將極易失控。
唯一不變的,只有變化
目前,數字服務中最重要的應用集中在網絡安全與欺詐檢測層面,這部分市場的總價值已經超過300億美元。預計到2030年左右,市場總值有望超過1000億美元。雖然Amazon Fraud Detector及PayPal Fraud Management Filters等工具已經在抗擊網絡欺詐方面發揮作用,但欺詐檢測中唯一不變的只有變化本身。企業需要不斷為新的欺詐行為做好準備,而欺詐一方也在努力“創新”保證自己的攻擊能力。
每種新型欺詐往往都包含前所未有的數據模式。例如,新用戶在注冊與交易時往往對應AI系統未曾見過的郵政編碼。雖然新用戶可能來自四面八方,但如果注冊地真的特別生僻,我們最好提高警惕。
這類計算中最困難的部分,是讓AI模型準確辨別欺詐交易與正常交易。作為數據科學家,我們需要先引導底層算法初步理解正常交易與欺詐交易的特征,之后再由它慢慢探索更多欺詐檢測途徑。后續學習,離不開由統計技術搜索到的大量數據。用戶可以剖析客戶群體,確定普通客戶與欺詐者之間的區別;之后提取出有助于進行準確分類的信息,具體涵蓋注冊信息、交易內容、客戶年齡、收入水平、姓名等等。需要注意的是,將正常交易標記為欺詐行為,對客戶體驗及產品聲譽造成的損害往往比欺詐本身更大。
更“有趣”的一點在于,EDA是個需要在整個產品生命周期內不斷重復的過程。新的欺詐活動,必然對應著新的數據模式。最終,企業需要投入大量時間與精力推進EDA,借此保持最佳欺詐檢測能力以維持AI與ML管道的正常運作。
總之,AI與ML的成功源自對數據的深刻理解,而非大量算法的盲目堆疊。
AI與ML管道應該適應數據,而不要指望數據能適應用戶的現有管道。只有滿足這些條件,AI與ML支撐起的新業務才有望勇猛精進、一路向前。