區塊鏈數據分析很大的挑戰
在最近的會議演講中我經常會被問到:區塊鏈數據分析很大的挑戰是什么? 我的回答就一個詞:去匿名化。我堅定地認為,識別不同類型的參與者并 理解其行為是解鎖區塊鏈分析潛力的核心挑戰。我們花費了相當多的時間來 考慮這個問題以識別出與數字貨幣運動的倫理不發生沖突的正確邊界。在 這篇文章里,我想進一步探討這個思路。
市場上大多數區塊鏈的架構依賴于匿名或偽匿名機制來保護其節點的隱私 并實現去中心化。數據混淆機制可以將加密資產交易數據記錄在公開的 賬本上讓每個人都能訪問,但是也讓分析這些數據變得異常困難。如果不能 識別參與者的身份,就很難理解區塊鏈數據集并分析出有意義的結果,而且 區塊鏈分析只能徘徊在初級階段。然而,重要的一點是要理解,去匿名化 區塊鏈數據集并不是要知道賬本中每個地址的真實身份,這個方向基本上是 不具備可擴展性的可能。相反的,我們可以識別并理解區塊鏈中已知參與者 的行為,例如交易所、OTC柜臺、礦工以及其他構成區塊鏈生態系統的核心 成員。
并非所有的地址都一樣
網絡的量度是區塊鏈分析中無所不在的一個指標,也是一個可以清晰地展示 去匿名化威力的指標。地址數量是最常見的一個具有誤導性的指標,因為 并非所有的地址都同等重要。交易創建的一個用于臨時性轉賬的地址,顯然 不能和另一個長期持有資產的錢包地址相提并論。類似的,像幣安這樣的 交易所的熱錢包,肯定也不同和我的個人錢包采用同樣的方法和指標去分析。 同等對待所有地址的匿名性,注定會導致解讀的有限性并且經常會得出誤導性的結論。
匿名性 vs. 可解讀性
匿名或偽匿名身份是可伸縮的去中心化架構的關鍵因素之一,但是這也讓 從區塊鏈數據集中獲取有價值的信息變得極端困難。理解這一觀點的一個 辦法,就是把匿名性視為區塊鏈分析的可解讀性的一個反因子。
在區塊鏈數據集中匿名性與可解讀性之間的摩擦相對來說還比較小。一個 區塊鏈數據集的匿名性越高,從中獲取有意義的信息的難度就越大。參與 者的身份提供了其行為的上下文環境,而上下文環境則是可解讀性的關鍵構建模塊。
去匿名化 vs. 打標簽
你是什么遠比你是誰要重要。
去匿名化區塊鏈數據集并不涉及了解每個參與者的真實身份。試圖了解每個 用戶的真實身份不僅是一個意義重大的任務,而且也會讓分析工作難以突破 一定的規模。相反,我們可以試著理解一個參與者的關鍵特征來讓我們的分析 達到一定程度的可解讀性。因此,不需要清楚地識別每個地址的真實身份,我們 可以給地址打標簽或者附加一些描述性的元數據,來讓其行為具備一定的 上下文環境。
在大規模數據中,打標簽常常要比個體識別更有效果。理解區塊鏈生態系統 中特定個體的行為當然會讓分析達到更個性化的程度,但是對于在宏觀層面 理解行為的趨勢就顯得相對受限了。

因此,相對與對區塊鏈地址的個體真實身份的識別,去匿名性的挑戰與地址 的關鍵性屬性的標注的關系更大。我們如何實現這一點?
機器學習是解藥
標注或者去匿名化區塊鏈的思路可以讓區塊鏈分析更好地生態中已知參與者 的行為模式和特征。直覺上我們可以考慮創建一些規則來分析區塊鏈生態系統 中的不同成員,例如:
如果一個地址持有大量比特幣地址并且一次執行100個交易,那么這是一個交易所地址...
雖然很有吸引力,但是基于規則的方法將很快失效,無法再提供有用的信息。 下面列出了部分原因:
- 預置知識的完整性:基于規則的分類會假定我們對于如何識別區塊鏈生態中的 不同參與者有足夠的知識。這顯然是不正確的假設。
- 持續的變化:區塊鏈解決方案的架構一直都在演變,這對任何嵌入的規則而言都是挑戰。
- 特征屬性的數量:創建一條有兩三個參數的規則很簡單,但是試圖創建一條有幾十個 甚至上百個參數的規則就沒那么簡單了。要識別出像交易所或OTC柜臺這樣的 地址需要大量的特征。
因此我們不能使用預置的規則,我們需要一種可以從區塊鏈數據集中學習模式的機制 來自動推斷出有意義的規則讓我們可以標注相關的參與方。從概念上來說,這是一個 經典的機器學習問題。
從機器學習的觀點,我們應該從兩個主要途徑來考慮應對去匿名化的挑戰:
- 無監督學習:無監督學習聚焦于學習指定數據集中存在的模式并識別相關分組。在 區塊鏈數據集的上下文中,可以使用無監督學習模型基于地址的特征將其匹配到 不同的分組中并對這些分組進行標注。
- 監督學習:監督學習方法可以利用已有的知識來學習指定數據集中的新的特性。 在區塊鏈上下文中,可以使用監督學習方法基于已有的交易所地址數據集訓練一個 模型來識別出新的交易所地址。
去匿名化或者給區塊鏈數據集打標簽很少是只用監督學習或者只用非監督學習, 更多的情況下需要兩種方法的結合。機器學習模型可以有效地學習區塊鏈生態 系統中特定參與者的特征,并利用這些特征來理解其行為。
在使用區塊鏈ETL工具將區塊鏈 原始數據加載到數據庫或大數據分析平臺后,將標注層引入區塊鏈數據集是進行更有 價值的區塊鏈數據分析的一個關鍵挑戰。這些標簽提供了更好的上下文環境,也讓區 塊鏈分析模型具有更好的可解讀性。不過盡管我們有機器學習這樣強大的工具,去匿 名性依然是分析理解區塊鏈生態系統的道路上一個不可忽視的重大路障。