如何不使用代碼就能清理和驗證地址數據?
譯文如今,數據已成為一家組織的最大資產之一。無論您想設計客戶旅程還是預測業務未來,數據都是有助于取得成功結果的主要工具。這就是為什么企業主致力于開發定制解決方案以保持數據清潔,尤其是客戶或聯系人數據庫。
但由于公司的多名員工處理、操作和使用聯系人數據集,很快會出現諸多不一致和不準確的地方。然后,需要公司的IT人員構建內部解決方案,神奇地消除數據庫中存在的所有錯誤。
從頭開始編寫每個解決方案
雖然可以編寫用于清理和規范數據集的代碼,但考慮到實施所需的資源量(時間、人員和資金),這絕對是一種低效的解決方案。算上年度維護和升級成本后,它比采用現有解決方案的成本高出兩三倍。
這讓我想起了一位程序員朋友最近告訴我的話:在每個開發人員一生中的某個時刻,他們意識到手工編寫每個解決方案多么低效。有時,改寫市面上現有的解決方案(開源庫或商業產品)比從頭開始編寫解決方案更有效。
我在該博文中解釋一些常見的術語和步驟,以清理和驗證客戶數據庫中的地址。這肯定會幫助您了解在選擇市面上現有的解決方案時要尋找什么。
涉及的常用術語
在我們詳細介紹該過程之前,先了解該領域使用的一些常用術語及其含義。
- 地址標準化
地址標準化(又叫地址規范)是根據權威標準(比如美國的USPS地址標準)更新地址的格式。
這個過程確保地址以可接受的格式存在——包括正確的拼寫、縮寫、地理編碼以及附以ZIP+4值。
- 地址驗證
地址驗證是針對權威數據庫(比如美國的USPS)運行標準化地址的過程,并確保這些地址是真實有效的——這意味著它們是國內可郵寄的有效地點。
兩者之間的區別
有時這兩個術語可以互換使用,但兩者之間存在差異。地址應先標準化,以遵循可接受的格式。一旦完成標準化,它們現在可以進行驗證,以核查這些地址是否真實有效。
標準化和驗證地址的過程
這個過程涉及以下步驟:
1. 分析地址
在針對地址數據庫執行任何活動之前,評估當前狀態很重要。
這時候地址分析非常有用。它識別含有不完整或缺失地址信息的記錄,以及不遵循標準化模式的記錄。
地址分析突出顯示了數據集可能存在的清理和標準化機會。此外,該配置文件報告通常在流程結束時再次生成,以便比較初始報告和結束報告,以查看數據集是否仍存在錯誤。
2. 解析地址
USPS地址標準化始于將每個地址解析成子組件。這很重要,因為地址大多作為數據集中的單個字段來予以存儲。針對整個字段運行驗證檢查不如針對子部分運行檢查來得準確。因此,通常將單個地址解析成街道號碼、街道名稱、郵政編碼、城市、州和國家。
3. 地理編碼
在這個步驟中,為所有地址計算緯度和經度地理編碼。除此之外,根據計算出的地理編碼,您還可以找出5位數的郵政編碼和4位數的送貨區域路線。
4. 重構地址
一旦所有這些信息被計算和標準化,現在不是以所需的格式重新格式化和重建地址的時候。這步完成后可以保存在數據庫中,或者如果需要,可以隨時隨地實時計算。
這種格式的一個例子是USPS地址標準,該標準要求送貨地址有三行——第一行含有收件人姓名,第二行含有街道地址,第三行含有城市、州和郵政編碼。
5. 驗證地址
當地址有所有必要組件時,您現在可以對照任何權威數據庫驗證其有效性,以查明該地址是不是真實的、可郵寄的位置。
除了驗證外,這類數據庫還可以告訴地址類型——住宅或商業,以及其他一些次要細節。
結論
現在你已有了清理和驗證地址數據的5步無代碼流程。從頭開始實施這樣的解決方案可能非常具有挑戰性,可能需要數年時間才能提高結果的準確性。
如今業界有許多地址驗證工具,包括一些經過CASS認證的工具,這是USPS分配給提供準確地址標準化和驗證服務的軟件供應商的認證頭銜。
這類工具絕對可以提高您團隊的運營效率,并使他們能夠通過使用正確、準確的位置信息,為客戶設計卓越的體驗。
原文標題:??How to Clean and Verify Address Data 'Without Using Code'??,作者:Data Ladder