第2期:非結構化數據分析技術是忽悠
大數據概念興起的同時也帶熱了非結構化數據分析。傳說一個企業中80%的數據都是非結構化數據,如果按占據空間來算,這個比例大體不假,畢竟音視頻這類數據真地很大。有這么大的數據量,需要進行分析是很自然的事了,而要分析當然就要有相應的技術手段了。
那為什么說非結構化數據分析技術是忽悠呢?
不存在通用的非結構化數據計算技術
非結構化數據五花八門,有聲音圖像、文本網頁、辦公文檔、設備日志、….;每類數據的都有各自的計算處理手段,比如語音識別、圖像比對、文本搜索、圖結構計算等等,但是并不存在一種適用于所有非結構化數據的通用計算技術。語音識別的方法不能用于圖像比對、文本搜索和圖結構計算也扯不上關系。
一個廠商如果擅長某種技術,那一定會直接宣稱自己專業于該領域,而不會泛泛地說自己精于非結構化數據分析。比如人臉識別做得非常精準、或是文本敏感詞挖掘的專業公司,顯然這樣更容易定位用戶和應用場景。如果一家公司只說自己擅長非結構化數據分析而不指明具體的領域,那就不知道到底能做些什么了。
面向非結構化數據的通用技術只是存儲
雖然許多專業技術領域都可以歸類為對非結構化數據的處理,但總體應用范圍并不廣泛,大多數用戶還用不上這些專門技術,而只是需要把這些數據存儲下來。非結構化數據沒有通用的分析計算技術,但存儲和相應的管理(增刪檢索等)是可以通用化的。非結構化數據占據的空間較大,經常需要不同于結構化數據的特殊存儲手段。
不過,如果不是數據量特別大,或者有高并發的檢索需求,大多數的網絡文件系統(如HDFS)已經能夠勝任存儲和訪問需求。廠家如果只喊能做非結構化數據的存儲和基本管理,那會顯得沒什么技術含量。所以這些廠商會不遺余力地往分析上靠,但沒有實質東西。而能提供大容量高性能的訪問的專業存儲廠商卻只會喊存儲,而不會刻意提及分析。
通用分析技術在于相伴產生的結構化數據
采集非結構化數據的同時,常常會伴隨著采集許多相關的結構化數據,比如音視頻的制作人、制作時間、所屬類別、時長、…;有些非結構化數據經過處理后也會轉變成結構化數據,比如網頁日志中拆解出訪問人IP、訪問時刻、關鍵搜索詞等。所謂的非結構化數據分析,經常實際上是針對這些伴生而出的結構化數據,這個領域有不少較為成熟的通用計算技術(比如關系代數和關系數據庫)。
但現在只喊結構化數據顯得不夠時髦,為了吸引用戶,就要把本質上的結構化數據分析說成是非結構化數據分析了。
作為需求方的用戶,這時候需要清楚地知道到底要對這些數據做什么處理。如果只是簡單存儲,那上個HDFS這類開源網絡文件系統就夠了;如果有高性能訪問需求,那要找專業的存儲廠商;如果其實要分析的是伴生出來的結構化數據,那就是已經熟悉的數據庫類業務了;如果真有特定的處理需求,那也是找專門領域的廠商和技術。總之,不要泛泛地只說需要非結構化數據分析。