以三步之力掘金大數據
作者:Informatica高管David L
以往,您不得不選擇在某一時間對企業至關重要的數據,并舍棄其余數據。而如今,各家企業均不希望舍棄大數據,因為這些大數據可能會在日后很有價值。利用 NoSQL,您便可以經濟高效地存儲所有數據,以供將來使用。
作為大數據存儲問題的解決方案,NoSQL 倍受贊譽。由于存儲方面的限制以及缺乏靈活性的流程,SQL 以及其他常見關系數據庫無法處理非結構化大數據。而 NoSQL 則倍受支持者的廣泛贊譽,因為它可以存儲無限量的數據,并能處理不斷變化的數據架構。但 NoSQL 并不能替代以前的分析技術。它是一款附加工具,專門處理新型數據所帶來的新問題。
以往,您不得不選擇在某一時間對企業至關重要的數據,并舍棄其余數據。而如今,各家企業均不希望舍棄大數據,因為這些大數據可能會在日后很有價值。利用 NoSQL,您便可以經濟高效地存儲所有數據,以供將來使用。
缺乏靈活性也是一個問題。在典型數據庫體系架構下,很難更改數據架構。如果發生意外變更,或者需要重新對數據模式進行排序,則系統可能會發生中斷,并且問題可能會對下游產生影響。而使用 NoSQL 數據庫,則無論架構如何,您均可注入數據。
請按照下面三步進行操作,進一步展現大數據的價值:
1.了解數據。通常,您掌握有大量數據,而在這些數據中,有些是您所需的,而另一些則對您毫無用處。如果數據來自不同的來源,您仍需要了解數據集之間的關系。“讀取時架構”技術并不意味著您無需了解數據集之間的關系。相反,您必須確定并修復兩個或更多文檔或數據集之間的嵌套或聯接關系。這時,對于分析至關重要的屬性應盡可能地符合標準,才能獲得有效的初始結果。
2.處理數據。接下來,使用具有 NoSQL 數據庫或 Hadoop 處理能力的系統來分析您的數據。通過篩選您的綜合數據,并從中挖掘價值。在注入并關聯相關數據后,盡早確定該數據在分析中的用途。如果數據研究人員認為數據沒有用處,則您就不需要在數據的結構化、清理和準備環節上浪費時間。如果該數據無法解決您的問題,請跳過第 3 步,并返回第 1 步,了解新的數據集。但是,請保留已有數據,因為它可能會在日后用到。
3.轉換數據。如果您認為數據有用,請對數據進行準備,以便進行深入處理,并由數據研究人員之外的更多分析人員使用。如果您采用手動編碼方式進行必要的轉換、標準化和清理工作,則此方法通常速度緩慢,并且不能長久使用。應使用一種工具來處理不同的數據源,其中包括復雜數據以及來自 NoSQL 數據庫的數據。然后,將它們轉換為可供用戶閱讀的有用信息。
這就像淘金。為了找到一盎司的黃金,您必須挖掘數噸礦土。只要您具有一部強大的引擎,能夠篩選掉沒有用的“渣土”,并能不斷創造性地發現相關業務問題,您就能找到有價值的“黃金”。
責任編輯:鳶瑋