看看就知道,術語不一定很神秘!
譯文【51CTO.com快譯】
拿來橫跨商業界和技術界的一大潮流,加上無數希望大發其財的廠商和顧問,你得到的是什么?一大堆定義不明確的流行語。
在大數據行業,周圍的炒作催生出了全新的術語。需要一點闡明?不妨閱讀這份小型術語表,它們著重介紹了你應該了解的一些主要的數據類型。
1. 快數據
大數據行業最耀眼的術語就是“快數據”(fast data),這個術語越來越頻繁地出現在我們面前。它是指“效用隨著時間而下降的數據”,Ovum公司的首席分析師托尼·貝爾(Tony Baer)說,他早在2012年杜撰了這個詞。
快數據是指需要實時獲取并分析的Twitter消息內容和流數據,能夠支持即時決策和響應。資本市場交易公司可能依賴快數據來進行算法交易或高頻交易。
企業策略集團的高級分析師尼克·魯達(Nik Rouda)說:“快數據可能指幾個方面:快速攝取、快速流式傳輸、快速準備、快速分析、用戶快速響應。它主要是一種營銷宣傳,但是從諸多方面表明了需要性能。”
貝爾表示,帶寬增加、商用硬件、內存價格下降和實時分析,這些因素共同促成了快數據的興起。
2. 慢數據
與快數據相對的是“慢數據”(slow data),即以相對緩慢的步伐慢慢滲入的數據,因而需要不太頻繁的分析。貝爾以監視海洋潮汐的設備為例――對于大多數用途而言,不需要實時更新。
通常而言,這種數據更適合捕獲到數據湖中以及隨后的批處理。
3. 小數據
“小數據”(small data)是指“裝在一臺筆記本電腦上的任何數據”,分析咨詢公司KDnuggets的總裁格雷戈里·皮亞泰特斯基-夏皮羅(Gregory Piatetsky-Shapiro)說。
實際上,這個術語承認了這一事實:“許多分析工作仍在筆記本電腦上針對幾個數據源中的某一個來未執行,使用輕量級應用程序,有時甚至僅僅是Excel,”魯達如是說。
4. 中等數據
至于“中等數據”(medium data),它介于兩者之間。
貝爾表示,你在談論數PB的數據時,那是大數據,你可能會使用Hadoop和MapReduce之類的技術來分析它。但是,“大多數分析問題并不涉及PB級數量,”他補充道。如果分析的數據處于中間規模,那它就是中等數據,你可能會使用Apache Spark。
5. 暗數據
“暗數據”(dark data)通常是指被忽視、未充分利用的數據。
魯達解釋:“人們不知道暗數據的存在,不知道如何訪問它,不被允許訪問,或者利用暗數據的系統還沒有建立起來。”他表示,暗數據“往往”出現在數據庫、數據倉庫和數據湖。
這種受限制或記錄不翔實的數據池常常被稱為“暗網”(dark web)。貝爾表示,揭示暗數據通常是數據發現服務的范疇,常常要用到機器學習算法。
6. 臟數據
最后但并非最不重要的是,“臟數據”遠不如聽起來那么有趣。相反,它就是被清理之前的數據集。
貝爾說:“事實上,數據在你清理之前是臟的。除非你對數據執行了一番操作,否則數據不會干凈。”
魯達特別指出,這些操作包括數據準備、數據充實和數據轉換。“否則,就有可能出現錯誤的答案。”
再補充一點…...
使用數據來拓展公司業務需要的絕不僅僅是了解術語。
弗雷斯特研究公司的副總裁布賴恩·霍普金斯(Brian Hopkins)說:“已變得隨時可用的所有數據與我們能夠用來獲取洞察力之間存在著差距。”
霍普金斯表示,消除這個差距可能需要使用Hadoop,也可能借助簡單的自助式工具來完成。無論哪種方式,需要把數據結合起來,有意義的行動才會隨之出現。
他說:“廠商和分析師擅長制造新的流行語。”“我給CIO們的建議是,高度關注將會改變貴公司業務的結果”,而不是深陷術語當中無法自拔。
原文標題:6 'data' buzzwords you need to understand,作者:Katherine Noyes
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】