大數據簡介:類型,特征和優點,初學者可以看看
為了理解“'大數據'”,我們首先需要知道'數據'是什么 。牛津詞典將'數據'定義為:
“由計算機執行操作的數量,字符或符號,可以以電信號的形式存儲和傳輸,并記錄在磁,光或機械記錄介質上。”
因此,“大數據”也是一種數據, 但規模巨大。“大數據”是用來描述數據的集合,是體積龐大,但與time.In短成倍增長,術語 小號 UCH數據是如此之大,復雜,沒有一個傳統的數據管理工具,能夠存儲它或有效地處理它。
“'大數據'”的例子
以下是“大數據”的一些例子 -
在紐約股票交易所產生約一兆兆字節每天新的貿易數據。
社交媒體影響
統計數據顯示,每天有 500多TB 的新數據被提取到社交媒體網站Facebook的數據庫中 。這些數據主要是根據照片和視頻上傳,消息交換,評論等方式生成的。

單噴射引擎可在30分鐘 的飛行時間內生成 10 + TB的數據 。每天有數千個航班,數據生成量可達數PB。
“大數據”類別
大數據'可以有三種形式:
- 結構化的
- 非結構化
- 半結構化
結構化的
任何可以以固定格式存儲,訪問和處理的數據都被稱為“結構化”數據。在過去的一段時間里,計算機科學方面的人才在開發處理這類數據的技術方面取得了更大的成功(這種格式在此之前是眾所周知的)并且也從中獲得了價值。然而,現在幾天,我們預見到這樣的數據大小在很大程度上增長的問題,典型的大小正處于多個zettabyte的風靡。這里向大家推薦一個大數據交流圈q裙:894951460。
你知道嗎? 10 21 字節 等于 1 zettabyte 或 10億TB 形成 zettabyte。
通過查看這些數據,我們可以很容易地理解為什么會給出“大數據”的名稱,并想象其存儲和處理所涉及的挑戰。
你知道嗎? 存儲在關系數據庫管理系統中的 數據是 “結構化”數據的一個示例 。
結構化數據的示例
數據庫中的“員工”表是結構化數據的示例

非結構化
任何具有未知形式或結構的數據都被歸類為非結構化數據。除了規模巨大之外,非結構化數據在處理從中獲取價值方面帶來了多重挑戰。非結構化數據的典型示例是包含簡單文本文件,圖像,視頻等組合的異構數據源。現在,組織可以隨時獲得大量數據,但不幸的是,他們不知道如何從中獲取價值。此數據采用原始格式或非結構化格式。
非結構化數據的示例
“Google搜索”返回的輸出

半結構化
半結構化數據可以包含兩種形式的數據。我們可以看到半結構化數據在形式上是一種受限制的,但實際上并沒有用例如關系型DBMS中的表定義來定義。半結構化數據的示例是以XML文件表示的數據。
半結構化數據的例子
存儲在XML文件中的個人數據 -
- <rec> <name> Prashant Rao </ name> <sex>男</ sex> <age> 35 </ age> </ rec> <rec> <name> Seema R. </ name> <sex> Female < / sex> <age> 41 </ age> </ rec> <rec> <name> Satish Mane </ name> <sex>男</ sex> <age> 29 </ age> </ rec> <rec> <name> Subrato Roy </ name> <sex>男</ sex> <age> 26 </ age> </ rec> <rec> <name> Jeremiah J。</ name> <sex>男</性> <年齡> 35 </年齡> </ REC></pre>
數據增長多年

請注意,非結構化的Web應用程序數據由日志文件,事務歷史記錄文件等組成.OLTP系統用于處理結構化數據,其中數據存儲在關系(表)中。
“大數據”的特征
(i)卷 - “大數據”這個名稱本身與巨大的規模有關。數據大小在確定數據價值方面起著非常關鍵的作用。此外,特定數據是否實際上可以被視為大數據,取決于數據量。因此, “交易量” 是處理“大數據”時需要考慮的一個特征。
(ii)多樣性 - “大數據”的下一個方面是它的 多樣性。
多樣性是指異構來源和數據的本質,包括結構化和非結構化。在早期,電子表格和數據庫是大多數應用程序考慮的***數據源。現在,在分析應用程序中也考慮了電子郵件,照片,視頻,監控設備,PDF,音頻等形式的數據。這種各種非結構化數據對存儲,挖掘和分析數據提出了一些問題。
(iii)速度 - 術語 “速度” 是指數據生成的速度。生成和處理數據以滿足需求的速度有多快,這決定了數據的真正潛力。
大數據速度處理數據從業務流程,應用程序日志,網絡和社交媒體站點,傳感器,移動設備等來源流入的速度。數據流量巨大且持續。
(iv)可變性 - 這是指有時可能由數據顯示的不一致性,從而妨礙了能夠有效處理和管理數據的過程。
大數據處理的好處
處理“大數據”的能力帶來多種好處,例如 -
企業可以在做出決策時利用外部情報
從搜索引擎和Facebook,Twitter等網站訪問社交數據使組織能夠微調其業務戰略。
改善客戶服務
傳統的客戶反饋系統正在被采用“大數據”技術設計的新系統所取代。在這些新系統中,大數據和自然語言處理技術正被用于閱讀和評估消費者的反應。
及早識別產品/服務的風險(如果有)
更高的運營效率
在確定應將哪些數據移動到數據倉庫之前,“大數據”技術可用于為新數據創建臨時區域或登陸區域。此外,“大數據”技術和數據倉庫的這種集成有助于組織卸載不常訪問的數據。