你想了解的大數據分析知識都在這里
大數據時代和大數據分析時代已經來臨。到2025年,全球數據領域估計將增長到175ZB。
當然,互聯網流量只是全球創建和存儲的數據餅中的一小部分,其中也包括所有個人和企業數據。如今,整個世界的總數據量介于10至50ZB之間。我們如何處理所有這些數據?通過網絡,個人設備,物聯網等不斷收集數據有什么好處?
答案是:“分析以獲取見解”。
在無盡的數據海洋中的某個地方,存在著問題的答案,這些問題將推動企業、政府和整個社會的未來決策。
但是有了這么多數據,應該從哪里開始呢?
在本文中,我將向大家介紹大數據分析的基礎知識,并幫助理解為什么它如此重要。你將了解它帶來的好處、面臨的挑戰、如何分析數據以及大數據分析領域的諸多問題。
-------------------------------------------------------------------------------------------
目錄
- 什么是大數據分析
- 大數據分析的好處
- 大數據分析挑戰
- 資料類型
- 大數據分析的類型
- 數據分析過程
-------------------------------------------------------------------------------------------
一、什么是大數據分析?
大數據涉及“三個V”:體積、速度、種類。
IBM將大數據定義為一個術語,適用于其大小或類型超出傳統關系數據庫以低延遲捕獲、管理和處理數據的能力的數據集。
大數據具有以下一個或多個特征:高容量、高速度、高多樣性。人工智能(AI)、移動、社交和物聯網(IoT)通過新的數據形式和數據源來推動數據復雜性。例如,大數據來自傳感器、設備、視頻和音頻、網絡、日志文件、事務性應用程序、Web和社交媒體,其中大部分實時且大規模生成。
大數據分析使用先進的分析技術來處理龐大、多樣的數據集,這些數據集包括從不同來源收集的多種形式的數據(結構化,半結構化和非結構化數據),大小從TB到PB。
二、大數據分析的好處
大數據洞察力可以為公司的營收和營收帶來重大利益。從幫助發現根本問題到更好地了解客戶和運營,再到通知交流,大數據洞察力對組織的影響幾乎無窮大。
1、大數據分析在業務中的好處
更快,更明智的決策:實時處理和分析數據的能力意味著公司可以立即采取行動來解決問題,調整策略或破譯市場趨勢。
高效的運營:許多公司使用大數據分析來獲取有關內部供應鏈或服務的見解,允許他們進行更改并根據最新信息簡化運營。
降低成本:公司不僅可以通過提高運營效率來降低成本,而且當今的大數據分析基礎架構的成本要比過去的數據系統低得多。借助云,公司不再需要建立整個數據中心、管理硬件或雇用大型IT人才來維持工作。這些基于云的分析“堆棧”意味著他們可以從自己的數據中獲得更多收益而無需花費很多資金。
改進的產品或服務開發:實時的市場,客戶或行業洞察力可以幫助公司構建下一個出色的產品,或創建客戶急需的服務。
2、大數據分析在政務中的好處
大數據分析的影響并不僅限于私營部門。如今,政府利用大數據為新的政策議程提供信息,對基礎設施進行全面改進,并投資于新的社會計劃。以下是一些公共部門工作的大數據分析的最新示例。
公共教育:教育部使用大數據來改善教學方法和學生學習。高等教育機構應用分析來提高服務質量,從而提高學生的成績。
經濟法規:大數據分析有助于從歷史經濟數據創建財務模型,以制定未來的政策。證券交易委員會使用大數據來規范金融活動,發現不良行為者并發現金融欺詐行為。
環境保護:二十多年來,能源部在其研究中一直使用數據分析來更好地預測天氣模式、森林火災和其他環境風險。
三、大數據分析面臨的挑戰
盡管大數據應用程序在企業中無處不在,但是部署大數據分析策略的公司和政府仍然面臨許多挑戰。
1、數據增長
如前所述,數據創建的速度驚人。企業使用大數據分析面臨的最大挑戰之一是存儲和分析每天收集的所有數據。使得這一點特別困難的是必須進行分析的非結構化數據量(稍后會詳細介紹)。
如果公司要使用數據,則必須將其存儲在某種類型的分析數據庫中,例如數據倉庫。隨著人工智能(AI)和機器學習(ML)應用的興起,數據湖也經常被使用。當然,存儲只是其中的一部分,維護沒有錯誤、重復和過時或“壞”數據的健康數據庫,還需要人力資源進行管理。這就是為什么當今一些以數據為主導的公司擁有由工程師、數據科學家和分析師組成的大型數據團隊的原因。隨著公司擴展和創建更多數據,隨著時間的推移,數據基礎架構變得越來越復。
2、資料整合
如今,數據是從各種不同的來源收集的,包括企業應用程序,第三方軟件,社交媒體,電子郵件服務器等,這使得將數據集中到單個數據庫中進行分析變得很困難。
由于數據集成仍然是公司面臨的挑戰,因此現代ETL和ELT工具不斷涌現,它們通過自動執行數據收集和傳輸到數據倉庫來簡化數據管道。這項技術使數據集中成為可能,并消除了業務團隊無法訪問的數據孤島。
3、及時的見解
就像這個世界上大多數事物一樣,數據也會過期。隨著當今創建新數據的速度加快,團隊必須利用最新信息來制定決策,這不僅是必要的,而且也是當務之急。否則,他們冒著按照過時的假設進行操作的風險。
由于數據的保質期相對較短,因此組織必須在收集數據時實時分析數據。這需要強大的數據系統來在創建數據后立即收集數據,并將其轉換并存儲在分析數據庫中,以便在幾分鐘內就可以對其進行查詢。
4、管治
管理業務數據可能具有挑戰性。如前所述,它在不斷變化、老化并在多個系統之間移動。這可能會難以確保整個組織的數據完整性、可用性、可訪問性和安全性。這就是治理流程的來龍去脈。有了正確的大數據治理策略,數據就可以集中、一致、準確、可用且安全。大數據治理(和數據建模)還允許使用一組通用的數據格式和定義。
數據治理至關重要。如果數據對于業務部門不可用或不準確,則他們將無法做出明智的決策。數據隱私法規的增加也需要其他治理實踐來滿足合規性。這些法規正在推動大量未來的治理策略。
5、安全
數據安全將始終為企業帶來挑戰。數據非常有價值,并且隨著收集的敏感信息量的增加,總會有減輕安全隱患的機會。
一些更常見的挑戰來自需要跟上快速變化的法規和安全形勢。這需要更新安全補丁,并在出現新威脅時更新IT系統。當今的分布式技術框架中固有的漏洞可以為不良行為者提供破壞系統的機會。還普遍使用了虛假數據或反情報信息,這些數據可用于破壞數據庫并阻礙公司從虛構信息中破譯事實。
四、資料類型
1、定量數據和定性數
定量數據:
定量數據由硬數字組成,將其視為可以計數的事物。定量分析技術包括:
- 回歸:預測因變量和一個或多個自變量之間的關系。
- 分類(概率估計):預測或計算個人屬于某個類別的可能性。
- 聚類:基于相似性對總體中的個體進行分組。
定性數據:
定性數據比定量數據更具主觀性,結構性也較差。在業務領域,會遇到來自客戶調查和訪談的定性數據。常見的分析方法包括:
內容分析:用于對不同類型的文本和媒體進行分類。
敘事分析:分析來自各種來源的內容,包括訪談和實地觀察。在進行分析時,確保指標采用公司已使用的格式。例如,如果公司按季度預算,則指標應反映相同的內容。
2、結構化數據與非結構化數據
數據(無論是定量的還是定性的)可以根據信息的性質、信息的收集方式、存儲的位置以及是由人還是由機器創建的,而采用多種形狀。要考慮的數據結構有兩個主要級別:結構化數據和非結構化數據。
結構化數據:
結構化數據是經過嚴格格式化的信息,因此可以在關系數據庫中輕松地進行搜索。通常是定量信息。示例包括名稱、日期、電子郵件、價格以及我們用來查看存儲在電子表格中的其他信息。
結構化數據通過機器代碼進行組織和讀取,從而使使用SQL在關系數據庫中輕松添加、搜索或操作結構化數據成為可能。例如,電子商務在銷售點收集的信息可能包括產品名稱、購買日期、價格、UPC編號、付款方式和客戶信息,所有這些信息很容易在以后搜索或分析以發現趨勢或回答問題。
乍一看,很難僅從結構化數據中提取見解。但是使用分析工具,可能會破譯有趣的趨勢,例如波士頓的客戶傾向于在2月和3月以更高的價格購買特定產品。這種洞察力可能會提醒你在那幾個月內增加零售商店該商品的庫存,以滿足區域需求。
非結構化數據:
非結構化數據與結構化數據完全相反。它通常是定性數據,使用傳統的數據庫或電子表格進行搜索,操作和分析具有挑戰性。常見示例包括圖像、音頻文件、文檔格式或某人的社交媒體活動。
非結構化數據缺乏預先定義的數據模型,因此不容易在關系數據庫中讀取或分析,這意味著需要非關系(或NoSQL)數據庫或數據湖來進行搜索。要從此類數據中提取見解,需要使用高級分析技術,例如數據挖掘、數據堆疊和統計。
非結構化的數據洞察力可以幫助公司了解諸如客戶情緒和偏好、購買習慣等內容。分析這些類型的數據更具難度。但是,有了正確的資源,可以為你帶來競爭優勢的情報。
半結構化數據:
半結構化數據介于結構化和非結構化數據格式之間。該數據具有明確定義的特征,但缺乏嚴格的關系結構。它包括可創建分類層次結構的語義標簽或元數據,從而使其在分析過程中更易于機讀。
大多數人遇到的最常見的日常示例是智能手機照片。用智能手機拍攝的普通照片包含非結構化的圖像內容,但帶有時間戳,經過地理標記并攜帶有關設備本身的可識別信息。一些常見的半結構化數據格式包括JSON,CSV和XML文件類型。
半結構化數據構成了當今世界上生成的大多數數據。想一想每天拍攝的所有照片。半結構化數據通常與移動應用程序,設備和物聯網(IoT)相關聯。
五、大數據分析的類型
有四種主要類型的分析,它們的復雜性和可為組織生成的見解的程度各不相同。盡管有這四個類別,但每個類別都是相互關聯的,可以彼此結合使用,以解鎖更深入,更有意義的理解。
1、描述性分析
描述性分析可幫助你回答“正在發生什么?”的問題。它是最常見的分析形式,也是所有其他類型分析的基礎。
任何看過實時儀表板或閱讀季度報告的人都應該熟悉描述性分析。通常與跟蹤組織內的關鍵績效指標相關。實際上,這可能包括衡量市場營銷和銷售指標,例如第四季度合格潛在客戶的數量。
2、診斷分析
一旦你知道發生了什么,自然會追蹤到一個問題:“為什么發生?” 這就是診斷分析的亮點。
這種類型的分析需要在“儀表板后面”進行深入挖掘,以更好地了解特定結果或持續趨勢的根本原因。在實踐中,診斷分析可以幫助營銷團隊了解哪些廣告系列吸引了合格的潛在客戶。
3、預測分析
預測分析可以幫助回答“未來最有可能發生什么?”
基于過去的趨勢,這種類型的分析使用歷史數據來預測未來的結果。預測分析建立在通過描述性和診斷性分析獲得的見解的基礎上,并使用統計模型來預測未來最可能發生的情況。
4、規范分析
規范分析有助于組織理解“下一步我們該做什么?” 解決當前的趨勢或問題。它比其他分析形式更為復雜,這意味著大多數企業都缺乏部署它的資源。
規范分析通常需要使用高級數據科學和人工智能來消化大量信息,并提出解決現有組織問題的決策。
六、大數據分析流程
如果沒有正確的流程,將很難從組織的數據中獲得分析見解。收集、處理和分析數據的過程與僅原始數據一樣重要。正確的過程可以確保從數據中得出的見解是準確、一致的,并且沒有產生錯誤趨勢。
1、了解數據目標和要求
對公司目標和需求的清晰了解將幫助你從一開始就進行大數據分析。你將收集什么類型的數據?你將如何存儲它?誰來分析?所有這些問題都很重要,最終不僅決定你需要建立的數據基礎架構,而且還決定了你需要哪種類型的分析工具。
2、收集和集中數據以進行分析
明確了解目標后,需要從系統和應用程序中提取數據并將其傳輸到數據倉庫或數據湖。這就是ELT和ETL解決方案發揮作用的地方。它們幫助將數據復制到云倉庫進行分析。這種集中式數據存儲可讓你更全面地了解整個公司的情況,并消除了沿途可能存在的任何數據孤島。可以從應用程序、電子商務事件、其他數據庫等捕獲數據。
3、為分析建模數據
一旦將數據放在中央數據存儲中,就可以從技術上對其進行分析。但是在打開數據大門之前,你可能需要首先考慮數據模型。數據建模定義了數據如何關聯,其含義以及如何一起聯動。一個有效的模型可以使數據易于訪問和使用,并確保人們在適當的環境中使用正確的信息,并且它需要數據與領域專家之間的緊密協作。
4、分析數據
在可查詢的數據倉庫中收集、處理、存儲和建模數據之后,你將需要一個分析工具,該工具可以完成所有數據的搜索并返回可操作的見解以指導業務決策。從實時分析工具中充分了解你的需求至關重要。每個公司都是獨一無二的,需求會有所不同。我們建議評估內部需求,并使采購決策與這些目標保持一致。
還需要注意的是,并非所有分析工具都是相同的。公司通常會為不同的團隊或業務部門部署多種工具。考慮到這一點,這里是選擇分析工具時要考慮的一些準則。
5、解釋見解并告知決策
使用各種類型的分析方法,你可以從公司數據中發現各種見解。可以分析過去,實時跟蹤操作,甚至預測未來可能發生的情況。這些趨勢可以提高競爭優勢,幫助創建更好的產品和服務,提供更好的客戶體驗等等。