談談大數據認知
大數據(big data),IT行業術語,是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據分析通俗的講就是將海量混雜的數據,通過利用各類手段統一協調成一個有機整體,然后以不同的可視化分析工具直觀呈現給用戶,讓其通俗易懂的發現數據中的一些關鍵因素點。以保障相關人員提升工作效率及分析數據核心指標,并且為企業帶來收益價值點。
5V特點
大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
大量化Volume:非結構數據的超大規模和增長,總數據的80~90% ,比結構化數據增長快10倍到50倍,是傳統數據倉庫的10倍到50倍。IDC預計到2020年,全球將總共擁有35ZB的數據量。
很多人日常用到或者了解到的僅限于bit、Byte、KB、MB,其實在其之上還有更多維度的統計,例如:最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的十次方)來計算:
舉一個例子:
一般情況下,大數據是以PB EB ZB為單位進行計量的:1PB相當于50%的全美學術研究圖書館藏書的信息內容;5EB相當于至今全世界人類所講過的話語;1ZB如同全世界海灘沙子數量總和;1YB相當于7000位人類體內的微細胞總和。
- 價值化Value :大量的不相關信息,對未來趨勢與模式的可預測分析,深度復雜分析,快速提煉出海量數據資源中的那部分有價值的信息,為客戶帶來真正的受益點。(例如:機器學習、人工智能、數據匯聚等)
- 多樣化Variety :大數據的異構和多樣化,很多不同的形式(結構化數據、非結構化數據、半結構化數據)呈現方式也不僅僅限于文本、圖像、接口、文件、數據庫類、標準格式等。
- 快速化Velocity:實時分析而非批量式分析,數據的快速提取、清洗、匯聚、標簽化、具體到人事物中,立竿見影而非事后見效。時刻都會處理萬億級以上的數據,因此具有時效性,高速處理、響應迅速。
- 真實性Veracity:大數據中的內容是與真實世界中的發生息息相關的,研究大數據就是從龐大的網絡數據中提取出能夠解釋和預測現實事件的過程。提高數據的準確、可依賴程度,保證數據質量。也可以作為未來某種趨勢的預判及以數據來提取到真正的需求點。
價值體現
大數據可以實現的應用可以概括為兩個方向:一個是精準化定制;第二個是預測。
精準化定制定制可根據不同業務需求進行設計開發,通過數據去解決一些行業應用難點,例如:智慧城市、可視化大屏、警務大數據、金融大數據等,更多居于toB領域。
而預測類:比如像通過搜索引擎搜索同樣的內容,每個人的結果卻是大不相同的。會利用大數據推薦算法等模型來進行推送。再比如精準營銷、百度的推廣、淘寶的喜歡推薦,或者你到了一個地方,自動給你推薦周邊的消費設施等等。頭條新聞信息推薦等等,更多趨向于toC領域。
人物畫像分析,通過對人物的準確、全方位的刻畫,深入挖掘其數據間的內在關系,將零散雜亂的信息組織成有機整體。快速分析出人物的各類屬性指標:身份信息、行動軌跡、經濟情況、活動偏好、等級劃分等,有效地利用分析結果,發現關鍵數據指標。
數據匯聚、分析、保護
數據聚合針對內外部數據進行多維數據快速匯聚。可通過實時接口、文件自動導入、主動查詢等方式接入。并可對各類格式的數據進行智能清洗入庫。
匯聚時,需要對各類來源數據進行精準提取:例如利用一些智能終端采集設備,提取入庫后,對海量數據進行快速的清洗處理,將其以結構化數據、非結構化數據、半結構化數據為主體劃分,而后進行標簽化劃分,利用圖數據庫賦予其不同標簽,再下發到具體分析的人事物中,以多樣可視化分析圖表的形態直觀展示數據結果。
可視化分析可通過利用不同的分析工具,以關系圖、時序圖、位置軌跡、詞云、時光軸、畫像分析、可視化大屏等可視化方式進行分析。(針對不同的需求,可利用將多個工具結合進行全維度數據分析)
數據分級保護針對數據在應用時進行分級和脫敏過濾,保障數據安全。從數據提取、清洗、入庫、分類、標簽化并具體到人事物環境進行層層加密處理,保障全流程安全。
具體可分為:數據安全、應用安全、環境安全等方面。
工具的選用
1. 基礎工具
傳統分析/商業統計:
Excel、SPSS、SAS 這三者對于研究人員而言并不陌生。
Excel作為電子表格軟件,適合簡單統計匯總需求,由于其方便好用,功能也能滿足很多場景需要,所以一直受用于廣大用戶基本統計分析。
SPSS(SPSS Statistics)和SAS作為商業統計軟件,提供研究常用的經典統計分析(如回歸、方差、因子、多變量分析等)處理。SPSS 輕量、易于使用,但功能相對較少,適合常規基本統計分析。
SAS 功能豐富而強大(包括繪圖能力),且支持編程擴展其分析能力,適合復雜與高要求的統計性分析。
以上幾種軟件屬于傳統性的數據統計軟件,此處不做過多的解說。要進行具體的數據匯聚并且可視化展示還需要利用一些可視化工具軟件,如下:
2. 可視化工具
Echats:
- 千萬級數據可視化渲染能力;
- SVG + Canvas 雙引擎動力更佳;
- 數據樣式分離及扁平配置讓開發更便捷;
- 首創無障礙訪問支持;
- 微信小程序、PPT,哪里都能用;
- 數據自由刷選:自由選擇數據,發掘數據背后的更多秘密;
- 多圖表聯動查看:對多個圖表數據聯動查看,進行多維有效分析。
當前接入是免費形式,通過選取不同的可視化工具類圖展示符合業務需求的類后,進行數據的呈現,由于非矢量關系圖標化,若數據過多時會存在前臺渲染加載卡頓情況。
Highcharts:兼容 IE6+、完美支持移動端、圖表類型豐富、方便快捷的 HTML5 交互性圖表庫。
會有部分收費對接資源,基本展示與Echat相近,界面體驗更友情化。
AntV:
GraphinStudio 是基于 Graphin 開發的通用關系分析平臺,具有關系擴散,關系發現,布局切換等功能。
- 完善的圖形語法:數據到圖形的映射,能夠繪制出所有的圖表。
- 全新的交互語法:通過觸發和反饋機制可以組合出各種交互行為,對數據進行探索。
- 強大的 View 模塊:可支持開發個性化的數據多維分析圖形。
- 雙引擎渲染:Canvas 或 SVG 任意切換。
- 可視化組件體系:面向交互、體驗優雅。
- 全面擁抱 TypeScript:提供完整的類型定義文件。
相對來功能展示更強大,可以支持不同圖形標簽選擇,關系屬性關聯,更加靈活的展示分析結果信息。
3. 不同圖表的選用
通過圖表形式展現數據,幫助用戶快速、準確理解信息。準確、快速是可視化的關鍵。借助于圖形化手段,清晰有效地傳達與溝通信息同時對數據進行交互分析。
(1)柱形圖
通過柱狀圖,可以清晰展示各個數據類型的統計數據信息,并且可以直觀進行對比,發現趨勢
適合的數據:一個分類數據字段、一個連續數據字段。
功能:對比分類數據的數值大小。
數據與圖形的映射:
- 橫軸可展示具體的時間維度區間
- 縱軸可展示數據量的多少
- 不同類別可以不同色塊進行區分
適合的數據條數:根據頁面大小靈活設計,建議不超過1個月數據區間。
(2)散點圖
散點圖也叫 X-Y 圖,它將所有的數據以點的形式展現在直角坐標系上,以顯示變量之間的相互影響程度,點的位置由變量的數值決定。
適合的數據:兩個連續數據字段
橫軸可展示具體的時間維度區間或者不同的屬性描述,縱軸可展示數據量的多少。不同類別可以不同色塊進行區分。
備注:可更具實際情況對點的形狀進行分類字段的映射。點的顏色進行分類或連續字段的映射。
可視化分析
1. 用戶畫像產品
用戶畫像: User Profile用戶畫像是通過搜集和分析用戶行為喜好、靜態屬性信息和消費習慣信息等數據,將用戶的特征信息抽象化的進行展示。
用戶畫像的標簽表征用戶的興趣、愛好、習慣特點,為標簽計算權重來表示用戶對標簽特征的需求程度,使用戶的特征得到量化。更多區域用戶消費行為的分析統計,可預判用戶的消費特性,通過數據分析結果來幫助運營人員抓住用戶消費痛點。
2. 推薦系統
推薦系統有很多中,其中有一種是用戶畫像的用處,即利用用戶畫像做個性化推薦、廣告推薦、活動推薦、內容推薦等。利用相關的算法,可以幫助其廣告精準推廣營銷,精確推送給用戶其所喜好的閱讀信息等
像今日頭條有自己強大的算法模式:
- 我們初期可以根據相關的線性函數來做數值推理或者用戶群中劃分;
- 根據喜好相同的不同用戶去推送各自不同的相似欄目信息內容;
- 通過后臺大數據的匯總,進行抽樣隨機選擇的方式,推理出高概率相符信息內容進行推送。
3. 可視化大屏
上圖為可視化大屏展示,其中可針對不同業務需求進行定制化開發:(可用于企業高端效果展示,關鍵數據指標可視化展示,工作匯報總結,領導檢驗等)
- 3D實時數據模型可視化數據展示,采用逼真的視覺效果呈現幫助用戶理解、展現科技創新形象;
- 提供多種數據交互場景,可進行三維視角觀測、切換、拖拽、縮放等交互方式,縮短用戶對態勢認知成本,提升決策效率;
- 地圖以區域定制化展現整體數據分布動態;各類標簽屬性進行相關數據的展示。多維關鍵數據指標為整體數據大屏做支撐;
- 可視化大屏屬于定制化功能模塊,可支持3D炫酷建模效果,城市全景地圖下探,街道立體效果展現及關鍵數據可視化特殊標識。
總結
此次是對大數據認知的一個較為寬泛的闡述,后續會進行各個模塊的細化說明。其實數據總是與我們息息相關,通過大數據是為我們提供一個有效的手段來使得各類價值信息呈現更為明確。大數據離我們并不遙遠,仍需不斷地去探索與發現其潛在價值與意義。