聊聊關于常用數據類型一二三
數據分析師的工作中最離不開的就是數據,業務中所有的情況都離不開數據這個載體,今天就來看下數據的都有哪些類型以及它們有什么特點。
數據是用某種計量尺度對事物測度的結果,采用不同的計量尺度會得到不同類型的數據,數據包括:各種數字、文字、圖像、音頻、視頻及它們的組合等多種格式。
1.數據的分類
由于事物有簡單和復雜的,如用戶的外貌高矮等特征較直觀,用戶的偏好則不直觀;有的差異可以用數量度量,有的則只能用分類度量。所以統計量就有定性、定量之分,對統計數據的屬性、特征進行分類、標示和計算叫度量,分類見下圖:

(1)定性數據,又叫分類數據。它用于確定數據的屬性,不支持算術運算,只用于說明事物的品質,可能是文字或數字,可以細分為兩類:
①無序數據。如:人的性別可以分為:男,女,未知3類,也可以把它們記為0,1,2;學生的成績可以分為:及格,不及格……為了便于理解,一般可按慣例來定義,也可以按具體的業務需求等。該類數據的用數字表示時僅表示不同類別的品質是什么,而不表示量的順序或大小,該類數據尺度的數學特征是“=”或“≠”。
②順序數據,無序分類數據不要求有順序,順序數據是有序的。如:空氣污染可以分為:優,良,輕度污染,中度污染,重度污染,其中后面一級都比前面一級的程度更嚴重,也可以用1,2,3,4,5來標識這幾種分類;學生的成績也可以分為:優秀,良好,及格,不及格,后面一級的數據也都比前面的更差。此時的尺度不能表明級別的量,僅能表明其等級差異,該類數據尺度的數學特征是“>”或“<”。
(2)定量數據,又稱為數值型數據,用于說明事物的數量,形式是數字,也可以分為兩類,主要按數值是否連續劃分:
①離散型數據,離散型是通過計數得到的,增長量不固定,比如:北京市上月的空氣質量有20天是優,本月共10天優;北京市去年凈流出200萬人,今年凈流出100萬人。它不僅能對事物區分不同的類型,還能對其排序,做數學運算。
②連續型數據,這是一直疊加上去的,增長量可以劃分為固定的單位。如:人的年齡是1歲,1.2歲,1.5歲,2歲......人的身高1.5米,1.51,1.52......
不管是什么類型的數據,定義數據時,有邏輯地劃分、表達更易讓人理解、方便計算。
定性與定量數據的關系:定性數據與定量數據相互補充,定性是定量的前提、依據,定量使定性更加具體、準確,結合使用才能通過比較來分析、說明問題。這四類數據的層次一類比一類高。
因不同類型的數據采用的處理、分析的統計方法不同,所以區分度量的層次、數據的類型很重要。如,對無序數據,通常計算出各組的頻數或頻率,計算其眾數和異眾比率,進行列聯表分析和x2檢驗等;對順序數據,可以通過其中位數和四分位差,從而估計樣本數據的總體;對離散數據還可以用更多的統計方法進行處理,如計算各種統計量、進行參數估計和檢驗等。
適用于低層次測量數據的統計方法,也適用于較高層次的測量數據,因為后者具有前者的數學特性,但前者不具備后者的特性,所以反之不成立。如:描述數據的集中趨勢時,對無序數據通常計算眾數,對順序數據通常是計算中位數,但對連續、離散類的定量數據也可以計算眾數和中位數。反之,對于離散和連續數據可以計算平均數,但對于無序數據和順序數據則不能計算平均數。理解這一點,則有助于分析時選擇合適的統計分析方法。
2.數據的質量
數據質量的好壞甚至能決定我們分析的成功與否。評價數據的質量主要從內容質量、表述質量、約束標準三方面著手。
(1)內容質量
內容質量是數據最基本的特征,包括相關性、準確性、及時性,這是數據質量的基本特征,缺少其中一個,數據就失去了轉化為信息的作用。
①相關性
相關性指數據是否正是用戶感興趣的統計數據,它反映了數據滿足需求的程度,相關性與可用數據是否是用戶最關心的主題有關。由于對相關性的評價是主觀的,會隨用戶需求目標的改變而改變,所以要平衡不同用戶的需求目標,在給定的資源條件限制下,盡可能滿足大部分用戶的大部分需求。
②準確性
準確性指觀測值或估計值與未知的真實值之間的距離(接近程度),通常用統計誤差來衡量,它是數據質量的基礎和核心。一般地,誤差分為系統誤差和隨機誤差。因可能會受到成本、環境等各種限制,完全準確幾乎是不可能的。所以只要是誤差已降低到用戶可以接受的地步即可。
③及時性
與用戶需求相關且準確的數據如果沒有在用戶做出決策之前傳遞給他,那么該數據對用戶來說就是沒用的。所以,及時性也是統計數據能否滿足用戶需求的重要特征。如果要統計的現象變化較快,則對該類統計數據的及時性要求高;如果該現象變化較緩慢,則對及時性要求不高。
(2)表述質量
僅考慮數據內容的質量是不夠的,多個人一起做需求時,要想被人看到、看懂,必然離不開描述需求相關的多個數據,這時就要考慮表述的質量問題。如:單個數據的內容是正確的,但表述不清晰、不充分,就會影響整套數據的質量,甚至引起誤解。統計數據的表述質量包括可比性、可銜接性和可理解性,這些都是我們做需求、對外提供數據或分析報告時需要注意的點。
①可比性
可比性指同一項目的統計數據在時間上、空間上的可比程度。這要求統計的概念和方法要相對穩定,使用統一的統計制度方法和分類標準,確保統計數據的口徑范圍、計算方法一致,可比較。
②可銜接性
可銜接性指同一統計機構內部不同項目、不同機構及與國際組織間統計數據的銜接程度。這要求所有專業統計項目在統一的統計框架體系、 分類標準下,按統一的方法統計、調查、加工整理、使用統一的方法和程序,同時采用國際統計標準,如國際標準時間等。
③可理解性
可理解性指統計數據便于用戶正確理解、使用的程度。統計數據是提供給用戶使用的,如果用戶看不懂數據、分析報告,也就談不上使用數據。為了恰當地使用從統計機構得到的數據,用戶必須了解所獲得數據的性質。這就要求統計機構在提供統計數據時附帶提供對數據的補充說明。如:提供隱含在有關概念下面的說明、使用到的分類方法、數據收集和加工過程中使用的方法及統計機構自身對數據質量的評價等。
(3)約束標準
在實現統計數據目標的過程中,除了注意統計數據的內容質量和表述質量這兩方面外,還需注意以下兩項約束標準,這體現了數據的質量特征。
①可取得性
可取得性是指用戶獲取數據的便利程度。對于有用的數據,用戶必然要考慮:能得到哪些數據,如何得到這些數據。因此,統計數據必須以一種用戶方便使用且能夠負擔的形式提供給用戶。這要求提供統計數據時,必須列明用戶從統計機構可以取得的統計數據內容,同時方便用戶獲取。
②有效性
有效性指利用統計數據所產生的效益要大于提供該數據的成本。如果相反,則提供這種數據對提供方和使用方來說都是不值得的,這要求在統計數據的其他質量不受大的影響的前提下,盡可能降低統計數據的生產費用,提高效率。