成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你的工資是怎樣被平均的?終于有人把平均數、中位數和眾數講明白了

大數據 數據分析
我們在數據處理時,要小心各種陷阱!人們習慣使用統計數據來簡化事物描述,但錯誤的統計方法不僅不能反映事實,還會讓數據變得毫無意義。

有人曾統計了某家互聯網公司的季度財報。結果顯示,該公司員工平均月薪是其他同行的3~4倍。消息一出,立即引起人們熱議。雖然后來這家公司出來辟謠,表明公開的酬金成本包括員工培訓、福利開支、繳納稅金、商業保險、年終獎,但這并沒能讓大眾信服。人們關心的問題是:統計平均工資的方法是否合理?

如果把一個普通員工和世界首富的工資放在一塊取平均值,那么可以想象,普通人的工資幾乎可以忽略不計。在一個企業中,20%的人占據了80%的工資總額。高收入的人比例偏少,但對平均工資的影響很大。

平均工資僅僅是經濟領域的一個例子。生活中,我們會接觸到各式各樣的數據,它們以不同的形態展現。在處理一組數據時,平均值可以很好地代表這組數據的平均水平,但由于削峰填谷,它也勢必會損失一部分信息,只能反映總體特征的一個方面。

想要掌握數據的全貌,就要了解數據的屬性和性質。對于一組數據,我們首先要知道大部分數值落在哪里?也就是說,我們通常選擇數據的“中間位置”,即反映數據集中趨勢的統計量,來表示數據的中心。這里的度量方法有平均數、中位數、眾數等。

01 平均數

平均數也叫平均值、均值,是統計學中最基本、最常用的一種定義一組數據特征的指標,用來描述數據的平均水平。計算平均數可以把所有數據相加再除以數據個數,比如{1,2,3,4,5}的平均數就是3。

盡管平均數是描述數據集最有用的一個統計量,但是它并非總是度量數據中心的最佳方法。最主要問題是平均數對極端值(比如離群點)很敏感,會被少數很低或很高的數值明顯影響。為了抵消這種影響,可以使用截尾均值,即丟棄一部分高低極端值后計算均值。比如跳水比賽,就采用去掉最高分和最低分的截尾均值計分法。

02 中位數

中位數是將數據按大小順序排列后處在中間位置的數,描述數據的中等水平。如果有奇數個數,則中位數是中間值;如果是偶數個數,則中位數一般取兩個最中間值的平均值。它適用于對傾斜(非對稱)數據的度量。

03 眾數

眾數是集合中出現頻率最高的數值,描述數據的一般水平。眾數的個數不一定是唯一的。一組數據中,可能會存在多個眾數,也可能不存在眾數。眾數不僅適用于數值型的數據,對于非數值型的數據也同樣適用。例如,{蘋果,蘋果,蘋果,香蕉,梨,梨}這組數據中,沒有均值和中位數,但是存在眾數—蘋果。

04 眾數、中位數、均值的關系

如果一組數據的平均值、中位數、眾數是同一個數,則說明它的數據分布是對稱的。但這種情況不常見,更多情況下,數據是正傾斜負傾斜,如圖2-1所示。

▲圖2-1 眾數、中位數、均值的關系

收入數據就是典型的偏斜數據,大多數人是工薪階層或退休老人,只有少數幾個億萬富翁。收入數據如圖2-1中的正傾斜數據,大多數人的收入集中在左側,右側有一條長長的尾巴,表示少數人的收入。這種分布不適合用平均數來描述。因為平均數對極端數據非常敏感,一兩個億萬富翁,會拉高整個人群的收入水平線,使得收入均值比人們認知中的平均收入高出很多。

平均工資消除了大量低收入人群和少數巨額收入人群之間的差異。但如果換成眾數也不合適,因為低收入人群占了工資比例的大多數區間。統計工資時的合理選擇是統計中位數,它揭示了一半人和另一半人收入的分界線。

當然,并不是說中位數就是一個比平均數更好的統計量,只是它更適合工資統計。

引入統計量的意義就在于簡化。比如老師告訴你說,孩子考試的排名處于班級里面的后10%,你就應該意識到他的學習成績不太好,學習上要加把勁。在這個過程中,你不需要知道任何關于考試本身的內容,或孩子在考試中到底答對了多少題。一個排名數字,就能讓你了解孩子的學習水平。

不過也正是由于統計量的簡化,它不可避免地會丟失一些信息,其優點也是缺點。許多現象是無法只用一個數字來解釋的。如果單憑一個統計量描述對象具有局限性,我們就應該嘗試獲得更多的數據,以及更多的細節。

關于作者:徐晟,某商業銀行IT技術主管,畢業于上海交通大學,從事IT技術領域工作十余年,對科技發展、人工智能有自己獨到的見解,專注于智能運維(AIOps)、數據可視化、容量管理等方面工作。

本文摘編自大話機器智能:一書看透AI的底層運行邏輯》,經出版方授權發布。(ISBN:9787111696193)

責任編輯:龐桂玉 來源: 大數據DT
相關推薦

2022-03-27 20:32:28

Knative容器事件模型

2021-06-13 12:03:46

SaaS軟件即服務

2021-10-09 00:02:04

DevOps敏捷開發

2022-05-01 22:09:27

數據模型大數據

2020-11-30 08:34:44

大數據數據分析技術

2022-01-05 18:27:44

數據挖掘工具

2021-06-29 11:21:41

數據安全網絡安全黑客

2021-03-03 21:31:24

量化投資利潤

2021-02-14 00:21:37

區塊鏈數字貨幣金融

2022-07-31 20:29:28

日志系統

2022-04-12 18:29:41

元數據系統架構

2022-04-22 11:26:55

數據管理架構

2021-10-17 20:38:30

微服務內存組件

2021-12-03 18:25:56

數據指標本質

2021-03-25 11:24:25

爬蟲技術開發

2020-11-03 07:04:39

云計算公有云私有云

2022-04-27 18:25:02

數據采集維度

2021-10-12 18:31:40

流量運營前端

2021-09-10 18:23:14

Hadoop

2021-09-02 12:30:22

自動駕駛人工智能技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品一二三区 | 99精品免费 | 亚洲激情自拍偷拍 | 欧美午夜精品久久久久免费视 | 成人黄页在线观看 | 亚洲国产一区二区三区在线观看 | 国产黄色av网站 | 午夜免费福利片 | 91小视频在线 | 911精品美国片911久久久 | 91看片在线 | 情侣黄网站免费看 | av毛片| 亚洲精品第一国产综合野 | 日韩福利在线观看 | 亚洲精品1 | 久久国产精品99久久久久 | 国产免费一区二区 | 国产精品视频在线免费观看 | 91日b| 国产夜恋视频在线观看 | 久久免费高清 | 亚洲精选久久 | 中文字幕高清 | 成人h免费观看视频 | 国产日韩欧美激情 | 欧美成视频 | av在线伊人| 91在线资源| 99re在线免费视频 | av在线免费不卡 | 久久最新| 亚洲欧美中文日韩在线v日本 | 国产91精品久久久久久久网曝门 | 视频一区在线 | 久久久91精品国产一区二区三区 | www.操.com| 久久久国产一区 | 天天干天天操天天射 | 免费观看一级特黄欧美大片 | 国产精品美女久久久久久免费 |