成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這四件事帶你走出深陷的數(shù)據(jù)分析迷宮

譯文
大數(shù)據(jù)
相信每位朋友都遇到過(guò)這樣的情況:將來(lái)自各類渠道的數(shù)據(jù)收集起來(lái),通過(guò)A/B測(cè)試進(jìn)行驗(yàn)證,希望借此得出分析結(jié)論。但在檢查結(jié)果時(shí),我們發(fā)現(xiàn)這些數(shù)字似乎并不怎么合理。在今天的文章中,我們將共同通過(guò)真實(shí)世界中的實(shí)例,在對(duì)種種錯(cuò)誤的數(shù)據(jù)分析方式的總結(jié)中找出正確的技巧與訣竅。

通過(guò)真實(shí)世界中的實(shí)例,我們將共同通過(guò)種種錯(cuò)誤的數(shù)據(jù)分析方式總結(jié)出正確的技巧與訣竅。

[[167076]]

相信每位朋友都遇到過(guò)這樣的情況:將來(lái)自各類渠道的數(shù)據(jù)收集起來(lái),通過(guò)A/B測(cè)試進(jìn)行驗(yàn)證,希望借此得出分析結(jié)論。但在檢查結(jié)果時(shí),我們發(fā)現(xiàn)這些數(shù)字似乎并不怎么合理。事實(shí)上,數(shù)據(jù)驗(yàn)證也是我們?nèi)粘9ぷ髦械闹匾h(huán)節(jié),而且與編碼一樣需要大量追蹤與調(diào)試。在今天的文章中,我們將共同通過(guò)真實(shí)世界中的實(shí)例,在對(duì)種種錯(cuò)誤的數(shù)據(jù)分析方式的總結(jié)中找出正確的技巧與訣竅。

別急著做出假設(shè)

感覺(jué)上是對(duì)的,并不代表就真是對(duì)的。我們的大腦常常具有誤導(dǎo)性。我發(fā)現(xiàn)很多分析師都因這種失誤而身陷分析迷宮。

下面來(lái)看一種常見(jiàn)的問(wèn)題:變更聚合查詢。

先看以下兩行查詢:

  1. SELECT  
  2.      Month,  
  3.      Group1,  
  4.      Group2,  
  5.      Group3,   
  6.      CONCAT(Group1, “-”, Group2) as NewGroup, 
  7.      SUM(Usage) as total_usage  
  8. FROM usage   
  9. GROUP BY 1, 2, 3, 4, 5 

 

  1. SELECT  
  2.      Month,  
  3.      CONCAT(Group1, “-”, Group2) as NewGroup,  
  4.      SUM(Usage) as total_usage  
  5. FROM usage   
  6. GROUP BY 1, 2 

乍看起來(lái),很多人會(huì)認(rèn)為這兩條查詢的含義是完全一致的。左側(cè)的查詢只是包含了額外的幾列,對(duì)吧?但事實(shí)并非如此。左側(cè)查詢中包含5個(gè)聚合層級(jí),而右側(cè)的只有2個(gè)。左側(cè)的查詢返回的總和數(shù)字更小,因?yàn)槠涠x更為明確。如果將其作為分析流程中的組成部分,那么不同的結(jié)果會(huì)給后續(xù)分析造成嚴(yán)重影響。

聚合錯(cuò)誤是一類非常常見(jiàn)的問(wèn)題,因此即使對(duì)自己的思路很有信心,大家也請(qǐng)務(wù)必再檢查一遍。

Snapshot(快照)問(wèn)題

過(guò)去四年當(dāng)中,身為分析師與教師的從業(yè)經(jīng)歷讓我意識(shí)到一大常見(jiàn)數(shù)據(jù)錯(cuò)誤的起源:snapshot表。這類數(shù)據(jù)表面向特定時(shí)間段(每月、每周、每日),旨在保存對(duì)應(yīng)時(shí)間點(diǎn)的數(shù)字化快照。

無(wú)論原因?yàn)楹危@類表確實(shí)難倒了很多人。首先,這類表往往很難理解,這意味著剛剛接觸此類表的用戶無(wú)法立即意識(shí)到其屬于snapshot表,直接導(dǎo)致用戶對(duì)數(shù)據(jù)進(jìn)行錯(cuò)誤運(yùn)用。最簡(jiǎn)單的預(yù)防辦法就是為其設(shè)置明確的名稱,告知用戶其屬于snapshot類型。

我們?cè)撊绾巫R(shí)別出snapshot表并找出其使用方法?最明確的標(biāo)志就是,snapshot表中的全部指標(biāo)往往都較平均值有所夸大。大家可能曾經(jīng)把周快照當(dāng)成日快照處理,并發(fā)現(xiàn)其結(jié)果比預(yù)期值大5到7倍——幸運(yùn)的是,這種錯(cuò)誤還是很容易發(fā)現(xiàn)的。大家可以將其拆分成一天,例如時(shí)段中的***一天,或者干脆取其中的***值。具體參考以下示例:

選定一天:

  1. SELECT  
  2.    TD_TIME_FORMAT(time, ‘yyyy-MM’) as MONTH,  
  3.    category, 
  4.    usage 
  5. FROM usage_snapshot 
  6. WHERE TD_TIME_RANGE(time, ‘2016-04-01’) 

找到***值:

  1. SELECT  
  2.    TD_TIME_FORMAT(time, ‘yyyy-MM’) as MONTH
  3.    category, 
  4.    MAX(usage) as total_max_usase 
  5. FROM usage_snapshot 

關(guān)鍵在于堅(jiān)持以同一種方法使用snapshot表。根據(jù)實(shí)際背景與目標(biāo),我們可以選擇最為有效的具體處理辦法。

總結(jié)模式

在驗(yàn)證數(shù)據(jù)有效性時(shí),我發(fā)現(xiàn)總結(jié)其中的模式能夠有效識(shí)別錯(cuò)誤。具體問(wèn)題包括:

  • 是否全部數(shù)據(jù)皆受到影響?
  • 受影響數(shù)據(jù)是否全部來(lái)自同樣的群組?
  • 區(qū)別間呈正相關(guān)狀態(tài),抑或各自隨機(jī)?
  • 數(shù)據(jù)之中是否存在某些模式?

這些問(wèn)題有助于縮小思考范圍。如果全部數(shù)據(jù)皆受到影響,則問(wèn)題往往源自腳本或查詢,而非數(shù)據(jù)本身。但如果某月或某日的值明顯較低,則需要調(diào)查基礎(chǔ)數(shù)據(jù),這意味著該時(shí)段內(nèi)的數(shù)據(jù)收集機(jī)制可能存在錯(cuò)誤。

如果所驗(yàn)證的數(shù)據(jù)往往以等比例方式低于原始數(shù)據(jù),可能意味著部分?jǐn)?shù)據(jù)沒(méi)能被聚合查詢所正常收集。而基本邏輯錯(cuò)誤則往往令分析結(jié)果呈現(xiàn)“隨機(jī)性”,意味著其中沒(méi)有明顯的模式。

從頭開(kāi)始進(jìn)行梳理

如果嘗試了一切辦法但仍然無(wú)法確定問(wèn)題,那么只能進(jìn)行深入挖掘了。雖然從直觀上講,我們都希望能夠從出錯(cuò)的位置開(kāi)始推進(jìn),但現(xiàn)在大家需要安下心來(lái)從頭開(kāi)始梳理。

數(shù)據(jù)中的錯(cuò)誤往往最初尚屬于良性范疇,但隨著分析流程推進(jìn)而變得愈發(fā)糟糕。這就像是在解數(shù)學(xué)題,我們要從頭開(kāi)始再推導(dǎo)一遍。這項(xiàng)工作可能費(fèi)時(shí)費(fèi)力,但卻能夠以清晰的思路幫助大家了解數(shù)據(jù)是如何一步步走偏并最終帶來(lái)完全不可理解的結(jié)論。

相信大家一定也在處理數(shù)據(jù)驗(yàn)證工作中有著自己的技巧與訣竅,請(qǐng)?jiān)谠u(píng)論中不吝分享!

原文鏈接:4 Tips for Easier Data Management

責(zé)任編輯:Ophira 來(lái)源: 51CTO.com
相關(guān)推薦

2019-11-06 11:16:00

程序員HTMLPython

2017-02-05 14:39:12

2018-08-01 11:07:31

人工智能深度學(xué)習(xí)機(jī)器人

2015-10-28 09:15:17

Java

2019-04-16 12:53:57

2011-03-10 09:07:16

2019-05-12 14:51:55

物聯(lián)網(wǎng)客戶體驗(yàn)IOT

2021-04-15 08:04:27

容器DevOps程序

2018-05-04 10:48:07

Kubernetes容器K8S

2020-12-30 12:43:09

JavaScript開(kāi)發(fā)編程語(yǔ)言

2016-08-22 23:56:48

超融合HCI

2011-04-12 09:48:03

2023-10-17 12:51:00

邊緣計(jì)算云計(jì)算

2021-11-14 07:33:35

網(wǎng)絡(luò)安全

2012-07-22 15:22:17

加班

2020-05-25 14:58:36

程序員自動(dòng)化編碼

2020-04-24 12:06:08

邊緣計(jì)算數(shù)據(jù)中心

2020-04-24 13:40:09

邊緣計(jì)算開(kāi)發(fā)數(shù)據(jù)中心

2017-01-03 11:24:06

2017-12-26 14:29:18

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 午夜无码国产理论在线 | 国产亚洲日本精品 | 丝袜毛片| 在线播放一区二区三区 | 中文字幕第三页 | 精品国产欧美一区二区三区不卡 | 欧美一极视频 | 91电影在线 | 国产农村一级片 | 日韩欧美国产电影 | 成年人在线观看 | 亚洲免费精品 | 国产亚洲网站 | 中文字幕成人av | 欧美日韩亚洲国产 | 亚洲激情自拍偷拍 | 日韩欧美中文在线 | 国产精品一区二区三区在线 | 久久新| 亚洲成人网在线 | 91偷拍精品一区二区三区 | 色就是色欧美 | 四虎伊人| 日韩欧美一二三区 | 精品欧美一区免费观看α√ | 日韩电影免费在线观看中文字幕 | 久久777| 精品亚洲国产成av人片传媒 | 久久精品国产a三级三级三级 | 精品视频一区二区 | 亚洲精品久久久久久一区二区 | 天天草天天干天天 | 久久久久国| 很很干很很日 | 国产精品毛片一区二区在线看 | 精品欧美一区二区在线观看欧美熟 | 中文一区 | 日韩欧美国产精品一区 | 91 久久 | 男女污污动态图 | 国产一二三区在线 |