成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

終于有人講清楚數據分析全流程了!

大數據 數據分析
數據分析的流程是什么樣的?從工作事務的角度出發,我們可以將數據分析的工作流程劃分為10個模塊:界定問題、制定方案、定義數據、獲取數據、理解數據、處理數據、驗證方案、評估方案、實施方案和評價效用。本文就數據分析流程進行詳細地講解,以及用三個不同復雜程度的實例來說明如何利用數據分析工作流程來指導實踐。

 從最初的做數據管理工作,到逐漸負責指標體系梳理、預警機制搭建、BI系統建設、商業分析等工作,我越來越認同——“要做什么”是比“要怎么做”更加重要的問題。

一個數據分析問題,例如“分析一下競品的情況”,讓人感覺無從下手。通常是因為這個問題過于抽象,過于復雜,從而讓我們不知道“要做什么”。這時候我們就需要對問題進行拆解,把抽象的問題變具象,把復雜的問題變簡單。

這個拆解過程就要求一個數據分析師對數據分析的整體框架有所了解。換言之,Ta應該能夠回答:

[[359888]]

從工作事務的角度出發,我們可以將數據分析的工作流程劃分為10個模塊。該劃分基于 “跨行業數據挖掘標準流程”( CRISP-DM),修改、擴充。目的在于涵蓋商業分析的工作內容。

圖1 - 數據分析的工作流程

完成這10個模塊的工作,需要我們回答以下10類問題。

這10類問題圍繞著“問題”、“數據”、“方案”三個核心關鍵詞展開。

1. 問題

界定問題:需要解決的問題是什么?

制定方案:針對這個問題,(從數據出發)給出的解決方案是什么?

2. 數據

定義數據:根據預設的解決方案,需要的數據有哪些,是什么樣形式的?

獲取數據:所需的數據是可得的嗎?從哪里可以獲取?

理解數據:獲取的數據蘊含了哪些信息?

處理數據:為了執行解決方案,我們還需要對數據進行哪些處理?

 3. 方案

驗證方案:根據現有的數據,預設的解決方案可行嗎?最初的問題可解嗎?

評估方案:內部評估,預設的方案多大程度上解決了最初的問題?需要如何改進?

實施方案:以什么方式,能準時、保質保量的交付解決方案?

評價效用:外部評價,實施后的解決方案效果如何?有多少價值?產生了什么影響?需要如何改進?

[[359889]]

以上提出的數據分析工作流程的描述,還是挺抽象的。

以下,用三個不同復雜程度的實例來說明——如何利用數據分析工作流程的方法論來指導實際工作。

一、簡單模式:“好好,這份業績報表以后你來刷新維護。”

我的第一項數據分析工作,就是定期刷新一份已經設計好的業績報表。這份工作非常棒,因為這項工作只涉及了工作流程中3個模塊:⑥ 處理數據、⑨ 實施方案、⑩ 評價效用。

圖2 - 業績報表刷新涉及的工作流程

而至于其他模塊:

  1. 界定問題:在報表設計之初,就已經界定好了問題:我們要評估一下業績的現狀。
  2. 制定方案:并制定了一個交付物為報表的解決方案;這個報表中包含了我們用來衡量業績的諸多指標,如:銷售額,產能、產品結構等。
  3. 定義數據:計算這些指標所需的源數據也已經定義好了。
  4. 獲取數據:可以直接從公司內部的系統獲取數據。
  5. 理解數據 、驗證方案 、評估方案這三個模塊,前輩們也已經完成了。

所以更新業績報表工作,只需要處理從系統中獲取的數據;然后制作報表,并交付。對該項工作效用的評價方式為:及時性與準確性。

二、復雜模式:“好好,買了份咨詢公司的數據,你分析一下市場情況。最好能夠預測下季度的銷量。”

假設你是麻雀水果貿易公司的數據分析師?,F在老板從百靈鳥咨詢公司買來了一份整個市場的銷量數據。要求你根據這份數據,分析一下市場的情況,并對后續的銷量做出預測。

這項工作的需求是相對明確的,這是一個描述現狀和預測未來的需求。數據的來源,老板也花了數十萬美金幫我們搞定了。所以我們不需要花太多的精力在① 界定問題 和 ④ 獲取數據的模塊。

圖3 - 市場評估與銷量預測的工作流程

我們粗略的看一下其他部分的模塊應該要怎么做:

制定方案:

針對描述現狀和預測未來的需求,我們分別制定方案給出響應。

對于描述現狀的需求,我們給出解決方案A。從宏觀到微觀分為三個層次描述市場狀況:行業、公司、產品。

對于預測未來的需求,我們用多元線性回歸模型作為解決方案B。

所以對于這項工作,我們將有兩個交付物:一份分析報告,以及一個預測模型。

定義數據:為了能夠落地方案A與方案B,我們需要:

宏觀經濟的數據;

市場上產品的銷量數據,并且這些數據要能夠區分品牌、區分銷售渠道、區分價位等;

此外產品本身特性的數據;

以及咨詢公司提供的一些二手資料、結論等。

理解數據:我們要對咨詢公司提供的數據做一些探索性的工作,獲取更多的信息。

當我們獲取的信息量更多之后,或許我們可以回到 ② 方案制定 的模塊,做出更好的設計。

也可能我們發現,目前的數據,不足以支撐我們的分析需求。那么就要回到 ③ 獲取數據 的模塊,補充所需的數據。

數據處理:將數據加工為我們所需要的形式,指標等。這個過程的實施,可以是使用python、Excel、ETL流程等任何工具、方式、手段。

驗證方案:將處理好的數據代入解決方案,得到結果。如果沒能順利得到結果,定位一下是②~⑥的哪個環節出了問題。

評估方案:評估得到的結果是否解決了最初的兩個需求。例如:

方案A的分析報告,是否給出了我司在市場中地位的結論。

方案B的預測模型,對過往季度的銷售額的預測準確度如何。

如果還有可改進的部分,在保證交付的前提下,返回模塊 ⑦ 驗證方案 進行優化。

實施方案:將兩個交付物交付給老板,以及相關干系人(部門)。

評價效用:收集他們的意見與反饋。分析報告是否給相關決策提供支撐,預測模型在下季度的準確度如何?

三、地獄模式:“找點數據,分析一下吧。”

這時候
需求很難界定
方案無從談起
數據沒有來源
驗證依靠幻想
實施更不可能
(有一說一,這不就是科學家的工作嗎?)

 

 

責任編輯:梁菲 來源: 人工智能愛好者社區
相關推薦

2020-07-29 09:21:34

Docker集群部署隔離環境

2021-07-05 22:22:24

協議MQTT

2019-07-07 08:18:10

MySQL索引數據庫

2024-04-01 10:09:23

AutowiredSpring容器

2023-08-14 11:35:16

流程式轉化率數據指標

2021-04-10 10:37:04

OSITCP互聯網

2020-10-16 17:20:21

索引MySQL數據庫

2024-02-23 08:08:21

2022-01-05 09:27:24

讀擴散寫擴散feed

2021-01-29 10:50:04

數據中臺數據數據管理

2019-05-22 08:43:45

指令集RISC-V開源

2020-04-23 10:21:57

Linux 網絡編程 數據

2022-07-04 11:27:02

標簽數據指標標簽體系

2024-02-27 14:27:16

2023-05-29 13:59:00

GPTOpenAI監督微調

2019-06-19 14:58:38

服務器負載均衡客戶端

2024-07-01 13:45:18

2019-07-04 09:13:04

中臺百度團隊

2021-02-25 08:21:38

高可用風險故障

2020-10-08 11:24:04

數據分析技術IT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区在线播放 | 综合久久综合久久 | 亚洲激情在线观看 | 97精品超碰一区二区三区 | 免费成人av网站 | 日韩毛片免费看 | 亚洲一区欧美 | 亚洲成人一区二区 | 欧美黑人又粗大 | 中文字幕国产精品 | 久久国产精品无码网站 | 99re66在线观看精品热 | 亚洲日韩中文字幕一区 | 亚洲一区二区三区四区视频 | 欧美在线观看一区 | 99成人免费视频 | 天堂综合网久久 | 国产美女自拍视频 | 天天看片天天干 | 亚洲欧美一区二区三区1000 | 亚洲综合在线一区 | 精品免费国产 | 国产视频二区 | 毛片免费在线观看 | 久久91av| 在线视频a | 成人一区二区三区在线 | 国产欧美在线一区二区 | 亚洲一区国产 | 欧美日韩中文在线 | 亚洲国产二区 | 亚洲精品一 | 成人久久18免费网站 | 日韩影音 | 国产午夜久久久 | 免费一级黄色 | 99福利网| 国产日韩欧美一区 | 亚洲资源在线 | 欧美成人精品一区二区男人看 | 日韩一区二区三区在线播放 |