成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學中的“帕累托法則”

大數據
帕累托法則是一個非常簡單但功能非常強大的管理工具。企業高管長期以來一直將其用于戰略規劃和決策。諸如20%的商店產生80%的收入,20%的軟件錯誤導致80%的系統崩潰,20%的產品功能驅動80%的銷售等,受到廣泛歡迎,善于分析的企業嘗試在他們自己的商業世界中找到這樣的帕累托法則。

一個多世紀以前,政治經濟學教授維弗雷多·帕累托發表了他對于社會財富分配的研究結果。他所觀察到的嚴重的不平等,例如20%的人擁有80%的財富,令經濟學家、社會學家和政治科學家感到驚訝。在過去的一個世紀中,不同領域的幾位先驅者在包括商業在內的幾種層面上觀察到這種不成比例的分布。關鍵性的那部分少數的投入/原因(如20%的投入)直接影響了絕大多數的產出/效應(如80%的產出),此理論被稱為帕累托法則——也稱為80-20規則。

帕累托法則是一個非常簡單但功能非常強大的管理工具。企業高管長期以來一直將其用于戰略規劃和決策。諸如20%的商店產生80%的收入,20%的軟件錯誤導致80%的系統崩潰,20%的產品功能驅動80%的銷售等,受到廣泛歡迎,善于分析的企業嘗試在他們自己的商業世界中找到這樣的帕累托法則。通過這種方式,他們可以計劃并確定其行動的優先順序。事實上,今天,數據科學在篩選大量復雜數據,以助識別未來帕累托場景方面發揮著重要作用。

 

數據科學中的“帕累托法則”

來源: William Lipovsky

 

不僅數據科學有助于為企業預測新的帕累托場景,但站在數據科學本身的角度看,這一技術也可以從帕累托法則中受益。利用該法則可以使數據科學顯著提高效率。在本文中,筆者將分享一些方法,作為數據科學家,我們可以利用帕累托法則的力量來指導我們的日常工作。

項目優先級排序

如果您是數據科學部門領導/經理,您不可避免地需要幫助為您的組織制定分析策略。雖然不同的業務領導者會提出各自不同的需求,但您必須闡明所有這些組織(或業務單位)需求,并為之制定路線圖,確定優先級。一種簡單的方法是量化解決每個分析需求所能獲得的價值,并按值的遞減順序對它們進行排序。您經常會注意到,少部分的問題/用例擁有不成比例的價值(帕累托法則),應優先于其他問題/優先級。實際上,更好的方法是量化解決/實現每個問題/用例的復雜性,并基于價值和復雜性之間的權衡來優先考慮它們(例如,將它們放在x軸為復雜性,y軸為價值的坐標圖上)。

問題范圍

業務問題往往是模糊和非結構化的,數據科學家的工作需要確定正確的范圍。范圍界定通常需要將注意力集中在問題最重要的方面,并忽略那些價值較低的方面。首先,查看輸出/效果在輸入/原因上的分布將有助于我們了解問題空間中是否存在高級帕累托。隨后,我們可以選擇僅查看某些輸入/輸出或原因/結果。例如,如果20%的商店產生80%的銷售額,我們可以將其余商店分組到一個集群中并進行分析而不是單獨評估它們。

范圍界定還涉及到對風險的評估——更深層次的評估通常會告訴我們,最重要的項目會帶來更高的風險,而最底層的項目發生的可能性很小(帕累托法則)。我們可以將時間和精力放在一些主要風險上,而不是解決所有風險。

數據規劃

復雜的業務問題需要的數據超出分析數據集中可用的數據。我們需要請求訪問、購買、獲取、抓取、解析、處理和集成來自內部/外部源的數據。它們具有不同的形狀、大小、健康狀態、復雜性、成本等。等待整個數據計劃落實到位,可能會導致項目的延遲不受我們控制。有一種簡單的方法是,根據這些數據對最終解決方案的價值,對這些數據需求進行分類,例如絕對必須擁有、有好處和可選的(帕累托法則)。這將幫助我們專注于絕對必須擁有的東西,而不是被可選的東西分心或拖延。除了價值之外,考慮數據獲取的成本、時間和精力方面的因素將幫助我們更好地對數據規劃工作進行優先級排序。

分析

有種說法是,一名工匠只用20%的工具就能完成80%的工作。這也適用于我們的數據科學家。我們傾向于使用很少的分析和模型來完成我們工作的重要部分(帕累托法則),而其他技術的使用頻率則要低得多。探索性分析中的典型示例包括變量分布、異常檢測、缺失值插補、相關矩陣等。類似地,建模階段的示例包括k折交叉驗證,實際VS預測圖,錯誤分類表,超參數調整分析等構建使用/訪問/實施這些分析的微型自動化(例如庫,代碼片段,可執行文件,UI)可以在分析過程中帶來顯著的效率。

建模

在建模階段,我們不需要很長時間就可以在過程的早期找到一個合理的工作模型。而且到目前為止,大部分提高精度的工作就已經完成了(帕累托法則)。剩下的過程是對模型進行微調,并增加精度。有時,為了使解決方案對業務可行,需要進一步增加精確度。在其他情況下,模型微調對最終的洞察/主張沒有多大價值。作為數據科學家,我們需要認識到這些情況,這樣我們就知道該在哪里相應地劃定界限。

業務溝通

今天的數據科學生態系統是多學科的。項目團隊可能包括業務分析師、機器學習科學家、大數據工程師、軟件開發人員和多個業務相關人員。這樣的團隊成功的一個關鍵驅動力是溝通。作為一個努力工作的人,你可能會需要溝通所有的工作——挑戰、分析、模型、見解等等。然而,在當今信息過載的世界里,采取這樣的方法將無濟于事。我們需要認識到“有用的多但重要的少”(帕累托法則),并利用這一認識來簡化我們交流的信息量。同樣,我們呈現和突出的信息需要根據目標受眾(業務涉眾vs數據科學家)進行定制。

帕累托法則與我們而言是一個強大的工具,以正確的方式使用,可以幫助我們整理和優化我們的工作。

責任編輯:未麗燕 來源: IT168網站編譯
相關推薦

2009-05-11 14:58:06

帕累托資產管理摩卡軟件

2023-01-19 08:00:00

2019-11-13 14:16:09

Python開發工具

2020-11-08 14:13:31

Python帕累托分析開發

2021-12-06 10:14:25

設計師UX設計帕累托原則

2021-03-03 11:22:12

軟件開發 技術

2020-03-18 20:16:44

數據樣本標準計算

2017-03-24 15:20:28

人工智能機器學習AI算法

2019-01-28 18:32:37

數據分析Python

2019-08-27 09:34:29

數據科學統計機器學習

2014-09-24 10:18:29

開發者開發習慣

2022-04-28 10:29:38

數據數據收集

2020-12-06 15:42:22

數據科學家數據科學人工智能

2017-12-13 10:08:26

大數據圖數據推理數據科學

2019-02-14 14:47:39

大數據數據科學家企業

2018-10-28 18:30:51

數據科學數據項目管理

2018-07-12 13:47:04

數據科學變量虛擬變量

2020-06-16 13:32:02

數據科學家大數據系統

2014-10-13 11:00:14

編程習慣不良開發項目

2023-03-03 08:00:00

重采樣數據集
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: aa级毛片毛片免费观看久 | 欧美一区二区三区高清视频 | 亚洲精品中文在线 | 国产女人与拘做受免费视频 | 亚洲成人精品影院 | 在线一区视频 | 久久9精品 | 婷婷毛片| 日本欧美在线 | 99riav3国产精品视频 | 久久精品中文 | 国产一区二区影院 | 狠狠操狠狠搞 | 日韩欧美视频免费在线观看 | 高清一区二区 | 精品国产18久久久久久二百 | 国产成人网 | 精品一区二区在线观看 | 国产污视频在线 | 亚洲高清一区二区三区 | 亚洲毛片在线观看 | 日韩精品一区在线观看 | 日日夜夜狠狠操 | 中文字幕在线观看日韩 | 成人中文字幕av | 视频一区二区在线观看 | 青青草精品视频 | 91久久久久久久久久久久久 | 日韩av资源站| 久久综合狠狠综合久久综合88 | 精品国产不卡一区二区三区 | 午夜私人影院在线观看 | 成人免费黄视频 | 久久精品亚洲精品 | 成人在线观看网址 | 国产精品免费一区二区三区四区 | www.亚洲国产精品 | 日一区二区 | 密室大逃脱第六季大神版在线观看 | 日韩在线视频一区二区三区 | 国产日韩欧美二区 |