成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

8個提高數(shù)據(jù)分析工作效率的技巧

大數(shù)據(jù)
聽起來是不是很像你的遭遇?你會不會在得出像樣的答案之前反復(fù)分析很多次?或者一遍又一遍地為類似的活動寫著代碼?如果是這樣的話,這篇文章正好適合你。我會分享一些提高效率和減少不必要的重復(fù)工作的方法。

[[156055]]

本文由ChrisMu翻譯向36大數(shù)據(jù)投稿,并經(jīng)由36大數(shù)據(jù)編輯發(fā)布,原文作者Kunal Jain。任何不標(biāo)明來源36大數(shù)據(jù)及本文鏈接http://www.36dsj.com/archives/37108  均為侵權(quán)。

前言

我剛和一位老友恢復(fù)了聯(lián)系。她一直對數(shù)據(jù)科學(xué)很感興趣,但10個月前才涉足這一領(lǐng)域——作為一個數(shù)據(jù)科學(xué)家加入了一個組織。我明顯感覺到她已經(jīng)在新的崗位上學(xué)到了很多東西。然而,我們聊天時,她提到了一個至今在我腦海里都揮之不去的事實(shí)或者說是問題。她說,不論她表現(xiàn)如何,每一個項(xiàng)目或分析任務(wù)在令經(jīng)理滿意之前都要做好多次。她還提到,往往事后發(fā)現(xiàn)原本不需要花這么多時間!

聽起來是不是很像你的遭遇?你會不會在得出像樣的答案之前反復(fù)分析很多次?或者一遍又一遍地為類似的活動寫著代碼?如果是這樣的話,這篇文章正好適合你。我會分享一些提高效率和減少不必要的重復(fù)工作的方法。

備注:請別誤會。我不是說迭代都不好。這篇文章的重點(diǎn)在于如何識別哪些迭代是必要的,哪些是不必要且需要避免的。

什么原因?qū)е铝藬?shù)據(jù)分析中的重復(fù)工作?

我認(rèn)為沒有加入新信息,就沒必要重復(fù)分析(后面提到一個例外)。下面這些重復(fù)工作都是可以避免的:

1、對客戶問題的診斷有偏差,不能滿足需求,所以要重做。

2、重復(fù)分析的目的在于收集更多的變量,而你之前認(rèn)為不需要這些變量。

3、之前沒有考慮到影響你分析活動的偏差或假設(shè),后來考慮到了所以要重做。

哪些迭代是必要的呢?下面舉兩個例子,一、你先建立了一個6個月后的模型,隨后有了新的信息,由此導(dǎo)致的迭代是健康的。二、你有意地從簡單的模型開始逐漸深入理解并構(gòu)建復(fù)雜模型。

上面沒有涵蓋所有可能的情況,但我相信這些例子足夠幫助你判斷你的分析迭代是不是健康的。

這些生產(chǎn)力殺手的影響?

我們很清楚一點(diǎn)——沒有人想在分析中出現(xiàn)不健康的迭代和生產(chǎn)力殺手。不是每個數(shù)據(jù)科學(xué)家都樂于一邊做一邊增加變量并反復(fù)運(yùn)行整個分析過程。

分析師和數(shù)據(jù)科學(xué)家會因?yàn)椴唤】档蛦适识罡写鞌。狈Τ删透小D敲醋屛覀儽M一切努力來避免它們吧。

小貼士:如何避免不健康迭代并增加效率

技巧1: 只關(guān)注重大問題

每個組織都有很多可以用數(shù)據(jù)解決的小問題!但雇一個數(shù)據(jù)科學(xué)家的主要目的不在于解決這些小問題。好鋼要用在刀刃上,應(yīng)該選取3到4個對整個組織影響最大的數(shù)據(jù)問題交給數(shù)據(jù)科學(xué)家來解決。這些問題一般具有挑戰(zhàn)性,會給你的分析活動帶來最大杠桿(或者收獲滿滿或者顆粒無收,想象一下借貸炒股)。當(dāng)更大的問題沒被解決時,你不應(yīng)當(dāng)去解決小問題。

聽起來沒什么,但實(shí)際上很多組織都沒做好這一點(diǎn)!我看到很多銀行沒用數(shù)據(jù)分析去改善風(fēng)險(xiǎn)評分,而是去做市場營銷。有些保險(xiǎn)公司沒用數(shù)據(jù)分析提升客戶留存率,而是試圖建立針對代理機(jī)構(gòu)的獎勵計(jì)劃。

技巧2: 一開始就創(chuàng)建數(shù)據(jù)分析的演示文稿 (可能的布局和結(jié)構(gòu))

我一直這樣做并且受益匪淺。把分析演示稿的框架搭起來應(yīng)該是項(xiàng)目啟動后的第一件事。這聽起來或許有悖常理,然而一旦你養(yǎng)成這個習(xí)慣,就可以節(jié)省時間。

如何搭框架呢?

你可以用ppt、word、或者一段話來搭框架,形式是無關(guān)緊要的。重要的是一開始就要把所有可能情況列出來。例如,如果你試圖降低壞賬沖銷率,那么可以像下面一樣布局你的演示文稿:

數(shù)據(jù)分析

接下來,你可以考慮每個因素如何影響壞賬沖銷率?例如,由于給客戶增加了信用額度導(dǎo)致銀行的壞賬沖銷率增加,你可以:

首先,確定那些信用額度沒被增加的客戶并沒有導(dǎo)致此次壞賬沖銷率增加。

下一步,用一個數(shù)學(xué)公式來測量這個影響。

一旦你把分析中的每一個分支都考慮到了,那么你已經(jīng)為自己創(chuàng)造了一個良好的起點(diǎn)。

技巧3: 事先定義數(shù)據(jù)需求

數(shù)據(jù)需求直接源于最后的分析結(jié)果。如果你已經(jīng)全面地規(guī)劃了要做哪些分析、產(chǎn)生什么結(jié)果,那么你將知道數(shù)據(jù)需求是什么。這里有幾個提示來幫助你:

• 試著賦予數(shù)據(jù)需求一個結(jié)構(gòu): 不單是記下變量列表,你應(yīng)該分門別類地想清楚分析活動需要哪些表格。以上面增加壞賬沖銷率為例,你將需要客戶人口統(tǒng)計(jì)表,過往市場營銷活動統(tǒng)計(jì)表,客戶過去 12 個月的交易記錄,銀行信貸政策變更文件等資料。

• 收集你可能需要的所有數(shù)據(jù): 即使你不是 100%肯定是否需要所有的變量,在這一階段你應(yīng)該把所有數(shù)據(jù)都收集起來。這樣做工作量大一些,但是與在以后的環(huán)節(jié)增加變量收集數(shù)據(jù)相比,還是更有效率一些。

• 定義您感興趣的數(shù)據(jù)的時間區(qū)間。

技巧 4: 確保你的分析可重現(xiàn)

這個提示聽起來可能很簡單——但初學(xué)者和高級分析人員都難以把握好這一點(diǎn)。初學(xué)者會用Excel執(zhí)行每一步活動,其中包括復(fù)制粘貼數(shù)據(jù)。對于高級用戶,任何通過命令行界面完成的工作都可能不可重現(xiàn)。

同樣,使用記事本(notebook)時需要格外小心。你應(yīng)該克制自己修改以前的步驟,尤其是在前面的數(shù)據(jù)已經(jīng)被后面的步驟使用的情況下。記事本在維護(hù)這種涉及前后數(shù)據(jù)勾稽關(guān)系的數(shù)據(jù)流方面表現(xiàn)地非常強(qiáng)大。但是如果記事本中沒維護(hù)這種數(shù)據(jù)流,它也會非常沒用。

技巧5: 建標(biāo)準(zhǔn)代碼庫

沒必要為簡單的操作一次又一次重寫代碼。它不僅浪費(fèi)時間,還可能會造成語法錯誤。另一個竅門是創(chuàng)建常見操作的標(biāo)準(zhǔn)代碼庫并在整個團(tuán)隊(duì)中共享。

這將不僅確保整個團(tuán)隊(duì)使用相同的代碼,而且也使他們更有效率。

技巧6: 建中間數(shù)據(jù)集市

很多的時候,你會反復(fù)需要同一批信息。例如,你將在多個分析和報(bào)告中用到所有客戶信用卡消費(fèi)記錄。雖然你可以每次都從交易記錄表中提取,但是創(chuàng)建包含這些表的中間數(shù)據(jù)集市,可以有效節(jié)省時間和精力。同樣,市場營銷活動的匯總表也沒必要每次都查詢提取一次。

技巧7: 使用保留樣本和交叉驗(yàn)證防止過度擬合

很多初學(xué)者低估了保留樣本和交叉驗(yàn)證的強(qiáng)大。很多人傾向于認(rèn)為只要訓(xùn)練集足夠大,幾乎不會過擬合,因此沒必要交叉驗(yàn)證或保留樣本。

有這種想法,往往會在最后出岔子。不單我這樣說——可以看一下Kaggle上任意競賽公開或非公開的排行榜。你會發(fā)現(xiàn)前十名中有些人不再過擬合時他們的排名就不再下降了。你可以想象這些都是高級數(shù)據(jù)科學(xué)家。

技巧8: 集中一段時間工作并且有規(guī)律地休息

對于我來說,最佳的工作狀態(tài)是集中利用2-3小時解決一個問題或項(xiàng)目。作為一名數(shù)據(jù)科學(xué)家,你很難同時完成多項(xiàng)任務(wù)。你需要以自己的最佳狀態(tài)對待一個單獨(dú)的問題。對于我來說,2-3 小時的時間窗口最有效率,你可以依據(jù)個人情況自行設(shè)定。

后記

上面這些就是我提高工作效率的一些方法。我不強(qiáng)調(diào)非要第一次就把事情做好,但是你必須養(yǎng)成每一次都能做好的習(xí)慣——這樣你才能成為一個專業(yè)的數(shù)據(jù)科學(xué)家。

你有什么提高工作效率的好方法嗎?有的話請?jiān)谙旅娴脑u論中留言。

 

責(zé)任編輯:李英杰 來源: 36大數(shù)據(jù)
相關(guān)推薦

2023-10-13 12:56:23

工作效率VS Code技巧

2017-03-07 14:26:19

Eclipse技巧效率

2019-08-30 14:25:03

Vim命令Linux

2019-07-08 14:45:17

Excel數(shù)據(jù)分析數(shù)據(jù)處理

2018-06-11 10:38:56

Vim使用技巧

2021-01-08 10:38:40

前端開發(fā)代碼

2022-02-28 10:02:54

Linux技巧命令

2020-03-25 08:26:44

console.log前端

2022-08-16 10:32:08

Python數(shù)據(jù)科學(xué)

2021-01-12 15:17:40

命令Linux操作系統(tǒng)

2018-08-08 09:00:00

UNIXLinux命令

2020-05-07 10:25:13

工作效率遠(yuǎn)程辦公CIO

2021-09-30 16:25:20

物聯(lián)網(wǎng)人工智能IoT

2018-07-11 10:39:11

程序員效率工具

2018-08-10 10:22:19

編程語言Java高效工具

2024-11-19 15:28:15

2025-02-21 09:54:12

2018-08-23 17:15:10

編程語言Python數(shù)據(jù)分析

2009-05-15 16:36:34

EclipseIDE效率

2020-11-26 10:29:01

Redis
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲一区二区不卡在线观看 | 国产在线观看不卡一区二区三区 | 黄色毛片在线播放 | 久久成 | 亚洲网在线 | 91精品国产色综合久久不卡98口 | 天天综合91 | 国产乱码精品1区2区3区 | 精品国产青草久久久久96 | 亚洲精品免费视频 | 伊人手机在线视频 | 99热热热热 | 国产91视频一区二区 | 亚洲一区中文字幕 | 欧洲毛片 | 伊人久操 | 在线91| 国产乱码精品一区二区三区中文 | 日韩av美女电影 | 91国在线视频| 国产成人精品视频在线观看 | 国产一区91精品张津瑜 | 日韩精品在线免费 | 欧美亚洲高清 | 日韩一区二区三区av | 最新中文字幕在线 | 一区二区中文 | 久久久久久久一区 | 美女黄色在线观看 | 国产我和子的乱视频网站 | 成人av网站在线观看 | 台湾佬久久 | 日本成人免费网站 | 先锋资源站 | 亚洲国产精品久久久久 | 婷婷色在线播放 | 午夜伦理影院 | 91在线色视频 | 99久久国产综合精品麻豆 | 特黄毛片视频 | 国产成人久久久 |