成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

身為數據科學家怎么能不掌握這四大技能!

企業動態
想成為一名高級數據科學家除了擁有卓越的專業技能,你還需要其它技能來拉近和業務經理的距離。這看起來簡單,但隨著每年新技術的不斷累積,技術和業務之間的距離會繼續增大。

[[219770]]

作者:seattle data guy

編譯:王夢澤、吳雙、蔣寶尚

想成為一名高級數據科學家除了擁有卓越的專業技能,你還需要其它技能來拉近和業務經理的距離。這看起來簡單,但隨著每年新技術的不斷累積,技術和業務之間的距離會繼續增大。因此,我們發現管理者和數據科學家有清晰的合作方向是非常重要的。

業務和IT知識都是十分專業的,然而由于技能的專業化,許多企業都出現了兩個專業間的空白。我們的任務是幫助填補它!

數據科學家必須有技術方面的扎實基本功,這包括編程、查詢、數據清洗等。然而隨著數據科學家的成長,他們需要更多地關注設計決策以及與管理者的溝通,這會大大增強經驗豐富的數據科學家的影響力。他們可以做出更高層次的決策,并幫助陷入困境的年輕數據科學家,而不是被困在日復一日的編碼中。更有經驗的數據科學家能利用他們的經驗來做出簡化復雜系統、優化數據流的設計決策,同時協助決定哪些項目最為恰當,這使得數據科學家自身及其公司都能有更大獲益。

能夠做到化繁為簡

數據科學家往往希望將他們所知道的每一種技術和算法都應用于每一個問題的解決方案上。相應地,這就會使系統非常復雜難以維護。

數據科學確實需要復雜抽象的模型及大量的復雜技術(從Hadoop到Tensorflow)。在這個充斥著復雜性的領域,人們會傾向于開發復雜的系統和算法,稍不留神就會在開發中涉及四、五種不同的技術并使新的熱門算法或框架。然而,像大多數涉及工程的其他領域一樣,減少復雜性往往會帶來諸多好處。

如果馮•諾依曼,埃爾溫•薛定諤和愛因斯坦可以幫助我們理解數學和物理驅動領域的復雜性,那么我們數據科學家不能隱藏在復雜性背后。

工程師的角色就是去簡化任務。如果你曾經建造或看到過魯布•戈德堡機械(Rube Goldberg machine),你會理解什么是用復雜方法去完成簡單任務。一些數據科學家的算法和數據系統看起來像是用膠帶和口香糖粘起來的老鼠夾,而不是簡潔有效的解決方案。更簡單的系統意味著隨著時間推移系統會更加容易維護,并且未來的數據科學家能夠按需添加和刪除模塊。但若你使用三種不同的語言,兩個數據源,十個算法且沒有留下任何文檔資料,未來的工程師可能會默默詛咒你哦。

簡單的算法和系統也應使添加和刪減模塊是容易的。因此當需要技術進行改變和更新或者需要刪除模塊時,可憐的未來數據科學家不會陷入和你的代碼一起玩疊疊樂積木游戲(Jenga)的困境 。但會糾結于“如果刪了這段代碼,系統會不會崩潰”。(這一糾結的根源是怕出現技術債務)

知道如何在沒有主鍵的情況下關聯匹配數據

強大的數據專家能做的重要工作之一是:將可能沒有主鍵或明顯聯系的數據集關聯在一起。數據可以呈現人之間或業務之間的日常交互。能夠在這些數據中找出統計模式,是數據科學家可以幫助決策者作出明智決定的重要能力。然而,你想要關聯在一起的數據并不總是位于相同的系統或有著相同粒度。

與數據打交道的人會知道,數據并不總是很好的整合在一個數據庫中。比如,財務數據與IT服務管理數據通常是分開存放的,外部的數據源往往可能并不是在同一個維度進行的聚合。這會成為一個問題,因為找出數據中的價值有時確實會需要來自其他部門或系統的數據。

數據嚙合

數據嚙合是需要在相同的粒度級別上進行的。一種理解的方式是:將一塊大拼圖與由許多小塊數據拼圖組成的大拼圖組合起來。

例如,假如給你提供了醫療保單、信用卡和社區犯罪率的數據,想由此找出這些社會經濟因素如何影響病人,你會怎樣處理?一些數據可能是以人為單位,而另一些數據可能是街道或城市級別,而且沒有明確的方式來關聯這些數據集。***的處理方式是什么?這成為了一個不能忽視且必須被解決的問題。

對項目進行優先排序

作為數據科學家,你需要知道如何解釋可能不劃算的項目的投資回報率(ROI)。這與良好的直接溝通有關(我們的團隊永遠不會停止討論如何溝通),也與能夠清楚表達價值并且對長短期目標進行優先排序有關(重申一遍,說起來容易做起來難)

團隊總是會有超出他們處理能力的過多的項目和項目要求。有經驗的團隊成員需要起帶頭作用來幫助決策者決定哪些項目是值得進行的。在有很大機會成功但可能不會有***投資回報率的短期項目和很有可能會失敗但同時也會產生較大投資回報率的長期項目之間需要有一個良好的平衡。

這種情況下,決策矩陣會有助于簡化過程。

經典的決策矩陣之一是一個2*2矩陣,行和列分別為重要性和緊迫性。多數的大學商業課程中都會出現這種矩陣,它很簡單,這也是它很棒的原因。

我曾在公司和一些很聰明的人共事,但還是工作中的每個項目都被列為優先。如果你沒聽過這個說法,我會在這里講出來:

如果每件事都被優先考慮,那么,相當于沒有事情被排在優先。

選擇正確的項目意味著必須做出取舍。不是所有的事情都是高優的。

許多公司都存在這個問題,這就是為什么對于數據科學家團隊中有經驗的成員,能夠清晰表達出哪些項目需要當下執行還是以后執行是非常重要的。而使用這個簡單的矩陣能帶來一定幫助。

(簡潔十分重要,使用矩陣來明確投資回報率是有幫助的)。

有了簡明直接的溝通,項目繼續向前推進,信任也隨之建立起來了。

能夠開發出穩健且***的系統

做出能在受控環境中操作的算法或模型是一回事。將穩健模型集成到實時且能處理大量數據的系統又是另一回事。根據公司的不同,有時數據科學家只需開發算法本身,之后開發人員或機器學習工程師會負責將其轉為上線的產品。

然而還會有其他的情況,小的公司和小的團隊可能會需要數據科學家團隊來將代碼轉為上線產品。這意味著算法需要能以合理的速度控制數據流量。如果算法要運行三個小時并且需要被實時訪問,這顯然不能在產品上使用。因此,良好的系統設計及優化是必要的。

隨著數據增多,越來越多的人會與系統交互,模型跟上腳步是十分重要的。

當高級數據專家的技術能力和其他能力相結合時,才能對他們自身和其公司產生***的影響。數據科學家寶貴的經驗是非常有價值的,這些經驗能夠指導年輕的開發人員做出更好的設計決策,幫助管理者找出哪些項目會帶來***的投資回報率,從而也放大了他們的參與對于團隊的影響。

原文鏈接:https://hackernoon.com/4-must-have-skills-every-data-scientist-should-learn-8ab3f23bc325

【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】

     大數據文摘二維碼

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2018-01-31 22:30:05

數據科學家數據專家工程師

2016-04-11 14:15:06

數據科學數據挖掘工具

2017-08-04 15:53:10

大數據真偽數據科學家

2018-02-28 15:03:03

數據科學家數據分析職業

2012-12-27 09:50:36

Facebook

2019-07-05 10:29:17

大數據數據科學家

2019-11-29 18:03:27

數學R語言算法

2018-01-25 14:19:32

深度學習數據科學遷移學習

2019-01-08 16:25:42

數據科學機器學習神經網絡

2021-01-22 15:25:42

數據科學數據分析IT

2012-12-06 15:36:55

CIO

2018-12-24 08:37:44

數據科學家數據模型

2012-12-26 10:51:20

數據科學家

2019-03-25 21:18:41

數據科學家大數據技能

2018-05-03 09:11:51

數據科學家職業數據科學

2023-04-20 10:29:46

數據管理數據分析

2019-07-03 16:10:27

數據科學家數據庫數據工程師

2021-10-08 13:45:23

大數據數據科學家貨幣

2017-11-21 14:42:30

數據科學統計學習機器學習

2012-06-12 09:33:59

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.一级片 | www.色53色.com | 久久久www成人免费无遮挡大片 | 成人精品国产免费网站 | 国产精品中文字幕在线 | 欧美精品综合在线 | 99精品国产一区二区青青牛奶 | 国产黄色大片 | 亚洲视频在线看 | 亚洲一区二区三区免费在线观看 | 亚洲一区二区电影在线观看 | 午夜丰满少妇一级毛片 | 国产真实乱对白精彩久久小说 | 亚洲福利在线视频 | 91伊人网| 最近中文字幕在线视频1 | 91精品国产自产在线老师啪 | 亚洲精品一区二区三区蜜桃久 | 国产精品自产拍 | 干干干操操操 | 日韩a在线观看 | 久久久亚洲综合 | 久久不卡日韩美女 | 欧美日韩在线综合 | 欧美一区二区在线观看 | 国产精品一卡 | 亚洲国产精品一区 | 亚洲福利| 午夜视频一区二区三区 | 成人黄在线观看 | 精品伊人久久 | 免费精品在线视频 | 成人免费三级电影 | 在线观看中文字幕 | 久日精品| 精品成人一区二区 | 久久精品欧美一区二区三区不卡 | 99福利| 久久99精品久久久久久国产越南 | 成人深夜福利 | 国产精品久久免费观看 |