成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學之路(上)

大數據
有些人可能會說沒有數據科學家的時候,公司也一樣能做數據,也有數據團隊,也有這些崗位啊?數據科學家又是個什么鬼?

[[174158]]

 

那哲學上一般都會講人生的三個終極問題:

  • 我是誰
  • 從哪里來
  • 到哪里去。

其實要想做數據科學,也要關心三個問題,

1.數據科學或者數據科學家到底是什么含義

2.怎么才能走上這條路

3.怎么才能在這條路上一直走的很好

大家可以看到目錄首先從多個方面去為大家介紹數據科學家這一崗位的方方面面,然后比較關心的是數據科學家的自我修養,怎么被需要被認可,怎么儲備知識自我提高,最后簡單地為迫不及待想要轉型的IT架構師或者數據分析師提供一些小建議,進行數據科學家養成。

先來簡單介紹一下這個崗位。

這個崗位在北美應該算是很流行了,國內一些公司我們更經常聽見的是:

  • 『數據團隊負責人』
  • 『大數據架構師 』
  • 『算法工程師』
  • 『高級數據分析師』
  • 『數據挖掘工程師』

這樣的崗位。可以看到這些人的職能離數據都很近。

但我對數據科學家的定義集中在『獨立,垂直』。獨立就是,他們要從產品、業務部門獨立出來,垂直的意思是,要對數據的全生命流程負責,能夠用對數據的分析、挖掘,為產品、數據流程甚至架構 帶來全面改進,能夠輔助決策,甚至直接創造價值的這么一個垂直團隊,甚至是單兵。

有些人可能會說這是個偽命題,沒有數據科學家的時候,公司也一樣能做數據,也有數據團隊,也有這些崗位啊?數據科學家又是個什么鬼?

我認為數據科學家應該扮演一種催化劑的作用,首先在開辟新領域時,要主動承擔數據團隊中出現的架構+數據清洗一類的基礎性工作,達到自己在一線對數據理解、掌控的目的。然后,因為關心數據全生命周期流程,所以每個環節都可能是推動數據處理流程的優化的點。數據從哪兒來,質量如何?業務數據要做分析,必須經過哪些清洗和重構?使用什么樣的工程數學工具進行分析?該以怎樣的形式交給業務部門或者決策者?能夠進行哪些輔助或者直接的決策?真是有種當爹又當媽的感覺。

所以我們在這里展開點講一些數據科學家的工作內容。我們得有垂直獨立的思考模式,我們要遷就產品,但是決不能只用產品設計的思路思考數據分析。

一般來說,公司在最開始設計產品邏輯或者業務邏輯的時候,之所以做的粗放,是因為滿足數據上收的條件下,搞好業務性能和用戶體驗就可以了。我設計一個系統,要求0.4秒以內返回結果,或者每秒接受上萬次查詢(qps),幾千筆transactions,把功能點實現就好。如果在剛開始搞產品這一步就想做實時分析說查詢和交易的背后有什么內在邏輯?那簡直就是本末倒置,產品的生存第一位,數據都是先積累。

積累一定程度了,業務數據拿出來了之后,也根本不是說直接跑個邏輯回歸跑個決策樹,出個報告,下班回家這么簡單的。

第一點就是要數據清洗。俗話說的好:做數據這一行,三分天注定,七分洗數據,也就是說,本來我們分析的數據潛在包含的信息就是有限的,你再不做清洗,什么也做不好。比如說有個字段是質量很差的身份證號碼信息,其實身份證號足夠恢復出這個人的出生地信息,生日性別,如果足夠全的話,還能檢查出這張身份證數據是不是假的。你不做清洗、不做信息提取,一定喪失了很多能夠做預測的指標。

再比如LinkedIn上有很多公司的數據,如果本來是同一家公司,但是在系統里有10個uid,像高德,高德軟件,高德地圖等等等等,你不好好做人工標注,維護字典統一這些名稱,就很難知道誰和誰有同事關系了。不僅僅是社交網絡,跟文本相關的數據質量,不管是爬蟲爬的還是買來的格式不好的數據,都需要非常大量的數據清洗,而且不懂業務需求是什么的時候,連清洗的質量把控、清洗的方式都不能做。數據清洗這件事重要到值得動用你的所有武器,從最原始的正則表達式,人肉修正臟數據,一直到最復雜的深度學習模型研究文本分類,再把文本中的詞匯、語義、詞性給提取出來變成新的feature,加入到特征庫。所有這些都是需要清洗的內容。

第二點就是整合,熟悉各種SQL或者Pandas的朋友都很清楚,數據分析需要的數據跟業務數據 不僅質量有很大不同,而且組織形式也不一樣。

比如廣告行業里面有一個重要的分析叫做點擊率預估,就是傳說中的CTR預測,廣告投放給一個批次的人,展示、點擊、注冊、付費大量的行為隱藏在同一個日志表里面,格式就是個行為+時間戳,但是你想分析轉化漏斗,不可能不做拼接聚合。

這種問題還算簡單,因為CTR這種問題你全量可以做,抽樣也可以做。如果是做社群發現啊,PageRank,圖模型最短路徑等等類似的問題就不一樣了。

你會發現,首先你得維護一個社交網絡圖,Twitter最早用HBase存稀疏矩陣,更多的公司用三元組表示圖模型然后搞Spark GraphX或者使用Python的networkx。這種數據的重構不允許你基于一個原來圖做抽樣,你抽樣了做,要么結果是錯的,要么這不是一個能夠開放給所有人的社交網絡服務,講的low一點,跟CTR比這更像是一個典型的『大數據問題』。

最后就說一下分析任務。像分類變量大家往往使用加工啞指標、進行one hot encoding的方式可能從業務系統里的幾十個指標組合加工出上億個特征,這說明一件事,你的業務數據可能1個節點數據存下了,很好啊,但是要做分析,不僅吃內存,而且中間數據可能要用到成百上千臺的集群。

這種情況太正常了。這時有些受過正統統計學教育的人可能會認為剛才的做法太沒有潔癖了。沒關系,為了照顧到大家的潔癖或者預算不足,我們有很多降維工具,比如直接應用于數據列上的PCA/AutoEncoder可以留下數據中的重要信息,ISOMAP可以方便的幫我們做流形降維/ 而某些樹模型除了能幫我們建立分類、數值預測模型之外,它的非葉子節點在優化多分叉的時候,也能天然的起到了降維的作用。加變量、減變量往往被稱作特征工程 Feature Engineering,套用模型Data Mining實在只是最后最后的一個小步驟。

總之,這個崗位不是過來鬧著玩的,是為了推動業務優化、是為了推動決策的,是為了產生價值的。產生價值說簡單點不就是增加收入,節省成本嗎?然后你的利潤就來了。每一個業務決策、業務動作后面的成本和收益是多少?如何定義好優化問題?要動用多少人力物力,有什么樣的約束條件達到什么效果,這是顯性的。公司怎樣節省自己的時間,客戶的時間,帶動產業發展社會進步,這是隱性的,都要考慮。

把優化目標用數學的方式表達出來,才能有好的結果。而且有時候我們會有多個目標。為什么百度全家桶另人討厭?每一個部門都有自己的產品、自己的KPI,幾個團隊的leader私下一商量,打包出去推廣,KPI是上去了,社會口碑一落千丈,所以不去預先協調多個目標、多個團隊的協作,這種短視行為只能帶來垃圾。

所以產生價值,這是數據科學家的內功,真家伙,能受用一輩子。

所謂數據科學家的外功,就是接地氣,在后端能設計優化架構,在業務端能推動決策落地。

一個簡單的分析,變不成一段系統中的SQL代碼、一段Python代碼,影響不了最終的決策,那就是什么都沒有。這是很多人曾經面對或者正在面對的問題。另外,就算這些一切都好,一個算法能火的必要非充分條件是找到了做大規模并行化的思路,沒有一個算法是只靠單機表現出色就能上線部署的,比如SVM 06-08年的實現了在線更新,比如11年隨機梯度下降實現了無并行鎖。 所以很多工程師、數據科學家都在研究算法的可并行性、擴展性。論證完之后他們就會用OpenMP,用Spark,用GPU的方案來實現。

不僅如此,對算法熟悉了,我們更要對數據熟悉,主要就是去了解一個算法牽涉到的數據量以及計算量。前者就是所謂的空間復雜度,我們要花多大內存或者物理存儲來存放中間結果和最終結果?存進去能不能高效的讀取出來?后者就是所謂的時間復雜度,CPU/GPU的算力能不能靠指令集優化提高?每次計算啟動預處理和節點通信代價有多少?受指令集、緩存、內存、總線、網絡的延遲多高?這些細節考慮和不考慮,做出來的結果天差地別。

最后的落地性就是以身作則的推進代碼、圖標、報告,對決策形成建議。學統計的人都會形成概率思維對吧,我觀測到一個樣本,屬于A類的概率80%,屬于B類的概率20%,但是決策者就不一樣了,兩條路只能選一條,壓力很大。有一句話叫選擇大于努力,而數據科學家做的事就是努力做出正確的選擇。這種選擇不僅依靠數據類的信息,也有非數據類的信息。因此,把難以數據化的信息給數據化,評估風險,才是正道。大家為什么現在推崇量化投資?如果你沾沾自喜于單獨某一次選擇的一夜暴富,那以后仍然還會一夜暴窮。量化投資也好,數據科學也好,都是為了更好的做選擇。

綜上所述,一個數據科學家可以有多種視角,給人感覺很酷。

數據科學家崗位活躍在什么行業?

傳統行業,肯定有,而且需求很大。

美國郵政曾經優化了工作日程表,本來周一到周五上班周末兩倍工資,變成了排班制度,自由選擇合適的5天上班,一下在勞動力上節省了三億美金,這個方案現在日本很多打工店都在用。

這就涉及到線性規劃、整數規劃。亞馬遜至今還在做倉庫選址和路徑調度,因為它要安排倉庫庫存,安排送貨嘛。所以地理數據分析,選址和TSP都得做。工程方案就更多了,比如滴滴今年這個算法競賽,顧客和車輛的供需預測,所有打車、租車、代駕公司,一旦做到規模化了,都特別需要供需預測,這事兒2年前e代駕就在做。

做完供需預測,有的人就想我們設計一個運力調度中心,這個區域人多,你應該去這,另外一個區域車少,你應該去那兒。其實從工程角度講,給司機看一個熱力圖解決了,redis存好司機實時位置和對接下來半個小時訂單的預測,司機在app看到熱力圖,自己就往更容易接單的地方跑。做工程往往就特別需要這種巧勁。

互聯網行業,是數據科學家的主戰場。

09年netflix數據競賽可能大家都清楚,其實就是為了解決一件事,給合適的用戶在網上推薦合適的影片和電視劇,甚至自己主導往外推這些影音內容。為什么《紙牌屋》能火?因為大眾喜歡的題材、喜歡的導演、喜歡的Kevin Spacey都湊一塊兒了,這都是基于對用戶的深入理解才能做的。競賽結束之后,是個人就會講協同過濾了,雖然真正實踐svd,als的人少之又少,但互聯網確實開始重視算法了。很久之前看過一本入門級的《推薦系統實戰》我覺得寫的比較全面,作者項亮老師至今活躍在算法一線。

如果說你開了一家公司,不是電商、垂直巨頭這種流量+推薦的模式,你一樣可以參與到廣告行業里。這個行業國外商業模式非常成熟,廣告主,需要競價廣告位投放;媒體流量主,需要優化廣告位,進行用戶行為研究,中間還有廣告聯盟,DMP這些平臺,研究投放算法,采用田忌賽馬的策略,雖然每個廣告不都會投放給最適合看這個廣告的那些人,但是總收益最大。對這方面感興趣的推薦大家先看一本入門書《計算廣告學》,作者是劉鵬老師。這里面涉及了廣告行業的商業模式的架構和算法實踐,算是個全貌性的介紹吧。

我個人有些偏見,認為廣告行業做算法做不透,做的半吊子,首先PC端投放轉化率千分之五,移動端轉化率百分之五,能做到這個數字都要燒高香了,離所謂精準簡直差的太遠。 比如你耽誤大家70秒的時間就為了一個廣告的KPI,點擊率千分之五,14000秒 4個小時的播放形成了1次點擊,謀財害命對不對,也不好好學學國外怎么在廣告上互動收集UGC,提高投放效果。

然后我是覺得相比之下,增長運營比流量運營更有價值。最近有個很潮的詞叫growth hacking,自己做產品,上收數據,但是呢自己做簡單分析太麻煩了,要有專業化的平臺幫我們分析這些,拉動增長,降低成本。基本方法論就是漏斗圖轉化率,精細化一點的話Cohort Vintage Analysis,再精細化一點用戶畫像,為用戶定制化他的核心體驗,提高留存和持續付費。

從APP的sdk切入的Talking data,友盟都是比較老牌了,環信給app提供的多媒體社交sdk也是很棒的點,更多的廠家是在云端數據服務,光我接觸到的,國內的百分點,Everstring,37degree,growing.io,美國Salesforce是做的比較久了,Ayasdi在最近美國融資榜上面排第二,核心算法、高性能計算、和數據可視化做的都很好,大家可以了解一下。說個題外話,融資榜第一的Sentient科技,是做機器人的。反正就人工智能圈子。

最后一點,一個好的數據科學家其實是適合做偏數據類的產品經理的。項目冷啟動上收UGC、爬什么外部數據,是需要靠大局觀,靠腦洞的,不是守著自己現有一點數據分析分析就足夠了的。產品迭代的過程中,算法搞不定的時候也是有的,有時候拿A/B Testing結果說話更靠譜。

在前沿技術公司里面,很可能進來的人都有一個較高level的算法能力了,這樣的一些橫跨學界和產界人湊在一起,他們的核心技術就是拓撲、圖論、數論、深度學習、強化學習這一套純數學工具,很高的壁壘在這,他們在一起要么能夠解決之前解決不了的問題,要么極大改善傳統方法的效果,包括數據安全、OCR,圖像識別、語音識別、文本理解、機器翻譯、機器人等等。很多人在博士階段就有一些專利了,然后很自然而然的就開始開公司。特別有名的,包括剛才提到的Ayasdi,Sentient科技,Deep Genomics等等。這種公司的核心團隊往往不太可能和一個成長中的數據科學家共同成長,比較多的還是走學術產業化的道路,其實剛剛畢業的碩士,博士如果還喜歡在一線做工程的話,是特別適合加入這些團隊的,國內就有幾家,科大訊飛,商湯科技,等等就不贅述了。

 

所以洋洋灑灑總結一下,什么是數據科學家?

前面懂業務,中臺證明自己的故事,底層寫代碼,算法的也寫后端的也寫。如果你是首席數據科學家,你不給自己公司站臺,做技術型售前,你能指望誰能比你講清楚你們的技術實力和商業模式?你不幫公司上收最數據,你想指望誰來做?

雖然對數據科學家的要求很高,但是也要看到幾個點

數據科學家不是數學家。三百年前就有費馬大定理,三百年后才證明出來,形成了厚厚一本論文集,捎帶搞定了谷山志村猜想,這個猜想的證明打實了blockchain的基礎。那你能說,我想設計個比特幣,所以直接從證明猜想開始干嗎?這么做的人肯定腦子有病。數學家更像哲學家,而數據科學家更像工程師,還是要記住解決問題,要把真實世界抽象成可解決的數學問題并親自解決。

數據科學家也不像 IT 工程師,更像什么汽車工程師、飛機制造工程師。

IT工程師工作的完成,具有特別清晰的要求和標準,就像發動機制造,滿足標準就是100分,不滿足0分。但是對于數據科學家來講,就好像造汽車造飛機:你把工作完成了,也不一定是及格的。如果你做的結論大家都知道,那就沒什么價值,如果你的結論是基于錯誤的數據得到了反直覺的結論,我估計你馬上可能就被解雇了。如果你的結論很棒,算法也很棒,但是工程實現不行,那就是大寫的尷尬。

因此你要特別善于在大家不關心的點找出新的思路來分析,提高數據的價值,對主動學習的要求非常高。就好像造電動車,電池你得管,結構和抗碰撞能力你得管,外觀好不好看好不好賣你得管,發動機當然是關鍵的一環,你可以不親自去造發動機你可以買,但是發動機買來了帶不帶得動整車重量,你就得背鍋。

如果公司有數據文化,并愿意維護一個做實事的數據科學家崗位,而不是打嘴炮的團隊,是相當值得珍惜的。之所以這么說呢,是因為,有些公司,它壓根沒有數據科學家。排除掉無法看到數據價值的傳統行業,還是有公司沒有。所以我們就面對一個新問題……

原文>>>

責任編輯:趙寧寧 來源: 36大數據
相關推薦

2019-08-07 18:52:40

GPU數據科學CPU

2016-12-23 14:56:49

數據科學商業視角思維

2016-12-22 23:27:49

數據數據科學家變量

2018-12-27 15:22:33

Python數據科學簡歷

2019-07-08 15:38:56

FedoraJupyter數據科學家

2021-03-31 08:38:21

數據科學數據機器學習

2019-07-09 14:27:43

數據科學統計學數據集

2018-04-16 11:11:56

2018-12-03 21:58:13

云計算

2018-11-30 09:09:39

2020-05-27 11:16:49

數據科學機器學習Python

2017-08-04 15:53:10

大數據真偽數據科學家

2019-04-11 18:00:40

數據數據科學項目

2022-11-14 10:36:55

數據科學數據分析

2017-10-11 18:14:13

數據收集大數據系統建模

2020-02-24 00:08:11

疫情數據科學家數據科學

2015-06-11 10:27:29

數據科學家

2018-06-29 16:00:56

數據科學家數據清理數據分析

2020-06-01 14:11:39

AdaBoost數據科學分類器

2023-10-16 10:25:34

數據科學大數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品久久久久 | 免费在线观看黄色av | 中文字幕日韩三级 | 麻豆久久久久 | 色天天综合 | 日韩 欧美 二区 | 色综合99| 日韩 欧美 二区 | 欧美极品在线视频 | 99亚洲精品视频 | 成人免费毛片在线观看 | 精品日本久久久久久久久久 | 亚洲视频在线播放 | 日本一区二区电影 | 天天操天天插 | 岛国毛片 | 亚洲一区二区中文字幕在线观看 | 国产成人一区二区三区精 | 午夜影院 | 久久久国产精品视频 | 免费在线观看成人av | 91麻豆精品国产91久久久更新资源速度超快 | 免费日韩网站 | 成人美女免费网站视频 | 国产精品欧美一区二区 | 中文字幕精品一区久久久久 | 99精品久久| 欧美日韩中文在线 | 五月天天丁香婷婷在线中 | 中文字幕一区二区三区四区 | 一级毛片免费视频 | 在线视频一区二区 | 色婷婷久久久久swag精品 | 国产精品久久av | 欧美日韩在线播放 | 99精品九九| av福利网| 色精品视频 | 久久成人免费观看 | 国产精品99久久久久久宅男 | 老牛影视av一区二区在线观看 |