解析:躋身數(shù)據(jù)科學(xué)領(lǐng)域的五條職業(yè)規(guī)劃道路
本文為你提供如何切實(shí)參與到數(shù)據(jù)科學(xué)和/或大數(shù)據(jù)職業(yè)道路的建議。
最近有許多人聯(lián)系我(大部分都是通過(guò)領(lǐng)英)尋求著手?jǐn)?shù)據(jù)科學(xué)和/或大數(shù)據(jù)的建議。這些人普遍對(duì)切入這個(gè)“領(lǐng)域”感興趣,并且需要些關(guān)于如何切入方面的指導(dǎo)。
然而,我懷著極大的尊重來(lái)說(shuō)這個(gè)話,這些請(qǐng)求的中心含義體現(xiàn)出請(qǐng)求者對(duì)自己所要求的事情其實(shí)并不理解。是的,不論在學(xué)習(xí)什么,每個(gè)人都需要從某個(gè)地方開(kāi)始。我不會(huì)再一個(gè)個(gè)去回答這些相似的問(wèn)題,這篇文章會(huì)列出和數(shù)據(jù)科學(xué)和/或大數(shù)據(jù)職業(yè)道路相關(guān)的一些基本的概念,并且,很希望提供一點(diǎn)如何切實(shí)參與到這個(gè)復(fù)雜領(lǐng)域的建議。
預(yù)備閱讀
第一篇文章概覽數(shù)據(jù)科學(xué)中一些最主要的概念,而第二篇文章則是今年早些時(shí)候?qū)@些概念的更新。第三篇文章更深入地解析了數(shù)據(jù)科學(xué)和大數(shù)據(jù)之中的概念。最后一篇文章對(duì)比了一些其他術(shù)語(yǔ),對(duì)“數(shù)據(jù)科學(xué)”這個(gè)術(shù)語(yǔ)的復(fù)雜性和微妙性進(jìn)行了簡(jiǎn)短的探討。
我將眾多的職業(yè)可能性拆分成五條能夠輕松掌控的道路。雖然可能有很多人強(qiáng)烈反對(duì)這種角色劃分并且因此感到恐慌,但它確實(shí)對(duì)技能和職業(yè)責(zé)任進(jìn)行了高度的分類。因此,我相信接下來(lái)的內(nèi)容能有效地幫助新來(lái)者在這個(gè)專業(yè)領(lǐng)域中所存在的令人混淆和迷惑的無(wú)數(shù)機(jī)會(huì)之中確認(rèn)方向。
數(shù)據(jù)管理專員
這本質(zhì)上是一個(gè)IT職業(yè),類似于數(shù)據(jù)庫(kù)管理員。數(shù)據(jù)管理專員被認(rèn)為和管理數(shù)據(jù)以及支持?jǐn)?shù)據(jù)管理的設(shè)施有關(guān)。這個(gè)職位和數(shù)據(jù)分析只有很少關(guān)聯(lián),也類似Python和R語(yǔ)言的使用也不是很必要。可能會(huì)用到SQL語(yǔ)言,以及和Hadoop相關(guān)的查詢語(yǔ)言,比如Hive和Pig。
關(guān)鍵技術(shù)以及需要關(guān)注的技能:
延伸閱讀:
數(shù)據(jù)工程師
這是一條非分析大數(shù)據(jù)職業(yè)道路。記得在剛剛的職業(yè)道路之中提到的數(shù)據(jù)設(shè)施嗎?是的,它們需要被設(shè)計(jì)和執(zhí)行,數(shù)據(jù)工程師就承擔(dān)了這部分工作。如果說(shuō)數(shù)據(jù)管理專員是汽車(chē)修理師,那么數(shù)據(jù)工程師就是汽車(chē)工程師。不過(guò)不要搞錯(cuò)了,這兩個(gè)角色都對(duì)你的汽車(chē)的行駛和持續(xù)工作至關(guān)重要,對(duì)你從A點(diǎn)駕駛到B點(diǎn)同樣重要。
說(shuō)句實(shí)話,數(shù)據(jù)工程師和數(shù)據(jù)管理專員所需要的技術(shù)和技能是相似的,然而,他們各自在不同的層次理解和使用同樣的概念。我不會(huì)重復(fù)之前一種職業(yè)中所提到的那些信息(所有這些信息對(duì)數(shù)據(jù)工程師都很重要),但我會(huì)專門(mén)給數(shù)據(jù)工程師補(bǔ)充延伸閱讀的清單。
延伸閱讀:
商業(yè)分析師
在本文里,商業(yè)分析師指的是與數(shù)據(jù)分析和數(shù)據(jù)呈現(xiàn)緊密相關(guān)的角色。包括報(bào)告,儀表板和任何被稱為“商業(yè)智能”的東西。 這種角色通常要求與關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)以及大數(shù)據(jù)框架的交互(或查詢)。
雖然前兩種角色與設(shè)計(jì)基礎(chǔ)設(shè)施來(lái)管理數(shù)據(jù)以及實(shí)際管理數(shù)據(jù)有關(guān),但商業(yè)分析師主要關(guān)注從那些或多或少存在的數(shù)據(jù)中提取信息。 這與以下兩個(gè)角色(機(jī)器學(xué)習(xí)研究者/從業(yè)者和以數(shù)據(jù)為導(dǎo)向的專業(yè)人員)形成對(duì)比,兩者都側(cè)重于從數(shù)據(jù)或數(shù)據(jù)以外已知的一些表面信息中獲得洞察力。 因此,商業(yè)分析師需要在所呈現(xiàn)的這些角色中具有獨(dú)特的技能。
關(guān)鍵技術(shù)以及需要關(guān)注的技能:
延伸閱讀:
機(jī)器學(xué)習(xí)研究員/從業(yè)者
機(jī)器學(xué)習(xí)研究人員和從業(yè)者指的是那些制作和使用預(yù)測(cè)和相關(guān)工具進(jìn)行數(shù)據(jù)利用的人。 機(jī)器學(xué)習(xí)算法允許以較高的速度應(yīng)用統(tǒng)計(jì)分析,并且那些操作這些算法的人不滿足于讓數(shù)據(jù)以其當(dāng)前形式呈現(xiàn)出來(lái)。 數(shù)據(jù)詢問(wèn)是機(jī)器學(xué)習(xí)愛(ài)好者的工作方式,但是具有足夠的統(tǒng)計(jì)理解才能知道何時(shí)推進(jìn)的足夠遠(yuǎn),以及什么時(shí)候提供的答案不可信。
統(tǒng)計(jì)和編程是機(jī)器學(xué)習(xí)研究者和實(shí)踐者最大的財(cái)富。
關(guān)鍵技術(shù)以及需要關(guān)注的技能:
延伸閱讀:
數(shù)據(jù)導(dǎo)向?qū)I(yè)人員
對(duì)于可以被稱為“真正的”數(shù)據(jù)科學(xué)家,這是我可以想出的最好的描述。你知道,獨(dú)角獸。除了,沒(méi)有獨(dú)角獸,說(shuō)不同的話的人都是在撒謊。
數(shù)據(jù)管理專業(yè)人員和數(shù)據(jù)工程師關(guān)注數(shù)據(jù)的基礎(chǔ)設(shè)施。商業(yè)分析人員關(guān)注從數(shù)據(jù)中提取事實(shí)。機(jī)器學(xué)習(xí)研究者和從業(yè)者關(guān)注推進(jìn)和使用相關(guān)工具,以利用數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)和相關(guān)分析。這兩種角色都是基于算法(開(kāi)發(fā)或利用或兩者兼具)。數(shù)據(jù)導(dǎo)向的專業(yè)人員主要關(guān)注數(shù)據(jù)本身以及它可以告訴的事實(shí),并不涉及執(zhí)行任務(wù)時(shí)所需要的技術(shù)或工具。
面向數(shù)據(jù)的專業(yè)人員可能使用上面任何角色中列出的任何技術(shù),這取決于他們的具體職責(zé)。這是與“數(shù)據(jù)科學(xué)”有關(guān)的最大的問(wèn)題之一;該術(shù)語(yǔ)并沒(méi)有什么具體的實(shí)際意義,但在整體上又包括了一切。這個(gè)角色是就像是數(shù)據(jù)世界的萬(wàn)金油:(可能)知道如何讓一個(gè)Hadoop生態(tài)系統(tǒng)建立和運(yùn)行;如何對(duì)存儲(chǔ)在其中的數(shù)據(jù)執(zhí)行查詢;如何抽取數(shù)據(jù),并且載入到非關(guān)系型數(shù)據(jù)庫(kù);如何獲取非關(guān)系型數(shù)據(jù)并將其提取到平面文件( flat file);如何在R或Python語(yǔ)言中辨別這個(gè)數(shù)據(jù);如何在進(jìn)行初步探索性描述分析后設(shè)計(jì)特征;如何選擇適當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法來(lái)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)分析;如何統(tǒng)計(jì)分析所述預(yù)測(cè)任務(wù)的結(jié)果;如何將結(jié)果可視化,以方便非技術(shù)人員使用;如何用剛剛描述的數(shù)據(jù)處理流水線的最終結(jié)果告訴管理人員一個(gè)令人信服的事實(shí)。
這只是數(shù)據(jù)科學(xué)家可能擁有的一些技能。然而,無(wú)論如何,這個(gè)角色的重點(diǎn)是數(shù)據(jù),以及從數(shù)據(jù)中可以得到什么。同時(shí),在這一個(gè)角色中,專業(yè)知識(shí)占很大的分量,這顯然不是這里可以教授的。
關(guān)鍵技術(shù)以及需要關(guān)注的技能:
延伸閱讀:
作為一篇介紹性文章,我有意地忽略了物聯(lián)網(wǎng)。原因有以下兩個(gè):第一,我不想為試圖吸取所有這些新信息的人增加困惑;第二,物聯(lián)網(wǎng)只是一個(gè)特殊的數(shù)據(jù)情況??赡苓M(jìn)行一些改進(jìn),這些角色都可以適用于物聯(lián)網(wǎng)數(shù)據(jù)。但本質(zhì)來(lái)講還是一樣的。
我希望這個(gè)介紹能夠?qū)δ切┫胍獜氖?ldquo;數(shù)據(jù)科學(xué)”或“大數(shù)據(jù)”行業(yè)但不知從哪里或者怎樣開(kāi)始的人們有所幫助。 請(qǐng)記住,對(duì)于文章中所提到的任何角色。這里的介紹都不能包羅萬(wàn)象。 但是,對(duì)于對(duì)數(shù)據(jù)專業(yè)了解不多的人來(lái)講,這是一個(gè)很好的起點(diǎn)。
如果你對(duì)這個(gè)話題的不同看法感興趣,可以讀一讀Zachary Lipton的Will the Real Data Scientists Please Stand Up(http://www.kdnuggets.com/2015/05/data-science-machine-learning-scientist-definition-jargon.html)?
作者介紹:
盧苗苗:北京語(yǔ)言大學(xué)英語(yǔ)專業(yè)在讀。一個(gè)帶有理科思維的文科生。 愛(ài)思考善分析,腦洞大想法多,喜歡在復(fù)雜事物中發(fā)現(xiàn)潛在聯(lián)系。既喜歡仰望星空,也喜歡腳踏實(shí)地。作為數(shù)據(jù)派的活躍分子,希望能同各位大們好好學(xué)習(xí)。
梁傅淇:軟件工程本科在讀,主修大數(shù)據(jù)分析,喜好搜索、收集各類信息。希望能在THU數(shù)據(jù)派平臺(tái)認(rèn)識(shí)更多對(duì)數(shù)據(jù)分析感興趣的朋友,一起研究如何從數(shù)據(jù)挖掘出有用的模型和信息。