我們問了Yann LeCun等16個(gè)頂級(jí)數(shù)據(jù)科學(xué)家,這是他們給數(shù)據(jù)新人的建議
大數(shù)據(jù)文摘作品
編譯:Fei、楊小咩是小怪獸、張南星、Rita、云舟
數(shù)據(jù)科學(xué)為何迷人?這與數(shù)據(jù)科學(xué)家密不可分!
通過合理使用大量數(shù)據(jù),在這群人的手中,大批新應(yīng)用、新行業(yè)應(yīng)用而生。
語音識(shí)別,計(jì)算機(jī)視覺中的物體識(shí)別,機(jī)器人,自動(dòng)駕駛汽車,生物信息學(xué),神經(jīng)科學(xué),系外行星的發(fā)現(xiàn),對(duì)宇宙起源的理解,以及在經(jīng)費(fèi)有限的條件下,組織一支勝出的棒球隊(duì)。
數(shù)據(jù)科學(xué)家是整個(gè)產(chǎn)業(yè)的核心。他們必須將應(yīng)用領(lǐng)域的知識(shí)與統(tǒng)計(jì)專業(yè)知識(shí)結(jié)合起來,并運(yùn)用最新的計(jì)算機(jī)科學(xué)思想來實(shí)施。
本文節(jié)選自《工作中的數(shù)據(jù)科學(xué)家》,書中采訪了16個(gè)不同行業(yè)的16位頂級(jí)數(shù)據(jù)科學(xué)家,以了解他們?cè)诶碚撋先绾嗡伎迹约霸趯?shí)際中解決什么問題,數(shù)據(jù)的作用和取得成功的原因。
本文中,你將看到這些來自不同行業(yè)的科學(xué)家對(duì)以下這個(gè)問題的回答:
“你會(huì)給初入數(shù)據(jù)科學(xué)行業(yè)的人提供什么建議?”
去年,大數(shù)據(jù)文摘也花費(fèi)3個(gè)月的時(shí)間,訪談了來自不同國(guó)家不同行業(yè)的10位頂級(jí)數(shù)據(jù)科學(xué)團(tuán)隊(duì)負(fù)責(zé)人。感興趣的同學(xué)可以在文末看到這十篇內(nèi)容。
1. Chris Wiggins,紐約時(shí)報(bào)首席數(shù)據(jù)科學(xué)家、哥倫比亞應(yīng)用數(shù)學(xué)副教授
創(chuàng)造力和關(guān)懷。你必須真正喜歡某件事情,愿意花很長(zhǎng)一段時(shí)間來琢磨它。還有,保持一定的懷疑。我喜歡博士生的一個(gè)原因是——五年的時(shí)間足以讓你有一個(gè)發(fā)現(xiàn),讓你認(rèn)識(shí)到你一路上做錯(cuò)的所有事情。對(duì)你來說很棒的是,能理智地反復(fù)思考“冷聚變”然后意識(shí)到“哦,我真的搞砸了”,從而犯下一系列錯(cuò)誤并解決它們。
我認(rèn)為攻讀博士學(xué)位的過程,特別是做研究時(shí),確實(shí)能讓你對(duì)那些看起來理所當(dāng)然的事情有所懷疑。我認(rèn)為這點(diǎn)很有用,因?yàn)椋绻荒鼙3謶岩桑愫苋菀拙蜁?huì)走上錯(cuò)誤的道路——因?yàn)檫@是你第一次遇到一條看起來很靠譜的路。
雖然這個(gè)答案看起來無聊,但事實(shí)是你需要真正擁有技術(shù)深度。數(shù)據(jù)科學(xué)還未形成一個(gè)領(lǐng)域,所以目前還沒有證據(jù)。
我們很容易就可以通過維基百科理解機(jī)器學(xué)習(xí)的概念。但要真正做到這一點(diǎn),你需要知道對(duì)一個(gè)具體的問題應(yīng)該使用哪種工具,而且你需要充分了解每種工具的缺陷和限制。要獲得這些經(jīng)驗(yàn)沒有捷徑。只有不斷試錯(cuò)。你會(huì)發(fā)現(xiàn)自己將分類問題歸入聚類問題,或?qū)⒕垲悊栴}歸入假設(shè)檢驗(yàn)問題。
你發(fā)現(xiàn)自己開始嘗試某些事情,自信自己做的是對(duì)的,然而最終意識(shí)到你完全錯(cuò)了,這樣的事情你會(huì)經(jīng)歷許多次,而且非常不幸沒有捷徑可走——但這會(huì)提升你的經(jīng)驗(yàn)。你只需要這樣做下去,并不斷犯錯(cuò)誤,這也是另一個(gè)我喜歡在這個(gè)領(lǐng)域從業(yè)多年的人的理由。
在某件事上要想成為專家需要很長(zhǎng)時(shí)間。這需要多年的錯(cuò)誤。幾個(gè)世紀(jì)以來現(xiàn)實(shí)一直如此。引用著名物理學(xué)家Niels Bohr的一句名言,成為一個(gè)領(lǐng)域的專家的方法就是在該領(lǐng)域中盡可能地犯錯(cuò)。
2. Caitlin Smallwood,Netflix的科學(xué)與算法副總裁
我會(huì)說在你做任何其他事情之前,首先要硬著頭皮理解數(shù)據(jù)的基礎(chǔ)知識(shí),盡管它既不迷人也不那么有趣。換句話說,努力了解如何捕獲數(shù)據(jù),準(zhǔn)確理解每個(gè)數(shù)據(jù)字段是如何定義的,并了解數(shù)據(jù)何時(shí)丟失。
如果數(shù)據(jù)缺失,這是否意味著什么?它是否僅在某些情況下丟失?這些小小的微妙的數(shù)據(jù)陷阱會(huì)讓你深深陷入數(shù)據(jù)科學(xué)的魅力中。
你可以使用最復(fù)雜的算法,但如果這一切建立在不經(jīng)檢驗(yàn)的數(shù)據(jù)集上,你得到的結(jié)果也毫無價(jià)值。無論你有多迫不及待想要著手?jǐn)?shù)據(jù)建模的部分,你都無法忽略原始的數(shù)據(jù)。在開始建模之前,標(biāo)記你的i,跨過你的t,仔細(xì)檢查你所掌握的所有底層數(shù)據(jù)。
我又漸漸學(xué)會(huì)的另一件事是,在系統(tǒng)環(huán)境下,混合算法幾乎總比單一算法表現(xiàn)得出色,因?yàn)椴煌募夹g(shù)會(huì)利用數(shù)據(jù)模式的不同方面,特別是在復(fù)雜的大型數(shù)據(jù)集中。因此,雖然你可以采用一種特定的算法并不斷迭代以獲得更好的模型,但我的經(jīng)驗(yàn)是,算法組合往往比單一算法更好。
3. Yann LeCun,F(xiàn)acebook人工智能研究總監(jiān)、紐約大學(xué)教授
我總是給出同樣的建議,因?yàn)槲医?jīng)常被問到這個(gè)問題。我認(rèn)為,如果你是一名本科生,選擇一門你可以盡可能多地學(xué)習(xí)數(shù)學(xué)和物理課程的專業(yè)。而且它必須是正確的課程。我說的話可能聽起來自相矛盾了,但工程學(xué)或物理學(xué)的專業(yè)可能比數(shù)學(xué)、計(jì)算機(jī)科學(xué)或經(jīng)濟(jì)學(xué)更合適。當(dāng)然,你需要學(xué)習(xí)編程,所以你需要參加計(jì)算機(jī)科學(xué)專業(yè)的大量課程來學(xué)習(xí)編程的機(jī)制。
然后,參與一項(xiàng)數(shù)據(jù)科學(xué)領(lǐng)域的研究生項(xiàng)目。學(xué)習(xí)本科生的機(jī)器學(xué)習(xí),人工智能或計(jì)算機(jī)視覺課程,因?yàn)槟阈枰佑|這些技術(shù)。在那之后,盡可能多地參加數(shù)學(xué)和物理課程,尤其是應(yīng)用數(shù)學(xué)課程,例如優(yōu)化問題,因?yàn)樗麄兪鼓隳軌蚋映浞值貞?yīng)對(duì)真正的挑戰(zhàn)。
這也取決于你想去的地方,因?yàn)閿?shù)據(jù)科學(xué)或人工智能的背景下有許多不同的工作。人們應(yīng)該真正思考他們想做什么,然后研究這些主題。目前的熱門話題是深度學(xué)習(xí),這意味著你需要學(xué)習(xí)和理解神經(jīng)網(wǎng)絡(luò)的經(jīng)典著作,學(xué)習(xí)優(yōu)化問題,學(xué)習(xí)線性代數(shù)等知識(shí)。這有助于你了解我們每天會(huì)遇到的基本數(shù)學(xué)技巧和一般概念。
4. Erin Shellman,Zymergen的數(shù)據(jù)科學(xué)經(jīng)理、Nordstrom數(shù)據(jù)實(shí)驗(yàn)室和AWS S3的前數(shù)據(jù)科學(xué)家
對(duì)于那些仍在決定學(xué)習(xí)什么的人來說,我會(huì)說STEM(理工科)領(lǐng)域毫無意義,尤其是‘TEM’領(lǐng)域。學(xué)習(xí)STEM科目將為你提供測(cè)試和了解世界的工具。
這就是我對(duì)數(shù)學(xué),統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的看法。我對(duì)數(shù)學(xué)本身不感興趣,但我的興趣在于用數(shù)學(xué)來描述事物。畢竟這些都是工具集,所以即使你對(duì)數(shù)學(xué)或統(tǒng)計(jì)學(xué)上不感興趣,這仍然非常值得我們投入進(jìn)去,考慮如何將它應(yīng)用于你真正熱愛的事情上。
對(duì)于像我這樣試圖轉(zhuǎn)型的人來說,我會(huì)覺得很困難。要知道,轉(zhuǎn)行很困難,而且你必須加倍努力。這不是數(shù)據(jù)科學(xué)獨(dú)有的困難——這就是生活。在這個(gè)領(lǐng)域,我們很難不與別人建立聯(lián)系,我們可以通過與慷慨的人們見面、喝咖啡來建立有效的聯(lián)系。在我的生活中,頭條規(guī)則就是“跟進(jìn)”。如果你和某個(gè)人交流,在他身上發(fā)現(xiàn)了你想要的東西,就跟進(jìn)。
數(shù)據(jù)科學(xué)家的文章可能非常唬人,因?yàn)榇蠖鄶?shù)文章讀起來像數(shù)據(jù)科學(xué)術(shù)語表。事實(shí)是,技術(shù)變化如此之快,以至于沒有人擁有可能值得記錄下來的所有經(jīng)驗(yàn)。
當(dāng)你看到這里時(shí),這一點(diǎn)可能是壓倒性的,而且你可能會(huì)覺得“這不適合我,我沒有任何這些技能,也沒有什么可以貢獻(xiàn)的。”我勸你們不要有這種想法,只要你隨時(shí)都可以改變和學(xué)習(xí)新東西。
最終,公司需要的是能夠嚴(yán)格定義問題并設(shè)計(jì)解決方案的人。他們也需要善于學(xué)習(xí)的人。我認(rèn)為這些才是核心技能。
5. Daniel Tunkelang, Twiggle的首席搜索傳道者、LinkedIn的前搜索質(zhì)量主管
對(duì)于那些來自數(shù)學(xué)或自然科學(xué)領(lǐng)域的人,我建議他們投資于學(xué)習(xí)軟件技能——尤其是Hadoop和R,它們是使用最廣泛的工具。來自軟件工程的人應(yīng)該參加一個(gè)機(jī)器學(xué)習(xí)課程,并使用真實(shí)的數(shù)據(jù)進(jìn)行一個(gè)項(xiàng)目,其中許多數(shù)據(jù)都是免費(fèi)的。正如許多人所說,成為數(shù)據(jù)科學(xué)家的最好方式是實(shí)踐數(shù)據(jù)科學(xué)。
數(shù)據(jù)就在那里,科學(xué)也不是那么難學(xué),特別是對(duì)于那些受過數(shù)學(xué)、科學(xué)或工程學(xué)訓(xùn)練的人。讀《數(shù)據(jù)的不合理有效性》—谷歌研究人員Alon Halevy、Peter Norvig和Fernando Pereira的一篇經(jīng)典文章。文章通常被總結(jié)為“更多的數(shù)據(jù)勝過更好的算法。”
數(shù)據(jù)的不合理有效性:http://www.cs.columbia.edu/igert/courses/E6898/Norvig.pdf
整篇文章都值得一讀,因?yàn)樗攀隽俗罱谑褂镁W(wǎng)絡(luò)規(guī)模數(shù)據(jù)改進(jìn)語音識(shí)別和機(jī)器翻譯方面取得的成功。另外,請(qǐng)聽Monica Rogati關(guān)于更好的數(shù)據(jù)如何擊敗更多數(shù)據(jù)的見解吧。理解并內(nèi)化這兩個(gè)觀點(diǎn),你正在成為一名數(shù)據(jù)科學(xué)家的道路上狂奔。
6. John Foreman,產(chǎn)品管理副總裁兼MailChimp前首席數(shù)據(jù)科學(xué)家
我發(fā)現(xiàn)很難找到并聘用合適的人。
這確實(shí)是一件很困難的事情,因?yàn)楫?dāng)我們思考大學(xué)制度的現(xiàn)狀時(shí),無論是本科生還是研究生院,你只關(guān)注一件事。
你擅長(zhǎng)什么。但數(shù)據(jù)科學(xué)家有點(diǎn)像新興的文藝復(fù)興人士,因?yàn)閿?shù)據(jù)科學(xué)本質(zhì)上是多學(xué)科的。
這就是為什么有了那個(gè)“數(shù)據(jù)科學(xué)家比計(jì)算機(jī)程序員懂得更多的統(tǒng)計(jì)知識(shí),并且能比統(tǒng)計(jì)學(xué)家更好地編程”的一個(gè)大笑話的原因。
這個(gè)笑話是什么意思?這是說數(shù)據(jù)科學(xué)家是一個(gè)對(duì)這兩件事情略知一二的人。但我想說,他們知道的不只是兩件事。他們還必須知道如何溝通。
他們還需要知道概率,組合,微積分等。
學(xué)習(xí)一些可視化也無妨。他們還需要知道如何操作數(shù)據(jù),使用數(shù)據(jù)庫,甚至一點(diǎn)點(diǎn)OR。有很多事情他們需要知道。所以要找到這些人真的很難,因?yàn)樗麄儽仨毥佑|很多學(xué)科,他們必須能夠明智地講述他們的經(jīng)驗(yàn)。這對(duì)任何一個(gè)申請(qǐng)人來說都是個(gè)艱巨的任務(wù)。
雇用一個(gè)人需要很長(zhǎng)時(shí)間,這也是為什么我認(rèn)為人們一直在談?wù)摤F(xiàn)在數(shù)據(jù)科學(xué)還沒有足夠的人才的原因。我認(rèn)為這在一定程度上是正確的。我想一些正在開辦的學(xué)位課程會(huì)對(duì)現(xiàn)狀有所幫助。
但即使如此,從這些學(xué)位項(xiàng)目中畢業(yè),對(duì)于MailChimp,我們還是會(huì)看看你如何表達(dá)并與我們交流這個(gè)特定項(xiàng)目是如何教會(huì)你使用數(shù)據(jù)科學(xué)橫貫多個(gè)學(xué)科的。
這將淘汰非常多的人。我希望有更多的課程將重點(diǎn)著眼于數(shù)據(jù)科學(xué)家在工作環(huán)境的溝通和協(xié)作方面。
7. Roger Ehrenberg,IA風(fēng)險(xiǎn)投資公司的執(zhí)行合伙人
我想這些領(lǐng)域有最多的機(jī)會(huì)也有最大的挑戰(zhàn)。
醫(yī)療保健數(shù)據(jù)顯然在PII和隱私問題上有一些大問題。
除此之外,還有僵硬的官僚主義,僵化的基礎(chǔ)設(shè)施和數(shù)據(jù)孤島,這使得解決需要跨多個(gè)數(shù)據(jù)集進(jìn)行集成的難題變得非常困難。
但數(shù)據(jù)一定會(huì)改變這個(gè)行業(yè),我認(rèn)為我們?cè)谶@里討論的許多技術(shù)都直接關(guān)系到如何使醫(yī)療保健更好、更便宜、更分散。這是一代人的機(jī)會(huì)。
早期的另一個(gè)巨大領(lǐng)域是風(fēng)險(xiǎn)管理——不管是金融、貿(mào)易還是保險(xiǎn)領(lǐng)域。
當(dāng)你在討論將新的數(shù)據(jù)集納入風(fēng)險(xiǎn)評(píng)估時(shí),這真的是一個(gè)難題——尤其是在將這些技術(shù)應(yīng)用到保險(xiǎn)業(yè)這樣的行業(yè)時(shí),就像醫(yī)療保健一樣,大量官僚機(jī)構(gòu)中存在大量隱私問題和數(shù)據(jù)。
與此同時(shí),這些老舊而僵化的公司才剛剛開始開放,并正在與創(chuàng)業(yè)社區(qū)互動(dòng),以利用新技術(shù)。這是另一個(gè)讓我非常興奮的領(lǐng)域。
第三個(gè)我熱衷的領(lǐng)域是重塑制造業(yè),并使其更加高效。制造業(yè)回歸陸上的趨勢(shì)已經(jīng)形成。
更強(qiáng)大的制造業(yè)可能成為在美國(guó)創(chuàng)造充滿活力的中產(chǎn)階級(jí)的橋梁。我認(rèn)為技術(shù)可以幫助加速這一有利趨勢(shì)。
8. Claudia Perlich, Dstillery首席科學(xué)家
我認(rèn)為,最終,學(xué)習(xí)如何做數(shù)據(jù)科學(xué)就像學(xué)習(xí)滑雪。你必須做。
你只能看很多視頻視頻,然后不斷地學(xué)習(xí)。在一天結(jié)束的時(shí)候,你必須騎上你那該死的雪橇,從那座山上下來。
你會(huì)在途中崩潰好幾次,這很好。這是你需要的學(xué)習(xí)體驗(yàn)。
實(shí)際上,我更傾向于問面試者那些不順利的事情,而不是那些行得通的事情,因?yàn)檫@告訴我他們?cè)谶@個(gè)過程中學(xué)到了什么。
每當(dāng)有人來問我,“我應(yīng)該怎么做?”我說,“是的,當(dāng)然,參加關(guān)于機(jī)器學(xué)習(xí)技術(shù)的在線課程。毫無疑問,這是有用的。顯然,你必須能夠編程,至少在某種程度上。你不必是一名Java程序員,但你必須設(shè)法完成一些工作。我不在乎怎樣做。”
最終,無論是在Datakind花時(shí)間做NGO的志愿者,還是去kaggle網(wǎng)站參加他們的一些數(shù)據(jù)挖掘競(jìng)賽——只要去做就好。
特別是在Kaggle上,閱讀論壇上其他人告訴你的關(guān)于這個(gè)問題的內(nèi)容討論,因?yàn)樵谀抢锬憧梢粤私獾饺藗冊(cè)谧鍪裁矗麄冊(cè)谧鍪裁矗约笆裁磳?duì)他們不起作用。
因此,任何能讓你真正參與到處理數(shù)據(jù)的事情中去的事情,即使你沒有為此得到報(bào)酬,也是一件很棒的事情。
記住,你必須滑下那座山。沒有其他辦法了。你無法學(xué)習(xí)其他方式。
所以,自愿抽出時(shí)間,用任何你能想到的方式沾手,如果你有機(jī)會(huì)做實(shí)習(xí),那就再好不過了。另外,有很多機(jī)會(huì)可以讓你開始。去做吧。
9. Jonathan Lenaghan, PlaceIQ的首席科學(xué)家兼產(chǎn)品開發(fā)高級(jí)副總裁
首先,自我批評(píng)是非常重要的:永遠(yuǎn)質(zhì)疑你的假設(shè),對(duì)你的產(chǎn)出保持偏執(zhí)。這是最簡(jiǎn)單的部分。
如果人們真的想在數(shù)據(jù)科學(xué)領(lǐng)域取得成功,在技能方面,具備良好的軟件工程技能是至關(guān)重要的。
因此,即使我們雇用的人員很少有編程經(jīng)驗(yàn),我們也會(huì)非常努力地盡快向他們灌輸工程、工程實(shí)踐和許多優(yōu)秀的快速編程實(shí)踐的重要性。
這對(duì)他們和我們都是有幫助的,因?yàn)檫@些幾乎都可以一對(duì)一地應(yīng)用于數(shù)據(jù)科學(xué)。
如果你現(xiàn)在查看一下開發(fā)程序,它們有連續(xù)集成、持續(xù)構(gòu)建、自動(dòng)化測(cè)試和測(cè)試工具—所有這些都很好地映射了從開發(fā)作業(yè)世界到數(shù)據(jù)操作(我從Red Monk借鑒的短語)世界。
我認(rèn)為這是一個(gè)非常強(qiáng)大的概念。對(duì)所有數(shù)據(jù)進(jìn)行測(cè)試非常重要,這樣如果你更改了代碼,你就可以返回并測(cè)試所有數(shù)據(jù)。
擁有工程學(xué)思想對(duì)于在數(shù)據(jù)科學(xué)領(lǐng)域高速發(fā)展至關(guān)重要。
閱讀《完整代碼》和《實(shí)用主義程序員》會(huì)比閱讀機(jī)器學(xué)習(xí)的書籍給你帶來更多——但是,當(dāng)然你也必須閱讀機(jī)器學(xué)習(xí)的書籍。
10. Anna Smith,Spotify高級(jí)數(shù)據(jù)工程師、Rent the Runway前分析工程師
如果有人剛剛開始從事數(shù)據(jù)科學(xué),那么最重要的事情就是要了解問別人問題是一件很好的事兒。我也認(rèn)為謙卑是很重要的。
你必須確保你沒有被束縛在你正在做的事情中。你總是可以做出改變并重新開始。
我認(rèn)為,在你剛起步的時(shí)候,能夠廢棄代碼真的很困難,但最重要的事情是做一些事情。
即使你沒有數(shù)據(jù)科學(xué)方面的工作,您仍然可以在宕機(jī)時(shí)間內(nèi)探索數(shù)據(jù)集,并且可以提出問題來詢問數(shù)據(jù)。
在我個(gè)人的時(shí)間里,我琢磨過Reddit的數(shù)據(jù)。我問自己,“我可以如何通過我擁有或沒有的工具來探索Reddit?”
這很好,因?yàn)橐坏┠汩_始了,你可以看到其他人如何解決同樣的問題。
用你的直覺,開始閱讀別人的文章,然后說,“我可以在我的方法中使用這個(gè)技巧。”緩慢的開始,緩慢的前進(jìn)。
當(dāng)我開始的時(shí)候,我嘗試了很多閱讀,但我認(rèn)為這并沒有什么幫助,直到你真正使用代碼和數(shù)據(jù)來理解它的工作原理,以及它是如何運(yùn)行的。
當(dāng)人們將其呈現(xiàn)在書本中時(shí),這一切都很美好。在現(xiàn)實(shí)生活中,事實(shí)并非如此。
我認(rèn)為嘗試很多不同的東西也是非常重要的。我從未想過我會(huì)在這里。我也不知道五年后我會(huì)在哪里。
但也許這就是我如何學(xué)習(xí)的,通過學(xué)習(xí)一些不同的學(xué)科的知識(shí),來嘗試?yán)斫馐裁床攀亲钸m合我的。
11. Andre Karpistsenko, Taxify數(shù)據(jù)科學(xué)首席及創(chuàng)始人之一、PlanetOS研發(fā)負(fù)責(zé)人
雖然這聽起來有些大而化之,但我認(rèn)為你應(yīng)該相信自己并且遵從內(nèi)心。如果僅僅只盲從媒體新聞所宣揚(yáng)的內(nèi)容,然后選擇了自己并不喜歡的方向,我認(rèn)為你會(huì)很容易感到沮喪。所以當(dāng)我們回到數(shù)據(jù)科學(xué)上時(shí),你應(yīng)該把它看做職業(yè)生涯的起點(diǎn)。
數(shù)據(jù)科學(xué)的背景對(duì)于未來發(fā)展將有極大助力,開發(fā)軟件以及數(shù)據(jù)統(tǒng)計(jì)的技能將幫助你在任何領(lǐng)域中都能做出更明智的決策。譬如,我們?cè)啻温犝f一個(gè)運(yùn)動(dòng)員是如何通過數(shù)據(jù)來改善自身表現(xiàn)的:通過改善并反復(fù)練習(xí)應(yīng)該起跳的角度,他成為了金牌所有者。這完全可以歸功于數(shù)據(jù)驅(qū)動(dòng)的方法。
如果需要我給出更具體的操作性建議,那么需要看這個(gè)接受建議者的野心有多大了。如果這個(gè)人是想創(chuàng)造新的方法和工具,那么建議將會(huì)大不相同,因?yàn)檫@需要在選定的方向上堅(jiān)持不懈,才會(huì)成功。但如果目的僅僅是能夠在很多情況下靈活機(jī)動(dòng),那么一個(gè)豐富的工具箱就可以解決你的問題。
我曾經(jīng)得到的最佳建議來自于斯坦福的一個(gè)教授,不久之前我上過他的課。他的建議是成為一個(gè)T型人才,即在核心競(jìng)爭(zhēng)力之外能夠有次級(jí)核心競(jìng)爭(zhēng)力,如此便能在自己需要或者想要轉(zhuǎn)行的時(shí)候有所選擇。除了在某一垂直領(lǐng)域擁有專家級(jí)別的技能之外,他還建議擁有足夠?qū)挼臋M向背景,以便在不同情況下與不同的人合作。
所以如果你還是學(xué)生,那么建造一個(gè)T型能力樹,擁有次級(jí)核心技能,這也許你能選擇的最佳成長(zhǎng)路線了。
同時(shí),最重要的事情在于與一幫比自己優(yōu)秀的人相處,然后從他們身上不斷學(xué)習(xí)。這是我能提供的最好建議。
大學(xué)校園是你能夠深切體會(huì)到人之多樣性的地方。如果你能夠與最優(yōu)秀的人共同工作,那么你就能在任何事情上獲得成功。
12. Amy Heineike,PrimerAI科技副總裁、 Quid前數(shù)學(xué)首席
我認(rèn)為他們也許需要開始審視內(nèi)心,分辨自己真正在乎的東西是什么。自己真正想做的事情是什么?當(dāng)下,數(shù)據(jù)科學(xué)的確算是熱點(diǎn)之一,所以也許很多人都認(rèn)為如果能夠給自己貼上“數(shù)據(jù)科學(xué)家”的標(biāo)簽,那么快樂、幸福以及金錢近在咫尺。
所以我真心建議分辨一下自己對(duì)數(shù)據(jù)科學(xué)的什么內(nèi)容感興趣,這是你應(yīng)該問自己的第一個(gè)問題。其次,考慮一下如何讓自己精通這個(gè)內(nèi)容,以及這個(gè)內(nèi)容背后所代表的工作是什么,它和你真正感興趣的內(nèi)容是否相符。
我們的策略是深入挖掘你需要學(xué)習(xí)的某一塊內(nèi)容。我們團(tuán)隊(duì)中有自然語言處理的博士或者物理學(xué)博士,他們需要使用很多不同的分析工具。你可以成為某一領(lǐng)域的專家,然后找到同樣在試圖解決相同問題或者類似問題的人,并學(xué)習(xí)他們解決問題的方式。這是一種方法。
另一個(gè)方法就是跳出盒子。世界之大,數(shù)據(jù)集的多樣性超過想象。如果你正在某家公司工作,想看一些新機(jī)會(huì),那么想想看你手中是否有一些數(shù)據(jù)可以通過更加有趣的方式處理。
盡量尋找新機(jī)會(huì)嘗試不同的內(nèi)容,然后看這是否是自己想做的事情。甚至自己在家都可以找到開放的數(shù)據(jù)集。到處看看,戳戳,說不定就能找打可以“玩弄”的數(shù)據(jù)。我認(rèn)為這是一個(gè)好起點(diǎn)。
以“數(shù)據(jù)科學(xué)”之名義,有許多不同的角色供你選擇,同時(shí)也存在許多你認(rèn)為與數(shù)據(jù)科學(xué)相關(guān)但尚未被貼上標(biāo)簽的角色,因?yàn)槿藗兩形匆庾R(shí)到它們的存在。所以再三思考你真正想要的是什么。
13. Victor Hu,QBE保險(xiǎn)數(shù)據(jù)科學(xué)首席、Next Big Sound前數(shù)據(jù)科學(xué)家
首先你需要講一個(gè)故事。你每天做的事情是能夠真正沉到系統(tǒng)、組織或者行業(yè)的本質(zhì)中去的。但如果你希望自己做的事情對(duì)人們是有用且能夠理解的,你需要通過講故事的方式呈現(xiàn)。
能夠?qū)⒛闼龅氖虑閷懗鰜怼⒅v清楚是非常重要的能力。同時(shí),你也不必太過擔(dān)心所使用的算法是否足夠好。數(shù)據(jù)的多少和優(yōu)良都會(huì)讓算法表現(xiàn)不同,所以如果你能夠通過某種渠道獲取更多更好、干凈且有效的數(shù)據(jù)——那就太棒啦!
14. Kira Radinsky,eBay數(shù)據(jù)科學(xué)首席科學(xué)家及總監(jiān)、SalesPredict前CTO及創(chuàng)始人之一
找到你迫不及待想解決的問題。于我而言,每次當(dāng)我開始嘗試新事物時(shí),如果沒有我希望能借之切實(shí)解決的問題,那么我會(huì)覺得非常無趣。盡快開始閱讀一些材料,然后開始著手于你希望解決的問題。隨著工作的推進(jìn),你會(huì)看到自己的問題,這些問題就會(huì)引導(dǎo)你求助于別的學(xué)習(xí)材料,包括書籍、論文或者大牛。所以多花點(diǎn)時(shí)間在解決問題以及與人溝通上,然后你就會(huì)變成下一個(gè)大牛。
深刻理解基礎(chǔ)知識(shí):了解一些基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)及計(jì)算機(jī)科學(xué)知識(shí);了解所使用工具的基礎(chǔ)及數(shù)學(xué)原理,而不僅僅是如何使用它們;了解輸入、輸出以及黑盒中所發(fā)生的事情,否則將無法知道應(yīng)用的最佳時(shí)機(jī)。當(dāng)然,這也取決于你正在解決的問題是什么。對(duì)于不同的問題,有許多不同的工具可供使用。你需要知道每個(gè)工具能解決什么問題,并且深刻理解你正試圖解決的問題,才能決定使用哪個(gè)工具或技巧。
15. Eric Jonas,UC Berkeley EECS博士后、Salesforce前首席預(yù)測(cè)科學(xué)家
他們應(yīng)該理解概率論的來龍去脈。我現(xiàn)在一旦學(xué)到新的知識(shí),我就會(huì)把它們映射到概率論中。這個(gè)做法非常有利,因?yàn)樗谖医鉀Q任何別的問題時(shí),能夠提供令人驚訝的、深刻且豐富的基礎(chǔ)理論。
E.T. Jaynes所寫的Probability Theory: The Logic of Science(《概率論:科學(xué)的邏輯》)被我們奉為圣經(jīng)。在某種意義上,我們認(rèn)為他的觀點(diǎn)很正確。我偏好于使用概率論的方法,因?yàn)榉椒ǖ谋澈蟠嬖趦蓷l互相垂直的軸——建模軸以及推理軸。
這從根本上反映了我表達(dá)問題的方式以及我是如何基于假設(shè)使用數(shù)據(jù)計(jì)算出概率的。我最喜歡貝葉斯理論的一點(diǎn)在于我能夠在不同的軸上單獨(dú)進(jìn)行計(jì)算。當(dāng)然,它們不能夠完全獨(dú)立,但是它們近乎于獨(dú)立,你就能夠充分利用這一點(diǎn)。
當(dāng)我觀察諸如深度學(xué)習(xí),或者基于LASSO的線性回歸系統(tǒng)的算法時(shí),(也就是最近火爆的機(jī)器學(xué)習(xí)理論),它們實(shí)際上就是在單獨(dú)處理一個(gè)軸,折疊了另一個(gè)軸。
當(dāng)使用基于LASSO的方法時(shí),我會(huì)遇到一個(gè)問題:“如果我稍微改變一下這個(gè)參數(shù),會(huì)發(fā)生什么?”線性回歸模型有非常明顯的線性加成高斯模型特征。如果我希望模型以不同的方式呈現(xiàn),怎么做?突然之間,所有的正則化最小二乘法不頂用了。推理方法并不接受這樣的嘗試。
16. Jake Porwar, DataKind的創(chuàng)始人及執(zhí)行總監(jiān)
我認(rèn)為扎實(shí)的統(tǒng)計(jì)學(xué)背景是前提,因?yàn)槟阈枰滥阍谧鍪裁矗⑶页浞掷斫饽闼ㄔ炷P偷谋举|(zhì)。除此之外,我的統(tǒng)計(jì)學(xué)項(xiàng)目也教會(huì)了我許多倫理相關(guān)的內(nèi)容,而這也是DataKind正在思考解決的問題。人們總是在想著自己的工作成果將被用在何處,你可以選擇給別人一個(gè)算法,也可以給一個(gè)提供攔截建議的模型,警察們也會(huì)根據(jù)這個(gè)模型行動(dòng),但是他們行動(dòng)的理由是什么,結(jié)果會(huì)如何?這就像在創(chuàng)造新的科學(xué)技術(shù),而你在思考算法帶來好處的同時(shí),也需要充分考慮其中的風(fēng)險(xiǎn),因?yàn)槟阋獙?duì)你所創(chuàng)造的東西負(fù)起責(zé)任來。
無論你的出身好或壞,一旦你充分理解所使用的模型,這就是你能做到的最好的事情。我們現(xiàn)在是科學(xué)家,僅僅考慮如何設(shè)計(jì)好產(chǎn)品是不夠的,我們正試圖總結(jié)所生存世界的規(guī)律。
這就是統(tǒng)計(jì)學(xué)的魅力所在——通過統(tǒng)計(jì)數(shù)據(jù)來證明一個(gè)假設(shè),或者通過建立一個(gè)模型以揭示這個(gè)世界是如何運(yùn)作的。如果只是盲目地相信模型結(jié)論,這將非常危險(xiǎn),因?yàn)檫@就是你對(duì)這個(gè)世界的解釋;這個(gè)模型有多少缺陷,你對(duì)這個(gè)世界的理解就有多少缺陷。
簡(jiǎn)而言之,學(xué)習(xí)統(tǒng)計(jì)學(xué),增加自己的洞察力。
《數(shù)據(jù)科學(xué)家在路上》這篇文章給我們介紹了頂尖的數(shù)據(jù)科學(xué)家是如何在令人眼花繚亂的行業(yè)和應(yīng)用間工作的——每個(gè)人都充分利用了自身對(duì)不同領(lǐng)域的理解,以及統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)知識(shí)來創(chuàng)造不可估量的財(cái)富及影響力。
數(shù)據(jù)增長(zhǎng)的速度越來越快,對(duì)于能夠充分理解數(shù)據(jù)、并從中提取價(jià)值的人需求也越來越大。如果你想繼承數(shù)據(jù)科學(xué)家的衣缽,那么這些優(yōu)秀數(shù)據(jù)科學(xué)實(shí)踐者們所說的內(nèi)容,將成為來之不易的建議,并且將激發(fā)你對(duì)數(shù)據(jù)和模型的激情。
相關(guān)報(bào)道:
https://www.linkedin.com/pulse/16-useful-advices-aspiring-data-scientists-james-le/?irgwc=1
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】