2017年含金量最高的機器學習技能或知識有哪些?
2017年,哪些機器學習領域的知識技能最具有價值?Quora上有兩個回答,共提到10個最重要的機器學習技能。以下是譯文。
一、來自Vladimir Novakovski的回答:
對機器學習做出最大貢獻的通常都是通才。特別是在2017年,有很多關于機器學習的大肆炒作。很多求職者在網上學習一些深度學習的課程,這讓我想起20世紀90年代時,有很多人不去讀計算機科學教材,而是去讀一些號稱“20天學會VBScript”的速成書籍。(其實今天依然有這樣的人)
依舊重要的技能包括:(a)了解統計學、優化、建立量化模型的基本原理;(b)了解模型和數據分析是如何實際應用到產品和業務中的。
除了上述兩點以外,以下幾點技能在2017年也至關重要:
- 知道如何編寫高質量的軟件。 一個團隊編寫質量垃圾的軟件,另一個團隊負責完善的時代已經過去了。使用Python和R這樣的編程語言和它們的軟件包,可以輕松處理數據和模型,因此數據科學家和機器學習工程師應該能夠具備較高水平的編程能力,并了解系統設計的基礎知識。
- 使用大型數據集。雖然“大數據”這個術語使用的太過頻繁,但數據存儲的成本確實呈現急劇下降趨勢。這意味著愈來愈多的來自不同領域的數據集在處理和應用模型。
是的,一旦你對一些知識有基本的理解和相應的技術水平后,了解至少一個熱門領域,例如計算機視覺和感知的深度學習、推薦引擎、NLP(自然語言處理)等,都會對你大有裨益。
二、來自Shivam Kohli 的回答:
技能#1:編程
這也許是數據科學家必備的最基本的技能——數據科學家的工作要比傳統統計學家的工作實際的多。編程在許多方面都很重要,包括以下三點:
- 編程能增強你做數據統計的能力。如果你有一大堆統計數據,但卻沒有辦法去處理,那么你的統計知識將無用武之地。
- 編程能使你有分析大型數據集的能力。你在業界工作的數據集并不像樣本iris數據集(Iris數據集是常用的分類實驗數據集,由Fisher, 1936收集整理。)那么小可愛,你能輕松獲得數以百萬計甚至更多的數據。
- 通過編程,你可以創建更好的數據處理工具。這包括建立數據的可視化系統,創建自動分析實驗的框架,以及管理公司的數據流,以便所需的數據可以手到擒來。
技能#2:定量分析
定量分析是數據科學家必備的核心技能。數據科學的大部分內容是通過分析自然科學和實驗所產生的數據來理解一個特別復雜的科學系統的行為。定量分析技能在許多方面都很重要,包括以下三點:
- 試驗設計和分析:特別是對從事消費互聯網應用的數據科學家—數據記錄的方式和實驗的運行方式,為大量的實驗測試各種假設提供了途徑。實驗分析是很可能出錯的(這一點可以詢問任何統計學家),因此,在這方面,數據科學家可以提供很多幫助。
- 復雜型經濟/增長系統建模:一些經典建模是較為常見的,如客戶流失模型或客戶終身價值模型。更復雜的建模,如供應和需求建模,匹配供應商和供應商之間經濟最優方法,以及建模公司的增長渠道,來更好的量化分析哪些增長途徑最有價值。最著名的例子是Uber的價格飆升建模。
- 機器學習:即使沒有實現機器學習模型,對于數據科學家來說,他們也可以提供幫助創建原型來測試假設,選擇和創造的功能,以及判定現有機器學習系統中的優勢和在該領域的機會。
哪些數據科學領域的人員對這項技能最有需求呢?1。物理學家2。統計學家3。經濟學家4。運籌學家5。更多,他們非常習慣通過自上而下的方法(模型)或自下而上的方法來理解復雜的系統(數據推斷)。
技能#3:產品直覺
產品直覺是一種技能,它與數據科學家對系統進行定量分析的能力有關。產品知識意味著要理解生成數據科學家分析的所有數據的復雜系統。這個技能的重要性體現在:
- 產生假設:一個非常了解產品的數據科學家可以用一種特定的方式改變系統的行為方式。假設是基于“預感”關于系統的某些方面如何表現,你需要知道系統對它是如何工作的有預感。
- 定義度量標準:傳統的分析技能集包括確定公司可以用來跟蹤特定目標成功的主要和次要指標。數據科學家需要了解產品,以便創建兩個產品指標:1。衡量意圖2。衡量具有推動價值的東西。
- 調試分析:“難以置信”的結果常常是由于系統的“令人難以置信”的特性而引起的。良好的產品知識有助于提升產品檢查速度,幫助更快地識別出可能出錯的東西。
產品知識通常包括使用公司創造的產品。如果那是不可能的,那么至少試著去了解那些實際使用產品的人。
技能#4:溝通能力
這項技能很重要,有助于顯著提高上述所有技能的影響力。這一點特別重要,是區別好的數據科學家和偉大的數據科學家的重要標準。良好的溝通可以以多種方式體現,包括:
- 溝通見解:一些數據科學家將其稱之為“講故事”。這里最重要的是以清晰、簡明和有效的方式交流見解,以便公司中的其他人能夠有效地理解這些見解。
- 數據可視化呈現:一幅清楚明晰的圖表勝過千言萬語。
- 總體溝通:作為一名數據科學家,幾乎總是意味著作為一個團隊在工作,包括與工程師、設計師、產品經理、運營人員以及更多的角色合作。良好的總體溝通有助于促進信任和理解,對于被委托管理數據的人來說,這是極其重要的。
技能#5:團隊合作
最后這項技能將以上4個技能連接起來。特別是數據科學家不能孤立地存在,要依靠團隊工作。從我所看到的,數據科學家深入到公司的方方面面(或者至少存在于產品開發組織中)時,結果做得最好。
團隊合作之所以重要,有很多原因,包括:
- 無私:這包括為他人提供幫助和指導,并將公司的使命放在自己的個人職業生涯野心之上。
- 不斷迭代:數據科學家重視反饋,他們的大部分工作都需要與其他人進行反復迭代和反饋,以達成有影響力的解決方案。
- 與他人分享知識:由于數據科學職業是一個新近出現的工作,基本上沒有人具備完整的技能,尤其是當你需要收集所有可能有用的統計技術、框架、庫、語言和工具時。由于知識可能分散在不同數據科學家及其組織中,因此對于數據科學家來說,不斷地分享他們的知識、方法和成果尤其有用。