推薦 :數據科學與大數據技術面試建議與技巧之危險信號
本文列舉了12個危險信號,當數據科學家職位面試中發現公司存在這些危險信號時,你應該要遠離這家公司。如果你想加入一家公司作為他們的***個數據科學家,你將面臨一系列不同的挑戰。例如你極有可能要做很多數據工程工作(參見信號1),拓寬自己的數據科學思維模式。這些工作的確需要有人來完成,但我們通常建議你不要擔任***個數據科學角色,除非你有數據工程背景并且想做這方面的工作。
如果你所面試的公司只有一位數據科學***并且他們正在建立一個團隊,你可以詢問他們計劃如何處理下面提出的問題。但請記住,承諾一個理想的系統總是比實現一個更容易。
數據科學團隊運行方面的危險信號
1、沒有數據工程或基礎設施
數據科學要求數據在分析環節能被方便使用或獲取。如果公司沒有一個維護良好的數據基礎設施,那么你將無法獲得工作所需。數據工程師的職責是獲取數據以供數據分析環節使用,如果公司沒有數據工程師,那么你不得不自己完成數據獲取工作。如果你覺得你能勝任數據工程師的角色,上述問題可能無所謂,否則你不得不在獲取有價值的數據上花費很多精力。
在面試期間要問的問題:貴公司的數據基礎設施是什么樣的?維護者是誰? 數據通常采用什么格式(Excel、SQL數據庫、csv)?
2、沒有數據科學家之間的同行評審
一個強大的數據科學團隊有辦法確保任何錯誤不被遺漏。實現方法包括代碼審查、練習演示以及與團隊的一致性檢查。如果團隊不能始終如一地執行這些操作,那么錯誤在工作交付之后才會被發現,并導致某些人因此受到斥責。
在面試期間要問的問題:團隊采取哪些步驟進行質量保證和同行評審?
3、團隊中沒有標準的語言集
許多數據科學團隊允許團隊中的任何人使用他們想要使用的任何語言。這個想法的初衷是,如果每個人都使用他們喜歡的語言,工作將更快完成。但這種做法存在一個很大的問題:當每個人都使用不同的語言時,人們無法將自己的工作交付給其他人。每項數據科學任務都由獨立的個體負責,如果他們辭職了、生病了、或者需要幫助時,沒有人能夠接手他們的工作或者幫助他們,這就會造成一個非常緊張的工作環境。其實在工作中使用R、Python、甚至SAS其實都是可以的,但團隊必須使用一套一致的語言。
在面試期間要問的問題:您的團隊使用哪些語言?貴公司如何決定是否采用新語言?
4、不了解數據的需求層次
與沒有數據基礎設施類似,有些公司對人工智能這樣的概念感到非常興奮,但卻沒有相應的基礎。機器學習和人工智能要求公司具備高水平的數據科學成熟度,包括了解如何構建模型、它們的局限性以及如何部署它們。當公司不切實際的期望與現實相遇時,你可能會受到指責。
在面試期間要問的問題:公司如何平衡花費在實現復雜算法(如人工智能)與基礎性工作(如清洗數據、檢查數據質量和添加日志)上的時間?
5、團隊沒有版本控制
成熟的數據科學團隊使用git(開源的分布式版本控制系統)來跟蹤分析和代碼的變化。不夠成熟的團隊則使用諸如共享網絡文件夾之類的方法,采用這些方法會導致你無法了解內容是何時被更改的、內容為何被更改、以前版本的內容是什么。甚至有些團隊根本不會共享代碼,只依靠數據科學家的個人筆記本電腦進行工作。你應當像避免瘟疫一樣,對***列舉的這種團隊敬而遠之。 因為團隊若無法共享代碼,則團隊成員也無法一起工作。
在面試期間要問的問題:貴公司如何在團隊中共享代碼?是所有代碼都是共享的還是只是其中一部分?
6、未劃分運行報表和做分析間的界限
創建和維護報表、構建數據科學模型、將機器學習模型投入生產等不同的工作任務所需的技能組合都是不同的。如果公司無法明確每個人具體做什么工作,那么你將以完全不同于你預期的方式開始并結束你的工作。相信你并不希望在***天進入公司時,期望的工作內容為建立時間序列預測,結果發現實際工作任務卻是刷新月度銷售的Excel電子表格。
在面試期間要問的問題:貴公司如何劃分報表管理、分析、生產模型構建的任務?
公司如何評估他人方面的危險信號
1、面試過程是非結構化的
結構化的面試過程意味著每位應聘者都能得到相同的問題集,從而可以更平等地進行比較。這樣做不僅可以減少偏見,還可以促使團隊仔細思考在被面試者身上,什么是團隊所看重的。如果面試過程是非結構化的,即面試官似乎總是在問一些即興的問題,那么這就充分表明公司還沒有弄清楚自己到底想從應聘者身上得到什么、以及如何得到它。如果公司不知道自己想要什么,那么在工作中你也很難給出他們想要的東西。
建議:觀察公司是否為面試準備了一系列問題,或者詢問他們是如何選擇問你的問題。
2、在面試中沒有為你預留提問時間
因為面試也是為了讓你了解公司情況,所以你需要有時間去詢問、去了解。如果公司沒有為你預留提問時間,那么說明面試官并不關心你在面試中是否感到舒適,也沒有興趣讓你評估自己是否適合該公司和該職位。
建議:如果在面試中你沒有時間提問,那么你可以給面試官一張紙條,詢問面試官何時適合詢問他們問題。
3、在面試中沒有考察編程能力
雖然編程不是數據科學家最重要的技能,但它是工作中你不得不做的事情。面試的編程部分可以是現場測試,也可以是帶回家的測試,但無論如何它肯定是應該存在的。 如果面試過程不包括編程,可能是出于以下幾個原因:(1)數據科學團隊是新建立的,所以沒有人可以主持面試。在這種情況下,你應當意識到你可能無法在工作上獲得支持。(2)團隊沒有時間進行編程面試,這是他們不重視招聘的一個跡象。(3)工作中不需要編程,使用諸如Tableau和Excel等BI(商業智能)工具即可滿足工作需求。(4)他們非常信任你的簡歷內容,所以他們不需要測試你。雖然聽起來像是夸贊,但這表明他們迫切希望雇用你。
建議:如果面試不包括編程部分,請詢問他們是如何判斷哪些應聘者具備該工作所需的技術技能。
4、對你入職的前期工作沒有計劃
公司對于發布的職位招聘應當是有充分理由的。如果公司無法清楚地說明你在前幾個月要做些什么,那原因可能是:公司被現有的工作所壓垮,需要招聘一些人來一起解決問題。對于團隊而言,這是一種非常危險的成長方式。更糟糕的是,這通常發生在沒有新員工入職流程的公司。所以這些情況對整個團隊來說都非常有壓力的,而且這些壓力通常也會落在你身上。
建議:請詢問公司是否有明確的項目和入職流程。如果他們沒有非常明確的答案,那就趕緊溜吧。
5、對員工的進修不提供支持
數據科學是一個快速發展的大型領域,如果你不能持續地學習,你就會落后。因而團隊應該有相應方法來幫助團隊成員保持學習進度。例如可以為員工的在線教育和會議提供資金支持,可以每月組織會議讓員工們討論行業博文,也可以鼓勵員工參加會議、開源項目或系列演講。如果公司愿意這樣做,表明公司愿意投資于他們的職員。
建議:詢問公司如何支持團隊的持續進修。公司是否為會議或研習班提供資金支持?
6、不同面試官對職業的認知不一致
通常,面試讓你能與公司內部的許多人進行交談,包括你未來的經理、隊友和商業利益相關者。如果對于你所應聘職位的責任、工作類型、角色提供的內容、以及工作的時間,他們有不同的理解與要求,那么他們可能都不認可彼此的觀點。如果他們不能達成一致,尤其是在關于你最終要做的工作的相關事情上,那么你的工作最終會充滿沖突。
建議:記住面試官們在不同面試中的發言。如果發現不一致,詢問為什么。
通過密切觀察,你可以避免獲得一份你不喜歡的工作。祝你好運!