成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

親歷亞馬遜、華為機器學習面試,原來考官想聽到這些回答

人工智能 機器學習
George Seif 在過去面試了很多科技巨頭公司,主要目標是數據科學和機器學習相關的職位。“可怕的機器學習面試啊,你覺得你知道一切,直到你被面試官問得目瞪口呆!但其實,你可以做得更好。”

[[245589]]

George Seif 在過去面試了很多科技巨頭公司,主要目標是數據科學和機器學習相關的職位。“可怕的機器學習面試啊,你覺得你知道一切,直到你被面試官問得目瞪口呆!但其實,你可以做得更好。”在經過一輪又一輪面試之后,他發出了這樣的感嘆。在這篇文章里,他不僅分享了在面試過程中被問到的面試題,還為讀者提供了解答的思路,給出面試官想要聽到的答案,希望能夠幫助其他同樣渴望拿到夢想中的工作的人順利拿到 offer。

在過去的幾個月里,我參加了很多公司的面試,主要是針對數據科學和機器學習的入門級職位。我是一名機器學習和計算機視覺碩士研究生,再過幾個月就要畢業了。我以前的大部分經驗都是與學術研究有關,也曾在一家初創公司(與機器學習無關)呆過 8 個月。我所面試的這些職位所涉及的工作包括數據科學、通用機器學習以及自然語言處理或計算機視覺。我面試了亞馬遜、特斯拉、三星、Uber、華為等大公司,但也有很多創業公司,它們從早期階段到成熟階段,有些已經獲得融資。

我將與大家分享我被問過的面試題,以及我是如何回答這些問題的。有些問題很常見,也有一些問題很新奇。我將簡單列出那些常見的問題,因為在網上可以找到很多相關資源,同時深入地介紹那些不那么常見但卻很棘手的問題。我希望在閱讀完這篇文章之后,你可以在機器學習面試中取得優異成績,并得到理想的工作!

  •  偏差和方差之間存在怎樣的權衡?
  •  什么是梯度下降?

  •  解釋什么是過擬合和欠擬合,以及如何對抗它們?

  •  如何對抗維度詛咒?

  •  什么是正規化,我們為什么要使用它,并提供一些常用方法的例子?

  •  解釋什么是主成分分析(PCA)?

  •  在神經網絡中,為什么 ReLU 比 Sigmoid 更好、更經常被用到?

  • 什么是數據規范化以及我們為什么需要它? 我覺得這個問題需要特別強調一下。數據規范化是非常重要的預處理步驟,用于重新調整數值的范圍,以確保在反向傳播期間具有更好的收斂。通常的做法是減去每個數據點的平均值并除以標準偏差。如果我們不這樣做,那么一些特征(具有高幅度的特征)將在成本函數中得到更多的加權(如果高幅度的特征變化 1%,實際上變化是相當大的,但對于較小的特征效果就沒有那么明顯)。數據規范化可以讓所有特征均等加權。請解釋什么是降維,在哪些地方會用到位置,以及它的好處是什么?降維是通過獲得一組重要特征的主要變量來減少特征變量數量的過程。特征的重要性取決于特征變量對數據信息的貢獻程度,以及你所使用的技術。而決定使用哪種技術取決于反復的試驗和個人偏好。通常是從線性技術開始,然后轉向非線性技術。數據集降維的好處是:(1)減少所需的存儲空間(2)加速計算(例如在機器學習算法中),更少的維度意味著更少的計算,更少的維度允許使用不適用于高維度的算法(3)刪除冗余特征,例如以平方米和平方英里存儲地形大小沒有任何意義(可能數據收集存在缺陷)(4)將數據維度減少到 2D 或 3D,這樣我們就可以繪制和可視化它們,從而獲得更多見解(5)太多的特征或太復雜的模型可能導致過擬合。

  • 如何處理數據集中丟失或損壞的數據? 你可以在數據集中找到丟失或損壞的數據,并刪除這些行或列,或者用其他值替換它們。pandas 提供了兩個非常有用的方法:isnull() 和 dropna(),它們可以幫助你找到丟失或損壞數據的數據列,并刪除這些值。如果要使用占位符值(例如 0)來填充無效值,可以使用 fillna() 方法。

  • 你是如何進行探索性數據分析(EDA)的?EDA 的目標是在應用預測模型之前從數據中收集一些見解。基本上,你應該以從粗略到精細的方式進行 EDA。我們從獲得一些高級別的全局見解開始,然后檢查一些不平衡的類和每個類的均值和方差。檢查前幾行,了解它們是關于什么的。運行 pandas 的 df.info() 來檢查哪些特征是連續的、分類的以及它們的類型(int、float、string)。接下來,刪除在分析和預測中用不到的列。這些列可能看起來就是毫無用處的,它們要么具有相同的值(即不會給我們提供太多的信息),要么缺少值。我們還可以使用最常見的值或中位數來填充缺失值。然后,我們可以開始進行一些基本的可視化。先從高級別的東西開始。對于已經分類的且具有少量組的特征,可以為它們繪制條形圖。找出最“一般的特征”,為這些特征單獨進行可視化,嘗試從中獲得一些基本見解。現在我們可以開始更具體的可視化了。在特征之間創建可視化,一次兩個或三個。特征之間是如何相互關聯的?你還可以通過 PCA 來找出哪些特征包含最多信息。將一些特征組合在一起,以查看它們之間的關系。例如,當 A=0 且 B=0 時,類會發生什么?A=1 和 B=0 呢?比較不同的特征。例如,如果特征 A 可以是“女性”或“男性”,那么我們就可以繪制出特征 A 對應的桶,看看男性和女性是否處于不同的桶中。除了條形圖、散點圖和其他基本圖之外,我們還可以繪制 PDF/CDF 和疊加圖等。查看一些統計信息,如分布、p 值等。最后是構建 ML 模型的時候了。先從樸素貝葉斯和線性回歸這些簡單的東西開始。如果你發現這些行不通,或者數據是高度非線性的,就要使用多項式回歸、決策樹或 SVM。可以根據 EDA 的重要性選擇特征。如果你有大量數據,可以使用神經網絡。

  • 在處理圖像時,為什么使用卷積而不僅僅是 FC 層? 這個問題非常有趣,因為公司通常不會問這樣的問題。正如你所料,一家專注于計算機視覺的公司問了這個問題。這個問題的答案由兩部分組成。首先,卷積保留、編碼并實際使用圖像的空間信息。如果我們只使用 FC 層,就沒有相關的空間信息。其次,卷積神經網絡(CNN)提供了部分內置的平移方差,因為每個卷積核都相當于自己的過濾器和特征檢測器。
  • 是什么讓 CNN 具備平移不變性? 如上所述,每個卷積核都是自己的過濾器和特征檢測器。因此,假設你正在進行對象檢測,對象在圖像中的位置并不重要,因為我們將以滑動窗口的方式在整個圖像上應用卷積。

  • 為什么我們在分類 CNN 中有最大池化(max-pooling)? 這也是我在面試一個計算機視覺相關職位是被問到的一個問題。CNN 中的最大池化可以減少計算,因為在池化后,特征圖變得更小了。因為你正在進行最大程度的激活,所以不會丟失太多的語義信息。還有一種理論認為,最大池化有助于為 CNN 提供更多的方差平移。

  • 為什么分段 CNN 通常具有編碼器和解碼器結構? 編碼器 CNN 基本上可以被認為是特征提取網絡,而解碼器使用這些信息來預測圖像片段(通過“解碼”特征并放大到原始圖像大小)。

  • 殘差網絡有什么意義? 殘差連接的主要作用是允許從前層直接訪問特征,這讓信息在整個網絡中傳播變得更加容易。

  • 什么是批量標準化?為什么它能夠奏效? 訓練深度神經網絡是很復雜的,因為在訓練期間,隨著前一層的參數發生變化,每層的輸入分布都會發生變化。然后,我們的想法是標準化每層的輸入,使得它們的平均輸出激活為零,標準偏差為 1。這是針對每一層的每個小批量進行的,即僅計算該小批量的均值和方差,然后進行標準化。這有點類似于網絡輸入的標準化。這有什么用?我們知道,規范化網絡輸入有助于它學習。但網絡只是一系列層,一個層的輸出成為下一層的輸入。這意味著我們可以將神經網絡中的任何一個層視為后續子網絡的第一個層。我們將其視為一系列相互 feed 的神經網絡,我們在應用激活函數之前規范化一個層的輸出,然后將其 feed 到后面的層(子網絡)。

  • 為什么要使用很多小的卷積核,比如 3x3,而不是更大的卷積核?VGGNet 論文(https://arxiv.org/pdf/1409.1556.pdf) 對此做了很好的解釋。有兩個原因:首先,你可以使用幾個較小的卷積核來獲取相同的感知字段并捕獲更多的空間上下文,使用較小的卷積核意味著較少的參數和計算。其次,因為對于較小的卷積核,你需要使用更多的過濾器,這樣就能夠使用更多的激活函數,你的 CNN 就可以學習更具辨別力的映射函數。

  • 你有其他與這個職位相關的項目經驗嗎? 這個時候,你需要強調你的研究方向與應聘公司業務之間的聯系。你是否做過一些事情或學到過一些技能與他們的業務或你申請的職位有關?不一定要 100%匹配,只要有一定聯系就可以了,這樣可以證明你將能夠直接為他們帶來價值。

結 論

這些是我在應聘數據科學和機器學習職位時遇到的所有面試問題。我希望你喜歡這篇文章,并能夠從中學到一些有用的新東西!

責任編輯:龐桂玉 來源: AI前線
相關推薦

2010-03-11 11:04:11

變態面試

2015-04-10 09:43:40

AWS

2015-04-10 09:16:28

亞馬遜AWS機器學習

2009-02-10 17:00:15

面試華為

2024-12-13 09:11:12

2025-04-16 07:06:00

CISO網絡安全安全負責人

2015-08-07 10:09:54

AWS亞馬遜機器學習

2011-05-10 10:56:29

DBA面試

2009-02-10 10:06:15

面試移動

2018-04-26 13:57:33

面試機器學習簡歷

2022-08-23 09:48:13

面試JavaScriptoffer

2025-03-06 08:01:46

KubernetesscratchPod

2016-05-17 14:24:56

亞馬遜機器學習

2021-05-06 17:28:39

亞馬遜云科技機器學習

2018-01-10 22:31:07

機器學習開源開發

2025-03-05 08:04:31

2017-09-15 18:13:57

機器學習深度學習語音識別

2009-05-25 14:43:07

主考官面試求職

2020-09-18 10:06:39

AWS機器學習SageMaker

2021-05-26 16:21:59

亞馬遜云科技機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 狠狠做深爱婷婷综合一区 | 黄视频网站免费观看 | 日韩第一页 | 欧美国产日韩精品 | 中文字幕免费观看 | 日韩一级免费电影 | 亚洲日本成人 | 国产精品成人69xxx免费视频 | 中文字幕一区二区三区四区五区 | 国产成人精品一区二区三 | 久久久久久久av | 国产精品色av| 久久男人 | 欧美v日韩v | 国产成人小视频 | 91久久国产综合久久91精品网站 | 欧洲亚洲视频 | 成人超碰在线 | 中文字幕高清免费日韩视频在线 | 午夜视频一区二区三区 | 亚洲免费视频在线观看 | 国产精品久久久久久二区 | 精品国产一区二区三区性色av | 日韩精品一区二区三区免费视频 | 久久夜视频 | 国产日韩精品在线 | 黑人巨大精品欧美一区二区免费 | 国产成人免费 | 婷婷免费视频 | 欧美一区二区免费 | 日日淫 | 成人精品视频在线观看 | 久久久久久国产精品免费免费 | 特级毛片爽www免费版 | 亚洲欧美精品国产一级在线 | 五月香婷婷| 日韩免费视频 | 亚洲高清在线 | 久久夜色精品国产 | 九九热精品免费 | 日韩高清不卡 |