成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

入職一年后,一位算法工程師給初學(xué)者的一封信

企業(yè)動(dòng)態(tài) 算法
本人以一個(gè)前人的經(jīng)驗(yàn),總結(jié)了一名優(yōu)秀的機(jī)器學(xué)習(xí)工程師需要注意的12個(gè)方面,希望讀者在閱讀后,能對(duì)機(jī)器學(xué)習(xí)的從業(yè)和學(xué)習(xí)有所幫助!

[[271455]]

大數(shù)據(jù)文摘出品

來(lái)源:towardsdatascience

編譯:啤酒泡泡、fuma、張弛、寧?kù)o

“作自己的懷疑論者,不斷試錯(cuò),有時(shí),溝通比技術(shù)本身能帶來(lái)更大的價(jià)值。”

——佚名

親愛的讀者:

你們好!我是Daniel Bourke,一位來(lái)自澳大利亞的機(jī)器學(xué)習(xí)工程師。我在這個(gè)崗位上從業(yè)有一年之久了,好吧,可能很多讀者對(duì)這個(gè)崗位不太熟悉,可以隨我看下一天的工作流程:

早上9點(diǎn),我會(huì)走進(jìn)公司,問同事早安,把我的食物放進(jìn)冰箱,倒一杯汽水,然后走向我的辦公桌。我坐下來(lái),看著我昨天的工作筆記,然后打開Slack,接著我會(huì)閱讀消息,打開團(tuán)隊(duì)分享的每一篇論文或是博客,每天都會(huì)有一些要看的消息,因?yàn)檫@個(gè)領(lǐng)域的更新發(fā)展很快。

消息讀完后,我會(huì)瀏覽論文和博客,并且會(huì)著重閱讀那些讓我困惑的內(nèi)容。通常,那里面會(huì)有一些內(nèi)容能幫到我現(xiàn)在的工作。我會(huì)用一個(gè)小時(shí)進(jìn)行閱讀,有時(shí)會(huì)更多,這取決于我看的內(nèi)容,閱讀是最基礎(chǔ)也是最關(guān)鍵的能力,如果我現(xiàn)在做的事有更好的方法,那么我會(huì)學(xué)習(xí)并運(yùn)用這個(gè)方法,這可以節(jié)約我的時(shí)間和精力。

早上10點(diǎn),如果工作任務(wù)的截止日期快要到了,我會(huì)縮減閱讀的時(shí)間來(lái)趕任務(wù),這是我一天中花時(shí)間最多的地方。我會(huì)回看我昨天的工作內(nèi)容,并且查看我寫下的后續(xù)工作步驟,我的筆記本記錄了我一天的工作流程。

在后續(xù)操作數(shù)據(jù)的過程中,如果我已經(jīng)把數(shù)據(jù)處理成正確的形式了,那么我就需要用模型跑數(shù)據(jù),一開始我會(huì)把訓(xùn)練時(shí)間調(diào)得很短,如果有了進(jìn)展,我會(huì)把時(shí)間加長(zhǎng),如果我遇到問題,數(shù)據(jù)不匹配的問題出現(xiàn)了,那么接下來(lái),我會(huì)解決這個(gè)問題,然后在嘗試新模型前,先獲得一個(gè)基準(zhǔn)。我絕大多數(shù)的時(shí)間是用來(lái)確定數(shù)據(jù)是不是處理成了模型所要求的形式。

下午4點(diǎn)就快到了,馬上可以放松一下了。我說放松,指的是清理我寫出的代碼,讓它變得清晰易讀。我會(huì)加上一些注釋,重新調(diào)整代碼的結(jié)構(gòu),萬(wàn)一別人要讀我的代碼呢?我會(huì)這么問自己,通常,閱讀我代碼的人都是我自己,因?yàn)槲医?jīng)常會(huì)很快忘記那些寫代碼時(shí)產(chǎn)生的想法。

以上是一天工作最理想的樣子,但不是每天都這樣,有時(shí)候,一個(gè)美妙的想法在下午4點(diǎn)37分的時(shí)候迸發(fā)出來(lái),那么我會(huì)繼續(xù)我的工作,現(xiàn)在你已經(jīng)對(duì)我每天的工作有了大致的了解,接下來(lái)我們聊聊機(jī)器學(xué)習(xí)的那些事兒。

人工智能的浪潮不斷推進(jìn),相信很多讀者和我一樣加入了機(jī)器學(xué)習(xí)的隊(duì)伍,我的工作內(nèi)容很全面:從數(shù)據(jù)收集、數(shù)據(jù)處理、建模、實(shí)施服務(wù),業(yè)務(wù)范圍涉及你能想到的每一個(gè)產(chǎn)業(yè)。在這個(gè)崗位上呆久了,發(fā)現(xiàn)很多事情做起來(lái)都是有規(guī)律可循的,以一個(gè)前人的經(jīng)驗(yàn),總結(jié)了一名優(yōu)秀的機(jī)器學(xué)習(xí)工程師需要注意的12個(gè)方面,希望讀者在閱讀后,能對(duì)機(jī)器學(xué)習(xí)的從業(yè)和學(xué)習(xí)有所幫助!

把時(shí)間花在刀刃上:數(shù)據(jù)很重要!

如果你熟悉數(shù)據(jù)科學(xué)的一些基本原則,就會(huì)發(fā)現(xiàn)解決實(shí)際應(yīng)用問題,處理coding問題,本質(zhì)上是和數(shù)據(jù)打交道。可令人驚訝的是,我時(shí)常忘記這一點(diǎn),很多時(shí)候,我著眼于建立更好的模型,而不是去提高數(shù)據(jù)的質(zhì)量。

建立一個(gè)更大的模型、使用更多的計(jì)算資源可以在短時(shí)間內(nèi)給你一個(gè)很好的結(jié)果。然而,出來(lái)混總是要還的,接下來(lái)你會(huì)遇到很麻煩的事。

當(dāng)你參與第一個(gè)項(xiàng)目時(shí),請(qǐng)花很多很多的時(shí)間去熟悉數(shù)據(jù)。之所以說很多很多,是因?yàn)槟阃ǔP枰涯泐A(yù)計(jì)花的時(shí)間乘以3。長(zhǎng)遠(yuǎn)上看,這會(huì)幫你在接下來(lái)的工作中節(jié)約不少時(shí)間。

當(dāng)你拿到一個(gè)新的數(shù)據(jù),你的目標(biāo)應(yīng)該是成為最了解這個(gè)數(shù)據(jù)的專家,你要檢查數(shù)據(jù)的分布,找到不同類型的特征,異常值在哪里,為什么它們是異常值?如果你不能把你的數(shù)據(jù)描述清楚,那你又怎么能建立模型呢?

不要低估溝通的重要性

我遇到絕大多數(shù)的問題都不是技術(shù)問題而是溝通問題,的確,技術(shù)難題一直都有,但是那是工程師應(yīng)該去解決的問題。永遠(yuǎn)不要低估溝通的重要性,無(wú)論是公司內(nèi)部的還是公司外部的。最糟糕的事莫過于解決了一個(gè)本不該被解決的技術(shù)問題。

為什么會(huì)發(fā)生這種事呢?

對(duì)外來(lái)看,這種事發(fā)生的原因大多是因?yàn)榭蛻舻钠谕臀覀兯芴峁┑姆?wù)出現(xiàn)了不匹配,雖然客戶的期望能夠用機(jī)器學(xué)習(xí)實(shí)現(xiàn)。對(duì)內(nèi)來(lái)看,因?yàn)槲覀兠總€(gè)人在公司都負(fù)責(zé)很多方面事務(wù),所以我們很難為了同一個(gè)目標(biāo)而做到步調(diào)一致。

1. 三省吾身

回到問題的本質(zhì)。請(qǐng)經(jīng)常這樣做。請(qǐng)問一問你自己,你的客戶是否明白你們能提供的服務(wù)?你是否理解客戶的問題?他們知道機(jī)器學(xué)習(xí)帶來(lái)什么和不能帶來(lái)什么嗎?什么樣的交流方式能讓你很輕松地去展示你的工作成果?

2. 針對(duì)公司員工內(nèi)部

為了解決內(nèi)部溝通的問題,人們?cè)O(shè)計(jì)了很多軟件。從它們的數(shù)量上,你便可以明白解決內(nèi)部溝通問題有多困難。這些軟件包括Asana, Jira, Trello, Slack, Basecamp, Monday, Microsoft Teams。

對(duì)我而言,一個(gè)最有效的辦法是,每天工作結(jié)束時(shí),在項(xiàng)目相關(guān)的頻道上更新我的信息。

更新內(nèi)容包括:

  • 3-4 點(diǎn)ideas
  • 關(guān)于我的工作內(nèi)容
  • 為什么
  • 根據(jù)上面的內(nèi)容,我接下來(lái)要做的

這樣很完美對(duì)嗎?不。但是它看上去是有效的,它讓我可以展示我已經(jīng)做的工作和準(zhǔn)備去做的工作。把自己的計(jì)劃公開有一個(gè)額外的好處,如果你的工作方案不成立,別人會(huì)指出來(lái)。你是多好的工程師這并不重要,重要的是你有能力告訴別人你的技術(shù)是什么、你的技術(shù)可以帶來(lái)什么,這一點(diǎn)和你維持現(xiàn)有業(yè)務(wù)并開拓新業(yè)務(wù)的能力密切相關(guān)。

穩(wěn)定性>前沿性

我們?cè)?jīng)有一個(gè)有關(guān)自然語(yǔ)言的問題:把文字內(nèi)容歸為不同的類別。任務(wù)目標(biāo)是幫用戶向服務(wù)中心發(fā)送一段文本,并且自動(dòng)把文本歸為兩類中的其中一類,如果模型預(yù)測(cè)的不夠準(zhǔn)確 ,那么把文本交給人工處理,工作量大概是每天1000-3000次請(qǐng)求,不多也不少。

BERT成為了今年最受矚目的名詞。但是如果沒有谷歌的規(guī)模化計(jì)算工具,想要使用BERT訓(xùn)練模型來(lái)完成我們的需求則非常麻煩,而且這還僅僅是把模型用于生產(chǎn)前所需要的工作,因此,我們找到了另一種方法——ULMFiT。這個(gè)方法雖然不是最前沿的,但是它能產(chǎn)生足夠好的結(jié)果,并且這個(gè)方法也很容易使用。

與其將某個(gè)方法改進(jìn)到完美,不如借鑒已有的模型,在這基礎(chǔ)上進(jìn)行遷移學(xué)習(xí),這樣能帶來(lái)更多的價(jià)值。

機(jī)器學(xué)習(xí)中的兩大難點(diǎn)

將機(jī)器學(xué)習(xí)付諸實(shí)踐存在兩個(gè)瓶頸:從課程成果到項(xiàng)目成果的瓶頸、從理論模型到生產(chǎn)模型(模型部署)的瓶頸。

互聯(lián)網(wǎng)搜索機(jī)器學(xué)習(xí)課程返回了大量的結(jié)果,我用了其中許多課程創(chuàng)建自己的AI碩士學(xué)位課程。但即使在完成了最好的幾門課程,當(dāng)我開始擔(dān)任機(jī)器學(xué)習(xí)工程師時(shí),我的技能還是建立在課程的結(jié)構(gòu)化主干上,在現(xiàn)實(shí)問題中,項(xiàng)目并不是結(jié)構(gòu)化的,我缺乏具體的知識(shí),線上的互聯(lián)網(wǎng)課程中無(wú)法教會(huì)你一些技能,比如:怎么質(zhì)疑數(shù)據(jù)、探索與開發(fā)模型。

1. 如何改進(jìn)?

我很幸運(yùn)能和澳大利亞最優(yōu)秀的人才在一起工作,但我愿意學(xué)習(xí)也愿意做錯(cuò)。當(dāng)然,錯(cuò)誤不是目標(biāo),但為了正確,你必須弄清楚什么是錯(cuò)的。如果你正在通過一門課程學(xué)習(xí)機(jī)器學(xué)習(xí),那么繼續(xù)學(xué)習(xí)這門課程,同時(shí)要將學(xué)到的知識(shí)應(yīng)用到自己的工程項(xiàng)目中,這樣才能使自己具備專業(yè)知識(shí)。

2. 如何在工作中提升能力?

我在這方面的知識(shí)依舊很匱乏,但我注意到了一種趨勢(shì)——機(jī)器學(xué)習(xí)工程和軟件工程正在融合。隨著Seldon,Kubeflow和Kubernetes這些開源平臺(tái)的發(fā)展,很快機(jī)器學(xué)習(xí)將成為其中的另一部分。

在Jupyter筆記本中構(gòu)建模型是一回事,但是如何讓數(shù)千甚至數(shù)百萬(wàn)人使用該模型就是另一碼事了。根據(jù)最近在Cloud Native活動(dòng)上的討論情況來(lái)看,大公司以外的多數(shù)人并不知道如何做到這一點(diǎn)。

二八定律

機(jī)器學(xué)習(xí)中也有一個(gè)二八定律,我們有一個(gè)20%的規(guī)則,這個(gè)規(guī)則的意思是我們要把20%的時(shí)間花在學(xué)習(xí)上。

事實(shí)證明,這段學(xué)習(xí)時(shí)間是寶貴的。比如說ULMFiT的使用率超過BERT就源于20%時(shí)間的規(guī)則,20%的時(shí)間用來(lái)學(xué)習(xí),意味著剩下80%的時(shí)間將用于核心項(xiàng)目。

  • 80%的核心產(chǎn)品(機(jī)器學(xué)習(xí)專業(yè)服務(wù))。
  • 20%與核心產(chǎn)品相關(guān)的新事物。

如果你的工作優(yōu)勢(shì)在于你能將現(xiàn)在做的事情做到最好,那么未來(lái)的工作同樣取決于你繼續(xù)做你最擅長(zhǎng)的事情,這意味著不斷學(xué)習(xí)。

論文需要精讀

這是一個(gè)粗略的指標(biāo),但是在你探索過一些數(shù)據(jù)集和實(shí)驗(yàn)現(xiàn)象后,你就會(huì)明白它是一種客觀事實(shí)。這個(gè)概念來(lái)源于Zinf/Price定律,即在同一主題中,半數(shù)的論文為一群高生產(chǎn)力作者所撰寫,這一作者集合的數(shù)量約等于全部作者總數(shù)的平方根。換句話說,在每年數(shù)以千計(jì)的提交中,你可能會(huì)發(fā)現(xiàn)10篇開創(chuàng)性的論文,在這10篇開創(chuàng)性的論文中,有5篇可能來(lái)自同一所研究所或作者。

如何緊跟時(shí)代的潮流?你無(wú)法跟上每一個(gè)新的突破,你最好扎實(shí)掌握和運(yùn)用一些基本原理,這些基本原理經(jīng)受住了時(shí)間的考驗(yàn),新突破需要依靠原創(chuàng)性的突破,然后便是需要新的探索與開發(fā)。

做自己的懷疑論者

您可以通過懷疑自己來(lái)處理探索與開發(fā)問題。探索與開發(fā)問題是嘗試新事物和復(fù)用已有模型成果之間的兩難選擇。

1. 開發(fā)自己的模型

運(yùn)行你已經(jīng)使用的模型并獲得高精度結(jié)果然后將其作為新基準(zhǔn)報(bào)告給團(tuán)隊(duì)是很容易的。但是如果你得到了一個(gè)好的結(jié)果,記得反復(fù)再反復(fù)地檢查你的成果,并讓你的團(tuán)隊(duì)也這樣做,因?yàn)槟闶且幻こ處煛⒖茖W(xué)家。

2. 探索新的事物

20%時(shí)間的標(biāo)準(zhǔn)在這里也有用武之地,但是時(shí)間分配如果是70/20/10會(huì)更好。也許你在核心產(chǎn)品上花費(fèi)70%,在核心產(chǎn)品的構(gòu)造上花費(fèi)20%,在探索上花費(fèi)10%,不過探索的東西可能不會(huì)起作用,我本人從來(lái)沒有試過這個(gè)方法,但這是我正朝著這個(gè)方向發(fā)展的。

先積跬步,后至千里

不積跬步無(wú)以至千里,先建立一些小事,這樣就能快速理解一個(gè)新的概念,你可以使用自己的數(shù)據(jù)集或者不相關(guān)的小數(shù)據(jù),在一個(gè)小團(tuán)隊(duì)中,成功的訣竅是先成功一小步,然后快速迭代。

一起來(lái)玩橡皮鴨呀

很多程序員可能知道一種小黃鴨調(diào)試法(也稱橡皮鴨)調(diào)試法,這個(gè)概念說的是在調(diào)試代碼的時(shí)候隨身攜帶一只小黃鴨,然后詳細(xì)地向它解釋每行代碼。可能很多讀者會(huì)覺得好笑,這是有原理依據(jù)的,類似有一種叫做cone of answer的常見現(xiàn)象,比如:你的朋友向你咨詢問題,等說到一半的時(shí)候他已經(jīng)找到問題所在,徒留一臉茫然的你...總的來(lái)說,當(dāng)你試圖向別人表述自己的問題的過程中,自然地也在促使自己去調(diào)整思路,這種方法對(duì)程序員同樣適用。

橡皮鴨方法是同事Ron教會(huì)我的,遇到問題的時(shí)候,坐下來(lái)盯著代碼可能會(huì)解決問題,但也有可能不會(huì), 此時(shí),不如用隊(duì)友的語(yǔ)言重述,就像你的橡皮鴨。

“Ron,我正在嘗試遍歷這個(gè)數(shù)組,并通過循環(huán)另一個(gè)數(shù)組以及跟蹤它的狀態(tài)來(lái)嘗試跟蹤這個(gè)數(shù)組的狀態(tài),然后我想將這些狀態(tài)組合成一個(gè)元組列表。”

“循環(huán)中的循環(huán)?你為什么不把它矢量化呢?“

“我能這樣做嗎?”

“讓我們來(lái)看看。”

“...”

遷移學(xué)習(xí)很重要

你不需要從底層重構(gòu)模型,這個(gè)問題來(lái)自于機(jī)器學(xué)習(xí)工程與軟件工程的融合。除非您的數(shù)據(jù)問題非常具體,否則許多主要問題非常相似,分類,回歸,時(shí)間序列預(yù)測(cè),推薦系統(tǒng)。

谷歌和微軟的AutoML等服務(wù),只需要上傳數(shù)據(jù)集并選擇目標(biāo)變量,就可以輕松使用機(jī)器學(xué)習(xí)。但是這些事情還在初始階段,尚未成形。如果你是開發(fā)人員,只需要fast.ai這樣的庫(kù),就可以在幾行代碼中使用最先進(jìn)的模型,以及各種模型的預(yù)建的模型,例如,PyTorch hub和TensorFlow提供相同的功能。

這意味著什么?雖然機(jī)器學(xué)習(xí)已經(jīng)如此方便,但是仍然需要了解數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的基本原理,更重要的是要知道如何恰當(dāng)?shù)倪\(yùn)用他們。

Math or Code?It is a problem

對(duì)于我處理的客戶端問題,代碼優(yōu)先,所有的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)代碼都是Python。有時(shí)我會(huì)通過閱讀論文并進(jìn)行復(fù)現(xiàn)來(lái)涉足數(shù)學(xué),但99.9%的情況下,現(xiàn)有的框架已經(jīng)包含數(shù)學(xué)的庫(kù)。

雖說在現(xiàn)實(shí)生活中,數(shù)學(xué)并沒有想象中的那么重要,畢竟機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都是數(shù)學(xué)的應(yīng)用。但是知道最小矩陣相乘,一些線性代數(shù)和微積分,特別是鏈?zhǔn)椒▌t依舊是重中之重。

請(qǐng)記住,我的目標(biāo)不是發(fā)明一種新的機(jī)器學(xué)習(xí)算法,而是向客戶展示機(jī)器學(xué)習(xí)對(duì)他們的業(yè)務(wù)是否有幫助,有了堅(jiān)固的基礎(chǔ),你就可以建立你自己的最好模型,而不是重復(fù)使用已有的模型了。

軟件行業(yè)的快速迭代

你去年所做的工作明年可能就沒用了哦!這是客觀事實(shí),由于軟件工程和機(jī)器學(xué)習(xí)工程的融合,這種情況越來(lái)越嚴(yán)重。但是你既然已經(jīng)加入了機(jī)器學(xué)習(xí)的大家庭,我來(lái)告訴你什么保持不變——框架會(huì)變化,庫(kù)會(huì)變化,但基礎(chǔ)統(tǒng)計(jì),概率論,數(shù)學(xué)永遠(yuǎn)不會(huì)變。 最大的挑戰(zhàn)仍然是:如何應(yīng)用它們。

說了這么多,希望以上建議能對(duì)與機(jī)器學(xué)習(xí)的入門者和從業(yè)者有所幫助,最后玩的開心,開啟你的數(shù)據(jù)之旅吧!

相關(guān)報(bào)道:

https://towardsdatascience.com/12-things-i-learned-during-my-first-year-as-a-machine-learning-engineer-2991573a9195

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2015-05-07 14:08:26

初學(xué)前端工程師

2014-06-09 15:43:50

Hadoop

2014-02-13 15:40:03

CIO

2011-11-14 13:58:43

應(yīng)用

2017-09-22 13:29:42

氚云

2013-06-03 09:30:35

2012-02-08 10:25:39

360

2015-08-14 13:51:22

程序員

2019-11-25 10:34:16

代碼Google工作

2015-06-11 13:12:56

2016-11-02 11:58:11

Linux北漂運(yùn)維

2013-09-23 09:35:17

2012-04-06 09:27:45

Play!Java

2016-09-12 14:21:11

戴爾

2010-11-06 18:29:16

2016-11-11 20:33:53

Hadoop大數(shù)據(jù)云計(jì)算

2017-07-01 20:58:06

2015-05-05 11:32:11

2019-03-05 12:16:00

容災(zāi)備份
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品亚洲一区二区三区四区五区 | 国产一级片精品 | 一区二区三区在线免费观看视频 | 久久精品中文 | 精品三级在线观看 | 欧美在线视频网 | 国产一区亚洲二区三区 | 欧美一区二区三区日韩 | 国产欧美精品区一区二区三区 | 亚洲精品国产电影 | 欧美色视频免费 | 久久久久久国产精品免费免费狐狸 | 老牛嫩草一区二区三区av | 日韩伦理一区二区三区 | 日韩成人性视频 | 国产一级大片 | 中文字幕亚洲视频 | 欧美日韩视频 | 一区二区三区小视频 | 久久免费高清视频 | 日韩精品一区二区三区老鸭窝 | 亚洲免费观看 | 亚洲一区二区三区视频 | 91精品国产综合久久久动漫日韩 | 射久久| 日韩中文字幕高清 | av大全在线 | 欧美大片一区 | 蜜臀久久99精品久久久久久宅男 | 激情91| 亚洲va在线va天堂va狼色在线 | 欧美91| 一二区视频 | 在线毛片网 | 精品人伦一区二区三区蜜桃网站 | 欧美极品少妇xxxxⅹ免费视频 | 日韩欧美一区二区三区免费观看 | 日韩欧美在线观看视频 | 日韩一级免费大片 | 国内精品视频免费观看 | 日日摸夜夜添夜夜添精品视频 |