一周入門機器學習靠譜嗎?這有一份詳細的學習日程表
原作者 | Per Harald Borgen
編譯 | 魏子敏,賴小娟,張禮俊
“對外行來說,想要入門機器學習可能是個不可完成的任務。然而,在沉溺于一周的機器學習基礎學習之后,我發現它比我之前想象的更容易理解。” |
這篇文章來自于medium,一位作者親歷了一周入門機器學習后,分享他的“從下到上”的學習經驗給各位,希望給那些有興趣入門機器學習的讀者一個容易上手的詳細日程表。
背景
在我開始我的機器學習周之前,我已經了解這個項目一段時間了,瀏覽了一半Coursera上Andrew NG的課程和其他一些理論性課程。雖然我還不能完全將我的知識轉化成代碼,但對機器學習已經有了大致的概念理解。這也是促使我想改變的原因。
我想要一周結束之時有能力解決機器學習的問題,雖然這意味著會跳過很多基礎知識,使用從上到下的學習方法代替從底層到高層的方式。
在征得Hacker News的意見之后,我總結出Python的Scikit Learn模型是最好的開始入口點。這個模型提供了豐富的算法可供選擇,將機器學習實戰降低在數十行代碼之內。
星期一:實例學習
在一周的開始,我去尋找一些Scikit Learn的視頻教學,最后我選擇了Sentdex的關于怎么樣用機器學習投資股票的輔導視頻,這個視頻給了我繼續下一步學習的必要知識。
Sentdex輔導視頻比較好的一方面是導師展示了關于數據收集的所有步驟。當你們順著再往下學習,你們會意識到獲取和清洗數據的時間會比實際機器學習操作的時間還要多很多。因此有能力寫出腳本從文件和網頁上抓取到數據是成為機器學習專家的必要技能。
之后我還反復看了好幾遍這個視頻,在我被問題卡住的時候很有幫助,建議你們也多看幾遍。然而,如果你已經知道怎么從網站上獲得數據,這個教程可能不是最合適的,大段大段的圍繞著數據的獲取。Udacity的機器學習入門教程或許更適合你。
星期二:實際問題中的應用
星期二我想看看我是不是可以用我學到的東西去解決一個實際的問題。由于和我合作寫代碼的另一個開發人員正在參加英格蘭銀行的數據可視化競賽,我跟他一起合作查看了銀行公布的數據集。最有趣的數據是關于他們房屋調查,一個由銀行完成的基于幾千個家庭關于錢的相關主題的年度調查。
我們決定解決的問題如下:
給出一個人的教育水平、年齡和收入,計算機可以預測到其性別么?
我跟數據集周旋,花了幾個小時清洗數據,然后用Scikit Learn圖找到最適合這個問題的算法。
最后我們以大概63%的成功率結束,并不是很理想。但是機器至少可以做到猜出的概率稍大于成功率在50%的拋硬幣。
看到成果會激發你們的動力,所以我建議你們一旦對怎么使用Scikit Learn有一個基本掌握,可以自己試試。
當你意識到你能夠開始用機器學習解決真實生活問題時,這是一個關鍵的時刻。
星期三:從頭開始
在嘗試過不同Scikit Learn模型之后,我決定試著去徹底地寫一個線性回歸算法。之所以想這樣做,雖因為我覺得我實在不明白計算引擎是如何運行的。
幸運地,Coursera上有關于幾個算法如何執行的課程,在這個時候幫了大忙。更具體地說,它描述了線性回歸的基礎概念。
這絕對是最有效的機器學習技術,它迫使你去明白“引擎之下”的每一步是如何前行的。我強烈推薦你在某些時刻這樣去做。
當我繼續往下學的時候我計劃重寫更復雜的實現算法,但是我想在嘗試Scikit Learn相關算法之后再做這些。
星期四:開始實現
在星期四的時候,我開始實現一些Kaggle的入門教程。Kaggle是一個機器學習競賽的平臺,你可以給那些公司或機構的發布的問題提交解決方案。
我建議你在有了對機器學習一定的理論和實踐理解之后再嘗試Kaggle。否則,帶給你比獎勵更多的是沮喪。
為了提交你的方案到競賽平臺上,詞袋教程會指導你每一步驟,以及一個簡單而又讓人興奮的對自然語言處理過程的介紹。當我看完教程之后對自然語言處理過程有了更多的興趣。
星期五:重回學校
星期五,我繼續研究Kaggle的教程,也開始了Udacity的機器學習入門教程。雖然我還在學習中段,但是發現它真的很令人享受。
它比Coursera上面的課程要簡單很多,它不會涉及到算法底層。但是實用性更高,它教你使用Scikit Learn。比起你在Coursera上面從頭開始用Octave寫一個算法來說,應用算法到實際世界中簡單太多。
繼續前行
一周的體驗不僅僅是許多的樂趣,它可以幫我們意識到機器學習在社會上的用處。我學到關于它的東西越多,就看到它可以用于越多的領域中。
如果你對機器學習感興趣,我強烈建議你花幾天或晚上對它進行簡單的了解。
如果你還沒準備好應對繁重的素材資料,你可以選擇一個至上而下的方法,盡快地在解決實際問題中學習。
來源:
https://medium.com/learning-new-stuff/machine-learning-in-a-week-a0da25d59850#.qw3zmizf9
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】