這10本免費的機器學(xué)習(xí)和數(shù)據(jù)科學(xué)書籍,確定不看一下么?
是時候讓你的書架上新增幾本機器學(xué)習(xí)和數(shù)據(jù)科學(xué)書籍了,KDnuggets 網(wǎng)站編輯 Matthew Mayo 挑選了 10 本機器學(xué)習(xí)和數(shù)據(jù)科學(xué)相關(guān)的書籍。這些書籍都是免費的,對機器學(xué)習(xí)和數(shù)據(jù)科學(xué)感興趣的人可不要錯過了。
1. 《統(tǒng)計思維:程序員數(shù)學(xué)之概率統(tǒng)計 》
本書是專為Python程序員準(zhǔn)備的概率和統(tǒng)計的介紹,作者將基本的概率統(tǒng)計知識融入Python編程,告訴你如何借助編寫程序,用計算而非數(shù)學(xué)的方式實現(xiàn)統(tǒng)計分析。該書使用美國國立衛(wèi)生研究院的數(shù)據(jù)進行了案例研究,鼓勵讀者使用真實數(shù)據(jù)集處理項目。(地址:http://www.greenteapress.com/thinkstats/)
2.《貝葉斯方法》
貝葉斯方法是推理的自然方法,大多數(shù)圖書討論貝葉斯推理,依賴于非常復(fù)雜的數(shù)學(xué)分析和人工的例子,使沒有強大數(shù)學(xué)背景的人無法接觸,讀者只能看到簡單的經(jīng)過人工處理例子。卡梅倫的這本書從編程、計算的角度來介紹貝葉斯推理,把貝葉斯理論和編程實踐結(jié)合起來,使大多數(shù)程序員都可以入門并掌握(地址:http://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/)
3.《深入理解機器學(xué)習(xí):從原理到算法》
機器學(xué)習(xí)是計算機科學(xué)發(fā)展最快的領(lǐng)域之一,具有廣泛的應(yīng)用前景。本教材的目的是以原則的方式介紹機器學(xué)習(xí)及其提供的算法范例。本書通過介紹機器學(xué)習(xí)基礎(chǔ)的理論知識之后,再將這些原理轉(zhuǎn)化為實際算法的數(shù)學(xué)推導(dǎo)。在介紹了基礎(chǔ)知識之后,本書涵蓋了以前教科書未解決的各種中心主題。
這些包括討論學(xué)習(xí)的計算復(fù)雜性以及凸性和穩(wěn)定性的概念;重要的算法范例包括隨機梯度下降,神經(jīng)網(wǎng)絡(luò)和結(jié)構(gòu)化輸出學(xué)習(xí);和新興的理論概念,如PAC-Bayes方法和基于壓縮的邊界。(地址:http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/)
4. 《統(tǒng)計學(xué)的要素》
本書在一個共同的概念框架中闡述了這些領(lǐng)域的重要思想。雖然這種方法是統(tǒng)計學(xué)的,但其重點是概念而不是數(shù)學(xué)。通過使用彩色圖形給出了許多例子。它應(yīng)該是統(tǒng)計學(xué)家和任何對科學(xué)或工業(yè)數(shù)據(jù)挖掘感興趣的人的寶貴資源。
該書的覆蓋范圍很廣,從監(jiān)督學(xué)習(xí)(預(yù)測)到無監(jiān)督學(xué)習(xí)。許多主題包括神經(jīng)網(wǎng)絡(luò),支持向量機,分類樹等 - 這第一本書對該領(lǐng)域的主題做出這樣的綜合處理。(地址:http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf)
5.《An Introduction to Statistical Learning》
本書介紹了統(tǒng)計學(xué)習(xí)方法。它針對的是高年級本科生,碩士生和博士生。非數(shù)學(xué)科學(xué)的學(xué)生。該書還包含許多R語言的實例,詳細解釋了如何在現(xiàn)實環(huán)境中實現(xiàn)各種方法,可以說是實踐數(shù)據(jù)科學(xué)家的寶貴資源。(地址:http://www-bcf.usc.edu/~gareth/ISL/)
6.《Foundations of Data Science》
雖然計算機科學(xué)的傳統(tǒng)領(lǐng)域仍然非常重要,但未來越來越多的研究人員將參與使用計算機來理解和從應(yīng)用程序中出現(xiàn)的大量數(shù)據(jù)中提取可用信息,而不僅僅是如何使計算機對特定明確定義的問題有用。
考慮到這一點,作者寫了這本書,以涵蓋在未來40年可能有用的理論,正如對自動機理論,算法和相關(guān)主題的理解在過去40年中產(chǎn)生了巨大的影響。(地址:https://www.cs.cornell.edu/jeh/book.pdf)
7.《寫給程序員的數(shù)據(jù)挖掘?qū)嵺`指南》
本書是寫給程序員的一本數(shù)據(jù)挖掘指南,可以幫助讀者動手實踐數(shù)據(jù)挖掘、集體智慧并構(gòu)建推薦系統(tǒng)。全書共8章,介紹了數(shù)據(jù)挖掘的基本知識和理論、協(xié)同過濾、內(nèi)容過濾及分類、算法評估、樸素貝葉斯、非結(jié)構(gòu)化文本分類以及聚類等內(nèi)容。本書的每章還給出了習(xí)題和練習(xí),幫助讀者鞏固所學(xué)的知識。(地址:http://guidetodatamining.com/)
8.《大數(shù)據(jù)》
本書由斯坦福大學(xué)“Web 挖掘”課程的內(nèi)容總結(jié)而成,主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。這本書與課程一樣,是在本科計算機科學(xué)水平設(shè)計的,不要求你具備任何基礎(chǔ)。為了支持更深入的探索,大多數(shù)章節(jié)都補充了進一步的閱讀參考。(地址:http://mmds.org/)
9.《深度學(xué)習(xí)》
深度學(xué)習(xí)教科書旨在幫助學(xué)生和從業(yè)者進入機器學(xué)習(xí)領(lǐng)域,特別是深度學(xué)習(xí)。該書的在線版本現(xiàn)已完成,并將在線免費提供。(地址:http://www.deeplearningbook.org/)
10.《機器學(xué)習(xí)實戰(zhàn)》
人工智能,機器學(xué)習(xí)和深度學(xué)習(xí)正在改變眾多行業(yè)。但是建立一個機器學(xué)習(xí)系統(tǒng)需要你做出許多努力,這本書就是為了幫你實現(xiàn)該目標(biāo)而寫的。
本書第一部分主要介紹機器學(xué)習(xí)基礎(chǔ),以及如何利用算法進行分類,并逐步介紹了多種經(jīng)典的監(jiān)督學(xué)習(xí)算法,如k近鄰算法、樸素貝葉斯算法、Logistic回歸算法、支持向量機、AdaBoost集成方法、基于樹的回歸算法和分類回歸樹(CART)算法等。第三部分則重點介紹無監(jiān)督學(xué)習(xí)及其一些主要算法:k均值聚類算法、Apriori算法、FP-Growth算法。第四部分介紹了機器學(xué)習(xí)算法的一些附屬工具。(地址:http://www.mlyearning.org/)