WOT2015謝佳標:基于R語言的大數據處理及建模技術
原創正如馬云所說:“大家還沒搞清PC時代的時候,移動互聯網來了,還沒搞清移動互聯網的時候,大數據時代來了。”在信息時代,海量數據迎來了大爆發,也給大數據技術平臺帶來了用武之地。在深圳的【WOT2015"互聯網+"時代大數據技術峰會】現場,51CTO記者采訪了WOT特邀講師、樂逗游戲高級數據分析師謝佳標,從R語言和大數據建模等方面對大數據做深刻解讀。
謝佳標,樂逗游戲高級數據分析師。主要利用R語言進行大數據的挖掘及可視化工作。第七屆、第八屆中國R語言大會的演講嘉賓。有超過八年的數據挖掘建模經驗,從事過咨詢、電商、電力、游戲等行業,了解不同領域的數據特點。有豐富的利用R語言進行大數據挖掘的實戰經驗。
謝佳標告訴筆者,游戲公司獲得的數據量是相對較大的,數據維度比較多,數據源頭也難以把握,所以獲取到的數據是沒法直接用的,需要對數據做預處理。包括幾個部分:一是數據的缺失處理,如果有哪些字段缺失,需要通過機器學習的技術進行填補,有的樣本沒法通過預處理的話,會直接刪除掉。預處理后,需要讀數據進行轉換,有的需要增加一個新的維度來達到數據分析的要求。
那么為什么用R語言進行處理呢?謝佳標表示,R語言是開源的,內建了很多特有的函數建模,并擁有眾多的拓展包。另外由于開源,我們可以看到函數背后的邏輯是怎樣的,每一個步驟是怎樣轉換和處理的。除此之外,在靈活性方面,R近幾年發展很快,很多新的模型、算法和研究等都納入進去,比如深度學習、社交網絡和一些較新的算法等。
在這個大數據技術爆發的時代,對于數據分析師的需求也迎來了大增長,數據分析師的職業前景也十分廣闊。謝佳標告訴筆者他從事數據相關工作已經有八九年,在這個領域總是有很多新東西要研究,能給人帶來很大的成就感和愉悅感。
在他看來,要成為一個優秀的數據分析師,首先要有態度,要保持一個認真的態度來對待。其次,要熟悉統計學知識,有很強的統計學知識或者數學邏輯的話,分析數據會更清晰有條理。***,應該選擇適合自己的工具來實現數據分析。
筆者讓謝佳標為有志于從事R相關工作的人推薦文檔或者書籍。謝佳標表示學習R***的方法是看官網,因為官網有很多完善的幫助文檔。然后可以看一些入門書籍,比如《R語言實踐》《R語言編程藝術》都是比較好的入門書籍。
戳下方圖片,更有料!
【責任編輯:李英杰 TEL:(010)68476606】