想從事大數據工作,如何自學打基礎
海量數據分成兩塊,一是系統建設技術,二,海量數據應用。
先說系統建設,現在主流的技術是HADOOP,主要基于mapreduce的分布式框架。目前可以先學習這個。但是我的觀點,在分布式系統出來之前,主要是集中式架構,如DB2,oracle。為什么現在用分布式架構,那是因為現在集中式架構受限于IO性能,出來速度慢,如果又一種硬件技術,可以很快地處理海量數據,性能上能滿足需求,那么集中式架構優于分布式架構,因為集中式架構穩定,運維壓力小。現在的集中式架構要么性能達不到要求,要么就是過于昂貴。我期待一種技術出現,可以非常快地傳輸和處理數據,那么集中式架構將再次進入人們眼球。再說海量數據應用。海量數據應用主要是數據挖掘和機器算法。具體有不同的應用場景,如個性化搜索和推薦,社交網絡發現,精準營銷,精準廣告,實時***路徑,人工智能等等。看你想做系統支撐技術還是與業務結合的應用技術。
如果現在學系統建設技術,可以讀下如下書籍:
如果學數據挖掘和機器算法,推薦先看數據挖掘導論,統計分析原理,Mahout,R,MATLAB