成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Coursera數(shù)據(jù)工程師董飛:硅谷大數(shù)據(jù)的過去與未來

大數(shù)據(jù)
董飛,Coursera 數(shù)據(jù)工程師。曾先后在創(chuàng)業(yè)公司酷迅,百度基礎(chǔ)架構(gòu)組,Amazon 云計(jì)算部門,LinkedIn 擔(dān)任高級(jí)工程師,負(fù)責(zé)垂直搜索,百度云計(jì)算平臺(tái)研發(fā)和廣告系統(tǒng)的架構(gòu)。

董飛,Coursera 數(shù)據(jù)工程師。曾先后在創(chuàng)業(yè)公司酷迅,百度基礎(chǔ)架構(gòu)組,Amazon 云計(jì)算部門,LinkedIn 擔(dān)任高級(jí)工程師,負(fù)責(zé)垂直搜索,百度云計(jì)算平臺(tái)研發(fā)和廣告系統(tǒng)的架構(gòu)。董飛本科畢業(yè)于南開大學(xué),碩士畢業(yè)于杜克大學(xué)計(jì)算機(jī)系。他在知乎上分享過多個(gè)引起強(qiáng)烈反響的問答,其中包括《哪些硅谷創(chuàng)業(yè)公司能給拜訪者留下深刻印象》《美國(guó)大數(shù)據(jù)工程師面試攻略》《Coursera 上有哪些課程值得推薦》等。

[[126963]]

問:硅谷最火的高科技創(chuàng)業(yè)公司都有哪些?

在硅谷大家非常熱情地談創(chuàng)業(yè)談機(jī)會(huì),我也通過自己的一些觀察和積累,看到了不少最近幾年涌現(xiàn)的熱門創(chuàng)業(yè)公司。這個(gè)是華爾街網(wǎng)站的全世界創(chuàng)業(yè)公司融資規(guī)模評(píng)選。它本來的標(biāo)題是 billion startup club,不到一年的時(shí)間,截至到 2015 年 1 月 17 日,現(xiàn)在的排名和規(guī)模已經(jīng)發(fā)生了很大的變化。

enter image description here

  • 首先,估值在 10 Billlon 的達(dá)到了 7 家,而一年前一家都沒有。
  • 第二、第一名是中國(guó)人家喻戶曉的小米。
  • 第三、前 20 名中,絕大多數(shù)(8 成在美國(guó),在加州,在硅谷,在舊金山!)比如 Uber,Airbnb,Dropbox,Pinterest。
  • 第四、里面也有不少相似的成功模式,比如 Flipkart 就是印度市場(chǎng)的淘寶,Uber 與 Airbnb 都是共享經(jīng)濟(jì)的范疇。

所以大家還是可以在移動(dòng)(Uber),大數(shù)據(jù)(Palantir),消費(fèi)級(jí)互聯(lián)網(wǎng),通訊(Snapchat),支付(Square),O2O App 里面尋找到大機(jī)會(huì)。這里面很多公司我都親自面試和感受過他們的環(huán)境。

問:有如此之多的高估值公司,是否意味著存在很大的泡沫?

我認(rèn)為在硅谷這個(gè)充滿夢(mèng)想的地方,投資人鼓勵(lì)創(chuàng)業(yè)者大膽去做,同樣也助長(zhǎng)了泡沫。很多項(xiàng)目在幾個(gè)月的時(shí)間就會(huì)估值翻2、3 倍,如 Uber,Snapchat 等等,我也驚訝于他們的巨額融資規(guī)模。

下面這張圖講的就是“新興技術(shù)炒作”周期,把各類技術(shù)按照技術(shù)成熟度和期望值分類,這是硅谷創(chuàng)業(yè)孵化器 YCombinator 的課程 How to start a startup 提到的。“創(chuàng)新萌芽(Innovation Trigger)”、“期望最頂點(diǎn)(Peak ofInflated Expectation)”、“下調(diào)預(yù)期至低點(diǎn)(Trough of Disillusion)”、“回歸理想(Slope ofEnlightenment)”、“生產(chǎn)率平臺(tái)(Plateau of Productivity)”。越往左,技術(shù)約新潮,越處于概念階段;越往右,技術(shù)約成熟,越容易進(jìn)入商業(yè)化應(yīng)用,發(fā)揮出提高生產(chǎn)率的效果。縱軸代表預(yù)期值,人們對(duì)于新技術(shù)通常會(huì)隨著認(rèn)識(shí)的深入,預(yù)期不斷升溫,伴之以媒體炒作而到達(dá)頂峰;隨之因技術(shù)瓶頸或其他原因,預(yù)期逐漸冷卻至低點(diǎn);但技術(shù)成熟后,期望又重新上升,重新積累用戶,然后就到了可持續(xù)增長(zhǎng)的健康軌道上來。今年和去年的圖對(duì)比顯示,物聯(lián)網(wǎng)、自動(dòng)駕駛汽車、消費(fèi)級(jí) 3D 打印、自然語言問答等概念正在處于炒作的頂峰。而大數(shù)據(jù)已從頂峰滑落,NFC 和云計(jì)算接近谷底。

enter image description here

問:你認(rèn)為未來高科技創(chuàng)業(yè)的趨勢(shì)是什么?

我先提一部最近看過的電影《模仿游戲》(Imitation Game),這部影片講的是計(jì)算機(jī)邏輯的奠基者艾倫圖靈艱難的一生。他當(dāng)年為破譯德軍密碼制作了圖靈機(jī)為二戰(zhàn)勝利做出卓越貢獻(xiàn),挽回幾千萬人的生命,可在那個(gè)時(shí)代,他因?yàn)槭峭詰俣慌谢瘜W(xué)閹割,最后自殺結(jié)束了短暫的 42 歲生命。他的偉大貢獻(xiàn)之一就是在人工智能方面的開拓,他提出圖靈測(cè)試(Turing Test),測(cè)試某機(jī)器是否能表現(xiàn)出與人等價(jià)或無法區(qū)分的智能。在今天,人工智能已經(jīng)有了很大進(jìn)步,從專家系統(tǒng)到基于統(tǒng)計(jì)的學(xué)習(xí),從支持向量機(jī)到神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),每一步都帶領(lǐng)機(jī)器智能走向下一個(gè)階梯。

Google 的資深科學(xué)家吳軍博士(《數(shù)學(xué)之美》,《浪潮之巔》作者),他提出當(dāng)前技術(shù)發(fā)展三個(gè)趨勢(shì):第一、云計(jì)算和和移動(dòng)互聯(lián)網(wǎng),這是正在進(jìn)行時(shí);第二、機(jī)器智能,現(xiàn)在開始發(fā)生,但對(duì)社會(huì)的影響很多人還沒有意識(shí)到;第三、大數(shù)據(jù)和機(jī)器智能結(jié)合,這是未來時(shí),一定會(huì)發(fā)生,有公司在做,但還沒有太形成規(guī)模。他認(rèn)為未來機(jī)器會(huì)控制 98% 的人,而現(xiàn)在我們就要做個(gè)選擇,怎么成為剩下的2%? 李開復(fù)在 2015 年新年展望也提出未來五年物聯(lián)網(wǎng)將帶來龐大創(chuàng)業(yè)機(jī)會(huì)。

問:為什么大數(shù)據(jù)和機(jī)器智能結(jié)合的未來一定會(huì)到來?

其實(shí)在工業(yè)革命(1820 年)之前,世界人均 GDP 在 1800 年前的兩三千年里基本沒有變化,而從 1820 年到 2001 年的 180 年里,世界人均 GDP 從原來的 667 美元增長(zhǎng)到 6049 美元。由此足見,工業(yè)革命帶來的收入增長(zhǎng)的確是翻天覆地的。但人類的進(jìn)步并沒有停止或者穩(wěn)步增長(zhǎng),在發(fā)明了電力、電腦、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)之后,全球年 GDP 增長(zhǎng)從萬分之 5 漲到了2%,信息也是在急劇增長(zhǎng)。根據(jù)計(jì)算,最近兩年的信息量是之前 30 年的總和,最近 10 年的信息量遠(yuǎn)超人類所有之前累計(jì)的信息量之和。在計(jì)算機(jī)時(shí)代,有個(gè)著名的摩爾定律,就是說同樣成本下,每隔 18 個(gè)月晶體管數(shù)量會(huì)翻倍,反過來同樣數(shù)量晶體管成本會(huì)減半,這個(gè)規(guī)律已經(jīng)很好地對(duì)應(yīng)了最近 30 年的發(fā)展,并且可以衍生到很多類似的領(lǐng)域,比如存儲(chǔ)、功耗、帶寬、像素等等。

作為 20 世紀(jì)最重要的數(shù)學(xué)家之一,現(xiàn)代計(jì)算機(jī)、博弈論和核武器等諸多領(lǐng)域的科學(xué)全才之一,馮·諾伊曼提出“技術(shù)”將會(huì)逼近人類歷史上的某種本質(zhì)的奇點(diǎn),在那之后,全部人類行為都不可能以我們熟悉的面貌繼續(xù)存在。這就是著名的奇點(diǎn)理論。目前,信息量正在以越來越快的指數(shù)型速度增長(zhǎng),美國(guó)未來學(xué)家 Ray Kurzweil 稱人類能夠在 2045 年實(shí)現(xiàn)數(shù)字化永生,他自己也創(chuàng)辦了奇點(diǎn)大學(xué)。相信隨著信息技術(shù)、無線網(wǎng)、生物、物理等領(lǐng)域的指數(shù)級(jí)增長(zhǎng),人類將在 2029 年實(shí)現(xiàn)人工智能,人的壽命也將會(huì)在未來 15 年得到大幅延長(zhǎng)。

問:國(guó)外值得關(guān)注的大數(shù)據(jù)公司都有哪些?國(guó)內(nèi)又有哪些?

大致可以把大數(shù)據(jù)公司分成基礎(chǔ)架構(gòu)類和應(yīng)用類,而底層都是會(huì)用到一些通用技術(shù),如 Hadoop、Mahout、HBase、Cassandra 等等;在分析領(lǐng)域,Cloudera、Hortonworks、MapR 是 Hadoop 的三劍客;在運(yùn)維領(lǐng)域,MongoDB、CouchBase 都是 NoSQL 的代表;在服務(wù)領(lǐng)域,AWS 和 Google BigQuery 劍拔弩張;在傳統(tǒng)數(shù)據(jù)庫,Oracle 收購了 MySQL,DB2 是老牌銀行專用,而 Teradata 則做了多年數(shù)據(jù)倉庫。

Apps 領(lǐng)域的大數(shù)據(jù)公司更多,比如社交消費(fèi)領(lǐng)域的 Google、 Amazon、Netflix、Twitter 等等, 商業(yè)智能領(lǐng)域的 SAP、GoodData,還有一些在廣告媒體領(lǐng)域,TURN、Rocketfuel,另外還有做智能運(yùn)維的 Sumo Logic 等等。去年的新星 Databricks 伴隨著 Spark 的浪潮震撼了 Hadoop 的生態(tài)系統(tǒng)。

對(duì)于迅速成長(zhǎng)的中國(guó)市場(chǎng),大公司也意味著大數(shù)據(jù)。BAT 三家對(duì)大數(shù)據(jù)的投入都是不惜余力的。我 4 年前在百度的時(shí)候,百度就提出框計(jì)算的概念,最近兩年成立了百度硅谷研究院,挖來 Andrew Ng 作為首席科學(xué)家,研究項(xiàng)目就是百度大腦,在語音、圖片識(shí)別技術(shù)上大幅提高精確度和召回率,最近還做了個(gè)無人自行車,非常有趣。騰訊作為最大的社交應(yīng)用對(duì)大數(shù)據(jù)也是情有獨(dú)鐘,他們自己研發(fā)了 C++ 平臺(tái)的海量存儲(chǔ)系統(tǒng)。淘寶去年雙十一主戰(zhàn)場(chǎng),2 分鐘突破 10 億,交易額突破 571 億,背后有很多故事,當(dāng)年在百度做 Pyramid(按 Google 三輛馬車打造的金字塔三層分布式系統(tǒng))的有志之士,繼續(xù)在 OceanBase 創(chuàng)造神話。阿里云當(dāng)年備受爭(zhēng)議,馬云也被懷疑是不是被王堅(jiān)忽悠,最后經(jīng)歷了雙十一的洗禮證明了 OceanBase 和阿里云是靠譜的。小米的雷軍對(duì)大數(shù)據(jù)也寄托厚望,一方面這么多數(shù)據(jù)幾何級(jí)數(shù)增長(zhǎng),另一方面存儲(chǔ)帶寬都是巨大成本,沒價(jià)值就真破產(chǎn)了。

問:與大數(shù)據(jù)技術(shù)關(guān)系最緊密的就是云計(jì)算,您曾在 Amazon 云計(jì)算部門工作過,能簡(jiǎn)單介紹一下亞馬遜的 AWS 和 Redshift 框架嗎?

AWS 總體上成熟度很高,有大量 startup 都是基于上面開發(fā),比如有名的 Netflix,Pinterest,Coursera 等。Amazon 還在不斷創(chuàng)新,每年召開 reInvent 大會(huì)推廣新的云產(chǎn)品和分享成功案例。在這里面我隨便說幾個(gè),S3 是簡(jiǎn)單面向?qū)ο蟮拇鎯?chǔ),DynamoDB 是對(duì)關(guān)系型數(shù)據(jù)庫的補(bǔ)充,Glacier 是對(duì)冷數(shù)據(jù)做歸檔處理,Elastic MapReduce 直接對(duì) MapReduce 做打包提供計(jì)算服務(wù),EC2 就是基礎(chǔ)的虛擬主機(jī),Data Pipeline 會(huì)提供圖形化界面直接串聯(lián)工作任務(wù)。

enter image description here

Redshift 是一種大規(guī)模并行計(jì)算(massively parallel computer)架構(gòu),是非常方便的數(shù)據(jù)倉庫解決方案,它作為 SQL 接口跟各個(gè)云服務(wù)無縫連接。Redshift 的最大特點(diǎn)就是快,在 TB 到 PB 級(jí)別有非常好的性能。我在工作中也是直接使用 Redshift,它還支持不同的硬件平臺(tái),如果想速度更快,可以使用 SSD 的,當(dāng)然支持容量就小些。

問:Hadoop 是現(xiàn)今最流行的大數(shù)據(jù)技術(shù),在它出現(xiàn)的當(dāng)時(shí),是什么造成了 Hadoop 的流行?當(dāng)時(shí) Hadoop 具有哪些設(shè)計(jì)上的優(yōu)勢(shì)?

要看 Hadoop 從哪里開始,就不得不提 Google 的先進(jìn)性。在 10 多年前,Google 發(fā)表了 3 篇論文論述分布式系統(tǒng)的做法,分別是 GFS、MapReduce、BigTable。雖然都是很厲害的系統(tǒng),但沒人見過。在工業(yè)界很多人癢癢得就想按其思想去仿作。當(dāng)時(shí) Apache Nutch Lucene 的作者 Doug Cutting 也是其中之一。后來 Doug 他們被 Yahoo 收購,專門成立 Team 來投入研究,這就是 Hadoop 開始和大規(guī)模發(fā)展的地方。之后隨著 Yahoo 的衰落,牛人去了 Facebook、 Google,也有的成立了 Cloudera、Hortonworks 等大數(shù)據(jù)公司,把 Hadoop 的實(shí)踐帶到各個(gè)硅谷公司。而 Google 還沒有停止,又出了新的三輛馬車,Pregel、Caffeine、Dremel,后來又有很多人步入后塵,開始了新一輪開源大戰(zhàn)。

為啥 Hadoop 就比較適合做大數(shù)據(jù)呢?首先擴(kuò)展性很好,直接通過加節(jié)點(diǎn)就可以把系統(tǒng)能力提高。Hadoop 有個(gè)重要思想就是移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù),因?yàn)閿?shù)據(jù)的移動(dòng)會(huì)帶來很大的成本,需要網(wǎng)絡(luò)帶寬。其次,Hadoop 提出的目標(biāo)就是利用廉價(jià)的普通計(jì)算機(jī)(硬盤),這樣雖然可能不穩(wěn)定(磁盤壞的幾率),但通過系統(tǒng)級(jí)別上的容錯(cuò)和冗余達(dá)到高可靠性。并且非常靈活,可以使用各種數(shù)據(jù),二進(jìn)制、文檔型、記錄型,也可以使用各種形式,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化(所謂的 schemaless),在按需計(jì)算上也是個(gè)技巧。

問:MapReduce 模型有什么問題?

第一、需要寫很多底層的代碼,不夠高效。第二、所有的事情必須要轉(zhuǎn)化成兩個(gè)操作 Map 或 Reduce,這本身就很奇怪,也不能解決所有的情況。

問:Spark 從何而來?Spark 相比于 Hadoop MapReduce 設(shè)計(jì)上有什么樣的優(yōu)勢(shì)?

其實(shí) Spark 出現(xiàn)就是為了解決上面的問題。先說一些 Spark 的起源,它來自 2010 年 Berkeley AMPLab,發(fā)表在 HotCloud 上的 Spark 是一個(gè)從學(xué)術(shù)界到工業(yè)界的成功典范,也吸引了頂級(jí) VC Andreessen Horowitz 的注資。在 2013 年,這些大牛(包括 Berkeley 系主任,MIT 最年輕的助理教授)從 Berkeley AMPLab 出去成立了 Databricks,引無數(shù) Hadoop 大佬盡折腰。

Spark 是用函數(shù)式語言 Scala 編寫的,Spark 簡(jiǎn)單說就是內(nèi)存計(jì)算(包含迭代式計(jì)算、DAG 計(jì)算、流式計(jì)算 )框架。之前 MapReduce 因效率低下,經(jīng)常被大家詬病,而 Spark 的出現(xiàn)讓大家感覺很清新。 Reynod 作為 Spark 核心開發(fā)者,介紹說 Spark 性能超 Hadoop 百倍,算法實(shí)現(xiàn)僅有其1/10 或1/100。在去年的 Sort benchmark 上,Spark 用了 23min 跑完了 100TB 的排序,刷新了之前 Hadoop 保持的世界紀(jì)錄。

問:Linkedin 都采用了哪些大數(shù)據(jù)開源技術(shù)?

在 LinkedIn 有很多數(shù)據(jù)產(chǎn)品,比如 People you may like、Job you may be interested。你的用戶訪問來源,甚至你的 career path 都可以挖掘出來。Linkedin 也大量用到了開源技術(shù),我這里就說一個(gè)最成功的 Kafka。Kafka 是一個(gè)分布式的消息隊(duì)列,可以用在 tracking、機(jī)器內(nèi)部 metrics、數(shù)據(jù)傳輸上。數(shù)據(jù)在前端后端會(huì)經(jīng)過不同的存儲(chǔ)或者平臺(tái),每個(gè)平臺(tái)都有自己的格式,如果沒有一個(gè) unified log,會(huì)出現(xiàn)災(zāi)難型的O(m*n)的數(shù)據(jù)對(duì)接復(fù)雜度。如果你設(shè)定的格式一旦發(fā)生變化,也要修改所有相關(guān)的格式。所以這里提出的中間橋梁就是 Kafka,大家約定用一個(gè)格式作為傳輸標(biāo)準(zhǔn),然后在接受端可以任意定制你想要的數(shù)據(jù)源(topics),最后實(shí)現(xiàn)線性的O(m+n)復(fù)雜度。對(duì)應(yīng)的設(shè)計(jì)細(xì)節(jié),還是要參考設(shè)計(jì)文檔 ,這里面主要作者 Jay Kreps、Rao Jun 成立了 Kafka 作為獨(dú)立發(fā)展的公司。

Hadoop 作為批處理的主力,大量應(yīng)用在各個(gè)產(chǎn)品線上。比如廣告組,我們一方面需要去做一些靈活的查詢,分析廣告主的匹配、廣告預(yù)測(cè)和實(shí)際效果,另外在報(bào)表生成方面也是用 Hadoop 作為支持。如果你想去面試 LinkedIn 后端組,我建議應(yīng)該去把 Hive、Pig、Azkaban(數(shù)據(jù)流的管理軟件)、Avro 數(shù)據(jù)定義格式、Kafka、Voldemort 都了解一下。LinkedIn 有專門的開源社區(qū),也是在建設(shè)自己的技術(shù)品牌。

問:能談一談 Coursera 在大數(shù)據(jù)架構(gòu)方面和其他硅谷創(chuàng)業(yè)公司相比有什么特點(diǎn)?是什么原因和技術(shù)取向造成了這些特點(diǎn)?

首先我介紹一下 Coursera。作為 MOOC(大型開放式網(wǎng)絡(luò)課程)中的領(lǐng)頭羊,Coursera 在 2012 年由 Stanford 大學(xué)的 Andrew 和 Daphne 兩名教授創(chuàng)立,目前 160 名員工,原 Yale 校長(zhǎng)擔(dān)任 CEO。Coursera 的使命是 universal access to world's best education。很多人問我為什么加入,首先我非常認(rèn)可公司的使命,我相信教育可以改變?nèi)松瑯游覀円部梢愿淖兘逃D懿荒馨鸭夹g(shù)跟教育結(jié)合起來,這是一個(gè)很有趣的話題,里面有很多東西可以結(jié)合。比如提供高可靠平臺(tái)支持大規(guī)模用戶在線并發(fā)訪問,利用數(shù)據(jù)挖掘分析學(xué)生行為做個(gè)性化課程學(xué)習(xí)并提高課程滿意度,通過機(jī)器學(xué)習(xí)識(shí)別作業(yè)、互相評(píng)判,用技術(shù)讓人們平等便捷的獲取教育服務(wù)。

Coursera 作為創(chuàng)業(yè)公司,非常想保持敏捷和高效。從技術(shù)上來說,所有的技術(shù)都是基于 AWS 開發(fā)的,可以隨意啟動(dòng)云端服務(wù)并做實(shí)驗(yàn)。我們大致分成產(chǎn)品組,架構(gòu)組和數(shù)據(jù)分析組。因?yàn)楣颈容^新,所以沒有什么歷史遺留遷移的問題。大家大膽地使用 Scala 作為主要編程語言,采用 Python 作為腳本控制。比如產(chǎn)品組就是提供課程產(chǎn)品,里面大量使用 Play Framework,JavaScript 的 backbone 作為控制中樞。而架構(gòu)組主要是維護(hù)底層存儲(chǔ)、通用服務(wù)、性能和穩(wěn)定性。我所在的數(shù)據(jù)組由 10 多人構(gòu)成,一部分是對(duì)商業(yè)產(chǎn)品,核心增長(zhǎng)指標(biāo)做監(jiān)控、挖掘和改進(jìn)。一部分是搭建數(shù)據(jù)倉庫完善跟各個(gè)部門的無縫數(shù)據(jù)流動(dòng),這里也用到了很多技術(shù)。例如使用 Scalding 編寫 Hadoop MapReduce 程序,也有人做 AB testing 框架、 推薦系統(tǒng),盡可能用最少人力做有影響力的事情。其實(shí)除了開源世界,我們也積極使用第三方的產(chǎn)品,比如我們用 Sumo Logic 做日志錯(cuò)誤分析,用 Redshift 作為大數(shù)據(jù)分析平臺(tái),用 Slack 做內(nèi)部通訊。而所有的這些就是想解放生產(chǎn)力,把重心放到用戶體驗(yàn)、產(chǎn)品開發(fā)和迭代上去。

Coursera 是一個(gè)有使命驅(qū)動(dòng)的公司,大家不是為了追求技術(shù)的極致,而是為了服務(wù)好老師、同學(xué),解決他們的痛點(diǎn),分享他們的成功。這點(diǎn)是跟其他技術(shù)公司最大的區(qū)別。從某個(gè)方面來說,現(xiàn)在我們還是處于早期積累階段,大規(guī)模計(jì)算時(shí)代還沒有來臨,我們只有積極學(xué)習(xí)、適應(yīng)變化才能保持創(chuàng)業(yè)公司的高速成長(zhǎng)。

問:如果想從事大數(shù)據(jù)方面的工作,是否可以推薦一些有效的學(xué)習(xí)方法?有哪些推薦的書籍?

首先還是打好基礎(chǔ),Hadoop 雖然火熱,但它的基礎(chǔ)原理都是書本上很多年的積累。像算法導(dǎo)論、Unix 設(shè)計(jì)哲學(xué)、數(shù)據(jù)庫原理、深入理解計(jì)算機(jī)原理、Java 設(shè)計(jì)模式,有一些重量級(jí)的書可以參考,Hadoop 最經(jīng)典的 The Definitive Guide, 我在知乎上也有分享

其次是選擇目標(biāo),如果你想做數(shù)據(jù)科學(xué)家,我可以推薦 coursera 上的 data science 課程,通俗易懂。學(xué)習(xí) Hive,Pig 這些基本工具,如果做應(yīng)用層,主要是要熟悉 Hadoop 的一些工作流,包括一些基本調(diào)優(yōu)。如果是想做架構(gòu),除了要能搭建集群,要對(duì)各個(gè)基礎(chǔ)軟件服務(wù)很了解,還要理解計(jì)算機(jī)的瓶頸和負(fù)載管理以及 Linux 的一些性能工具。

最后,還是要多加練習(xí)。大數(shù)據(jù)本身就靠實(shí)踐,你可以先按 API 寫書上的例子,做到有能力調(diào)試成功。再下面就是多積累,當(dāng)遇到相似的問題時(shí)能找到對(duì)應(yīng)的經(jīng)典模式。然后就是實(shí)際問題了,也許周邊誰也沒遇到過這樣的問題,你需要靈感和在網(wǎng)上問問題的技巧,然后根據(jù)實(shí)際情況作出最佳選擇。

本文出自:http://www.ituring.com.cn/article/177529

責(zé)任編輯:林師授 來源: 圖靈社區(qū)
相關(guān)推薦

2021-02-25 11:36:28

大數(shù)據(jù)Gartner

2022-08-03 10:27:53

數(shù)據(jù)大數(shù)據(jù)

2020-01-17 13:33:42

大數(shù)據(jù)分析師大數(shù)據(jù)工程師

2017-11-09 14:12:44

大數(shù)據(jù)軟件工程師算法工程師

2015-09-14 09:34:20

工程師未來手記

2021-01-20 10:30:04

大數(shù)據(jù)大數(shù)據(jù)開發(fā)

2022-05-30 09:43:06

數(shù)據(jù)庫字節(jié)跳動(dòng)數(shù)據(jù)規(guī)模

2021-01-29 17:26:03

大數(shù)據(jù)開發(fā)工程師

2018-07-20 16:57:51

大數(shù)據(jù)書單工程師

2017-05-05 10:45:45

大數(shù)據(jù)動(dòng)向

2021-10-28 16:36:32

大數(shù)據(jù)數(shù)據(jù)分析大數(shù)據(jù)平臺(tái)

2020-08-05 08:25:58

大數(shù)據(jù)Java技術(shù)

2018-08-19 15:39:56

數(shù)據(jù)分析數(shù)據(jù)科學(xué)數(shù)據(jù)工程師

2010-01-26 10:00:30

Google工程師Web

2017-11-24 13:51:40

數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)分析

2013-07-25 09:47:54

硅谷工程師新創(chuàng)

2016-11-15 09:43:56

大數(shù)據(jù)數(shù)據(jù)工程師

2021-03-09 09:53:03

大數(shù)據(jù)數(shù)據(jù)分析Hue

2021-02-25 11:42:23

大數(shù)據(jù)數(shù)據(jù)分析sQL

2022-01-05 15:10:03

大數(shù)據(jù)數(shù)據(jù)工程師薪資
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久久女女女女999久久 | 亚洲区一区二 | 国产精品久久久久婷婷二区次 | 国产特一级黄色片 | 91中文视频| 红桃成人在线 | 91欧美| 国产一区二区免费在线 | 亚洲欧美在线一区 | 欧美天堂| 日本在线一区二区三区 | 亚洲国产精品一区二区第一页 | 亚洲一区| 999久久久久久久久 国产欧美在线观看 | 精品av久久久久电影 | 久久久久久久国产精品 | 成人免费av | 99久久精品国产麻豆演员表 | 国产成人一区二区三区精 | 婷婷开心激情综合五月天 | 欧美激情欧美激情在线五月 | 免费视频一区二区三区在线观看 | 中文字幕在线观看www | 欧美一级片中文字幕 | 亚洲精品小视频在线观看 | 欧美成人综合 | 99精品一区二区 | 九九在线 | 欧美一级黄色片 | 国产高清久久久 | 亚州毛片 | 精品视频一区二区三区在线观看 | 亚洲九九精品 | 一区二区三区四区在线 | 欧美视频三区 | 欧美精品日韩 | 国产一级片网站 | 成人久久18免费网站 | 国产伦精品一区二区三区高清 | 亚洲欧美视频在线观看 | 久久国品片 |