2016年大數據80篇爆款文章:這一年你追過的那些技術
2016年即將過去,各位大數據的程序員們,是否覺得這一年都不斷的追著新技術跑?這個大數據公眾號是今年一月底創立的,一年過去,我們積累了不少好內容?;剡^頭來我們看看這一年的腳印,這里我按照文章內容做了一次匯總,分為:流處理、機器學習、用戶畫像、數據驅動、Hadoop、Apache Spark、Apache Kylin、Druid、推薦系統和大數據平臺架構。
流處理
2016年流式數據處理已逐漸開始成為主流,對于流數據的處理存在很多技術,即使在開源社區中,也存在很多撲朔迷離的選擇。在大數據雜談里我們包含了一些優秀的流處理文章,包括Kafka流,Spark流,Storm,Flink,Samza等。
Apache Flink是今年新軍突起的流處理技術,完全兼容Hadoop。Apache Flink與Apache Spark的主要差別在于計算模型不同。Spark采用了微批處理模型,而Flink采用了基于操作符的連續流模型。
大數據分析引擎Apache Flink: What, How, Why, Who, Where?
LinkedIn在2010年開發了Kafka,是Kafka的重度使用者,他們總結的經驗是非常有參考意義的。而“微服務架構:kafka的崛起”這篇文章詳盡的探討了在微服務架構升級的過程中,如何使用Kafka將微服務之間耦合降到***,同時能讓整個系統在保證高可用的前提下做到高可擴展。
同時Samza也是LinkedIn研發的一款流處理器,下面的文章介紹了Samza在LinkedIn公司的應用情況,Samza在流處理方面的優勢、新特性以及下一步的規劃。
LinkedIn開源流處理器Samza的應用場景、優勢、新特性與未來規劃
下面這篇文章,集中比較了主流的流處理器的優缺點。
實時流處理框架Storm、Spark Streaming、Samza、Flink,孰優孰劣?!
下面是一些企業自研流處理架構的情況。JMQ是京東自研的消息中間件,InfoQ前后發過兩篇文章來解析他們的中間件情況;另外我們也給出了一系列文章來說明Yelp的數據管道,并且Yelp的數據管道剛剛宣布了開源,大家可在Github上下載閱讀源碼。
京東消息中間件JMQ:架構,與Kafka的對比,主要特性和應用場景
Kafka和Twitter新開源的DistributedLog技術對比
機器學習
機器學習經過近年來的強勢生長之后,很快地從一個很少被人關注的技術主題,轉變為被很多人使用的管理工具。其有效性被無數企業成功驗證和應用,為了避免錯失良機,企業需要設計自己的機器學習項目,比如在電商平臺的推薦、排序業務中。在業務的多樣性大的時候企業就需要考慮將機器學習系統平臺化。對于學術界來說,學者們更希望機器學習平臺容易調試、靈活性要強、迭代要快;而對于工業界更看重的是平臺的穩定性強、處理大數據量、容易進行數據整合、高效率、低開發成本等。
我們在大數據雜談上實際上已經積累了不少企業機器學習平臺構建的內容,包括:騰訊的Angel,優點是效率快于Spark幾十倍,支持維度達到十億;另外是阿里巴巴的參數服務器,講述了涉及理念以及在阿里的實際應用;還有第四范式的先知平臺,從系統和工程方面的優化方向,在開發平臺產品時的一些經驗;還有就是TalkingData的Fregata,優點***是速度快,第二是算法無需調參或者調參相對簡單。
騰訊大數據宣布開源第三代高性能計算平臺Angel:支持十億維度
為什么已有TensorFlow和Spark,第四范式還要開發“先知”平臺?
]輕量級大規模機器學習算法庫Fregata開源:快速,無需調參
下面兩篇文章講的是怎么將深度學習平臺應用到企業生產環境中,這也是大名鼎鼎的兩個平臺:Tensorflow和Deeplearning4j。
如何通過TensorFlow實現深度學習算法并運用到企業實踐中
下面是各公司針對企業的業務利用機器學習來提高產品體驗的一些經驗。依次是Twitter,1號店,攜程,搜狗,達觀數據。***是一篇總結深度學習全球進展和預測2017的文章。
用戶畫像
“對企業而言,得用戶者得天下,能夠有一套科學的精準營銷、個性化推薦模型,無疑會促進業務的增長;對開發者而言,用戶畫像也是頻繁被提及的技術,這樣可以根據目標用戶的動機和行為上進行產品設計,遠遠優于為腦中虛構的東西做設計。”
這里有來自去哪兒、TalkingData、FreeWheel、百分點、天云大數據的5篇優質內容教你如何設計精準的用戶畫像產品。
數據驅動
講大數據離不開數據驅動。數據驅動相關案例分別來自鏈家網、諸葛io、LinkedIn和滴滴。
Hadoop
今年1月,Hadoop過上了10歲生日,我也在年初策劃了Hadoop十年的專欄,共約了十篇稿件,Cloudera的陳飚老師的文章在這一年中流傳甚廣,非常值得一看。另外InfoQ將這十篇文章集中到一起,做成了《架構師特刊:Hadoop十年回顧》的電子書分享給了大家,有興趣可以下載下來讀一讀,將對Hadoop生態形成非常好的理解。在這里再次對十位作者老師表示謝意,謝謝大家的無私分享!
Apache Spark
在2016年,Spark迎來了最近兩年的一個***的版本的發布:Spark 2.0。但是在Spark上我做的工作并不夠,原本很想做個很好的專題,但是屢屢碰壁之后只能罷了,畢竟對于Spark開發者來說,這么大熱的一年,任何實踐都足夠上沙龍和大會。
關鍵七步,用Apache Spark構建實時分析Dashboard
Spark在GrowingIO數據無埋點全量采集場景下的實踐
Apache Kyline
Bay的大數據OLAP框架Kylin項目一經開源,即獲得了業界眾多的稱贊,并被邀請加入Apache軟件基金會的孵化項目,在2014年11月,正式經投票加入了Apache大家庭,項目名字也改成了“Apache Kylin”。
InfoQ在Kylin開源的一開始就持續關注這個項目,分享了很多的案例,促進了Kylin社區的進一步發展。這些內容我們也集中到了電子書中:《架構師特刊:Apache Kylin實踐》。
Apache Kylin在美團數十億數據OLAP場景下的實踐
漲姿勢:百度地圖的工程師都是如何利用Apache Kylin處理數據的
Druid
Druid作為一個大數據的OLAP系統,在這一年里收獲了很多的關注。國內也有了Druid中文社區,組織了好幾次Druid Meetup。
PB級數據快速聚合查詢,Druid和Caravel在去哪兒大住宿的實踐
推薦系統
推薦系統部分有百分點、京東、達觀數據的企業實踐,也有解說播客和博客的推薦系統原理和實踐的文章。還有一篇***的推薦系統進展,Youtube的大規模推薦系統。
***也同樣奉上兩本電子書:《推薦系統:理論篇》和《推薦系統:實踐篇》。
三周時間,搭建一個產品級的播客podcast推薦系統實踐解析
用一個大家都懂的方式來聊聊YouTube基于深度神經網絡的推薦系統
大數據平臺與數據挖掘實踐
數據平臺部分積攢的內容也非常多:攜程、去哪兒、百分點、諸葛io、騰訊、挖財、有贊、鏈家網、美團、卷皮、達觀數據和明略數據。
大數據平臺變革浪潮中,這家初創公司積累的值得借鑒的業務架構實踐經驗
用Elasticsearch構建電商搜索平臺,一個極有代表性的基礎技術架構和算法實踐案例
房源推薦、房屋估價、經紀人畫像...,鏈家如何利用數據挖掘技術服務房地產?
從Storm到Heron,Twitter的實時計算框架有哪些重大進化?
這5種必知的大數據處理框架技術,你的項目到底應該使用其中的哪幾種
數據庫
大數據少不了數據存儲,推薦大家再看看***篇黃東旭老師的開源數據庫現狀。
10億級流數據交互查詢,為什么拋棄MySQL選擇VoltDB?
知識圖譜