成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

【專訪】顏世光:百度通過分布式集群實現萬億量級計算

云計算 分布式
記者在WOT2016大數據峰會前采訪了百度網頁搜索基礎架構團隊技術負責人顏世光,他是WOT2016大數據峰會上的發言嘉賓之一,與我們共同分享了關于海量計算以及搜索引擎的最新技術。

WOT2016大數據峰會將于2016年11月25-26日在北京粵財JW萬豪酒店召開,屆時,數十位大數據領域一線專家、數據技術先行者將齊聚現場,在圍繞機器學習、實時計算、系統架構、NoSQL技術實踐等前沿技術話題展開深度交流和溝通探討的同時,分享大數據領域***實踐和最熱門的行業應用。

記者在會前采訪了百度網頁搜索基礎架構團隊技術負責人顏世光,他是WOT2016大數據峰會上的發言嘉賓之一,與我們共同分享了關于海量計算以及搜索引擎的***技術。

[[176064]]

顏世光于2011年加入百度,早期從事Spider系統架構相關研發,期間主持了百度第三代Spider系統的設計與實現。當前主要研究方向為大規模分布式系統,是百度海量數據庫Tera、百度文件系統BFS和集群操作系統Galaxy的主要作者。他熱衷開源,先后推動了百度多個重量級系統對外開源。以下是采訪實錄。

1. 作為國內***的搜索平臺,您認為百度面臨的***挑戰是什么?目前是如何解決的?

百度面臨的挑戰有很多,我僅能談下在網頁搜索技術上面臨的, 當前比較大的挑戰是覆蓋率和時效性。覆蓋率可以認為是百度能檢索到到的網頁范圍,越大越好。

時效性通俗講是指互聯網上產生一個新網頁到百度能檢索到它這段時間的延遲,越短越好;這兩個挑戰,一個要求處理的數據盡量多,另一個要求處理得盡量快,在表面看是沖突的。我們當前解決的方式是增量流式處理,不同于普通的流式處理技術,搜索引擎處理每一篇網頁,網頁的內容正確與否,網頁權值(PageRank)大小,不只取決于它本身,而是要依賴互聯網全局信息。

所以增量處理的核心是一個能存儲互聯網上所有網頁、超鏈信息,并可以實時讀寫的數據庫。這個數據庫背后是百度文件系統、集群調度系統等一系列基礎設施。

2. 在分布式技術出現之前,百度搜索依靠什么來進行計算?

在當前這套增量處理技術出來之前,百度主要依賴MapReduce和Spark做數據處理。兩者都是批量計算的思想,所以延遲比較高。Spark能做到10分鐘級,但能處理的數據量有限。對于依賴海量全局信息的計算只能用MapReduce進行,延遲達到周級。

MapReduce的局限還體現在擴展性上,如果處理100億網頁,需要1000臺機器,那處理1萬億網頁就得10萬臺,這幾乎是不可承受的成本。

所以在此之前,無論是處理數據還是能處理的數據量,都受到了很大限制。

3.在萬億量級計算方面,百度有何經驗與大家分享?

萬億量級的計算核心挑戰在系統的擴展性和負載均衡。承載萬億量級的數據,無論是數據庫、調度系統還是底層的分布式文件系統,都需要能高效地擴展到萬臺規模的集群,這里的主要考慮是無單點設計的同時又要保證一致性,最終多數系統選擇了分布式的Master集群來管理元數據,用戶數據與計算由對等的slave節點承載的方案。

針對負載均衡問題,我們會小心的處理局部的熱點問題,因為一個區間熱點可能拖慢整個計算任務。在系統的設計中,特別是數據庫系統的設計中,做到快速的熱點拆分和跨機器遷移。

多方面的考慮和折衷,具體的內容會在這次大會的演講中和大家分享。

4.對于當前熱門的開源技術您怎么看?

顏世光表示他在百度主要做開源項目,當前工作核心是百度開源基礎架構(分布式存儲、集群管理、網絡通信框架),這是百度自主研發的,與hadoop生態對應的一套大數據處理平臺。

百度文件系統BFS對應hadoop的HDFS,海量數據庫Tera對應hadoop的HBase,分布式協調服務Nexus對應Zookeeper,集群調度系統Galaxy對應Yarn,計算框架shuttle對應MapReduce。

【51CTO原創稿件,轉載請注明原文作者和出處為51CTO.com】

責任編輯:趙寧寧 來源: WOT
相關推薦

2016-11-08 21:18:22

百度

2011-08-12 10:58:51

Hadoop

2023-02-22 14:04:54

2011-11-03 10:07:09

ASP.NET

2021-07-14 07:17:37

Springboot分布式UIDGenerato

2011-12-13 15:17:42

云計算微軟百度

2019-10-29 14:22:44

阿里云云計算認證測試

2010-05-11 17:48:38

百度百科世博模塊

2023-06-20 17:53:53

2024-11-14 11:56:45

2024-03-01 09:53:34

2017-09-01 05:35:58

分布式計算存儲

2011-03-23 17:28:03

2015-06-17 14:10:34

Redis分布式系統協調

2010-06-03 19:46:44

Hadoop

2020-04-22 12:06:08

百度網盤資源

2009-08-21 10:33:52

2010-08-30 10:48:10

百度框計算云計算

2019-11-21 10:56:24

開源技術 趨勢

2014-07-25 17:12:39

數據庫WOT2014MongoDB
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产在线精品免费 | 国产亚洲精品美女久久久久久久久久 | 亚洲国产精品久久 | 亚洲视频二区 | 午夜精品久久久久99蜜 | 久久91精品国产一区二区 | 黄色大片免费播放 | 国产精品免费一区二区三区四区 | 国产一区二区三区免费视频 | 国产午夜精品久久久久免费视高清 | 国产成人精品网站 | 精品区一区二区 | 国产精品久久二区 | 日韩在线观看网站 | 国产99视频精品免费视频7 | 日韩电影免费在线观看中文字幕 | 日本精品一区二区三区在线观看视频 | 成年人网站免费视频 | aaaa一级毛片 | 国产黄色大片在线观看 | 九九九视频 | 久久久久久亚洲精品 | 蜜月va乱码一区二区三区 | 999re5这里只有精品 | 91中文字幕在线观看 | 中文字幕亚洲欧美 | 欧美日韩成人在线 | 久久久久国产一区二区三区四区 | 一区久久| 欧美日韩国产精品一区二区 | 欧美一区二区免费 | 伊人网影院| 国产一区不卡 | 中文字幕日韩一区 | 超碰超碰 | 天天干,夜夜操 | 婷婷五月色综合香五月 | 激情自拍偷拍 | 三级免费网 | 福利在线观看 | 午夜精品久久久久久 |