成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Go在百萬億級搜索引擎中的應用

開發 前端
Poseidon 系統是由 360 開源的日志搜索平臺,目前已經用到了生產環節中,可以在數百萬億條、數百 PB 大小的日志數據中快速分析和檢索特定字符串。因為 Golang 得天獨厚的支持并發編程,Poseidon 的核心搜索引擎、發報器、查詢代理是用 Golang 開發的,在核心引擎查詢、多天查詢、多天數據異步下載中大量使用了 goroutine+channel 。

Poseidon 系統是由 360 開源的日志搜索平臺,目前已經用到了生產環節中,可以在數百萬億條、數百 PB 大小的日志數據中快速分析和檢索特定字符串。因為 Golang 得天獨厚的支持并發編程,Poseidon 的核心搜索引擎、發報器、查詢代理是用 Golang 開發的,在核心引擎查詢、多天查詢、多天數據異步下載中大量使用了 goroutine+channel 。

大家上午好,我是郭軍,很高興今天在這里和大家交流。我今天演講題目,Golang 在百萬億搜索引擎中的應用。Poseidon在希臘意思是海神,在這里是海量數據集的主宰者。

之前我的工作一直面向海量用戶,去年年中我接觸大數據以及海量數據這樣的場景,在今天的演講中,主要會涉及以下幾方面內容:

  • 設計目標
  • Go 應用場景與遭遇的挑戰
  • 怎樣應對?
  • 開源的改變
  • 總結

設計目標

首先說一下為什么要做這個系統。這是一個安全公司,APT ( 高危威脅持續性事件)。在追查APT事件的時候,我們通常會找一個樣本在某一樣時間之內到底做了什么事情。在海量日志中找這些信息的話,運氣好不堵塞的時候,大約兩、三小時可以跑出來,如果運氣不好,跑的任務太多堵塞的話就要修復,可能一天兩天才能出來數據,顯然這樣的效率是不高的。

我們的設計目標,我們總的數據量保留三年的歷史數據,一共有一百萬億條,大小有 100 PB。秒級交互式搜索響應,從前端發起請求到某一天數據,我們會在幾秒鐘之內給你返回。我們之前設定秒級60秒返回就可以,實際上做完之后測試的結果都在3秒到5秒之內,90%請求在10秒之內。每天要支持兩千億數據量灌入,原始數據僅存一份,對現有 MR 任務無侵略。ES 原始數據不止存一份,會再存一份,我們這么大數據量來說,再存副本的話,維護成本以及代價是非常大的。ES 支持不了百萬億級數據量,現在業界做到一千億,我們只做到300多G。然后自定義的分詞策略,我們每一個業務的日志格式都不一樣,分詞策略需要特別靈活;然后故障轉移節點負載均衡,自動恢復,支持原始日志的批量下載。

Go在百萬億級搜索引擎中的應用
圖1

圖1是我們總體流程,這個圖比較復雜,我們之前有同事分享過這個架構。如果今天再分享架構可能時間會不夠,圖2是它的一個非常簡單的粗略圖。

Go在百萬億級搜索引擎中的應用
圖2

Go 應用場景與遭遇的挑戰

首先原始日志。 在轉化的時候我們把每 128 行原始日志抽取出來作為一個文檔,多個文檔聯結在一起形成一個文件。這里會有人問為什么選擇 128 行,我們每天日志量是700億,按照每一行一個文檔我們有700 億文檔。一行日志一個文檔,700 億文檔占用空間太大;700 億數據會膨脹。選擇 128 行是因為:***,700 億除 128 ,大約是 5.46 億左右,在一定范圍內可以承受;第二,因為我們的ID都是數字形式,以發號器形式發出來的,我們壓縮數字的時候,肯定要采取各種各樣的壓縮辦法,我們在這個地方用的插分,對于128 數字的壓縮是比較好的。壓縮 128 行日志對比壓縮1行日志高很多。我們每天原始日志,我說的業務每天原始日志有 60 ,壓縮之后我們能打成 10 左右,這是每天的數據。我們在輸出的時候,這個是原始的日志,***就要到原始日志里面找,***就要構建數據。因為我們要存入進去的時候,剛剛我說的一句話,很多人不明白,多個連接起來形成一個文件。有一個非常大的優勢,里面的數據我放到另外一個文件里面,我一直疊加,***這個文件可以被解壓。換一種方式來說,把文件都輸出到一個文件里面,作為這一個文件,我從這個文件里面取出某一段來,我就可以解壓出來,這是一個非常大的特性。因為我需要讀一段日志,我肯定要知道這個我從哪個地方讀到哪個地方,我要知道我讀的壓縮文件,解壓出來就是128行日志。我們把整個原數據放到這里面,去建索引以及原數據,大體就是這樣一個流程。首先看一下離線引擎,客戶端請求日志,包括 PC 衛士、網絡以及瀏覽器等等,這塊相當于傳統搜索引擎的爬蟲。下面會具體講到,離線生成 DocGz 、DocGzmeta ,然后構建原數據。在線引擎,web 我們做簡單的頁面開發,到 proxy 集群,再發到 searcher 集群,然后走到 readHDFS ,readHDFS這個服務是用 Java開發,用 Java 開發有很多坑,但是又不得不用,因為java仍然是操作hadoop最合適的語言。

來說一下數據結構。 我們用 ProtrBuffer 描述核心數據結構。每一個 ID 下面分為兩段,那個 docID 就是我這個文檔的編號;第二是 rowIndex,每個里面都會對應多行日志,我這里面對應 128 行里面哪一行日志,就是這個做的定位。我們用 map 的形式描述出來,這個是由 DocID 形成的列表,每一個里面會對應多個DocIDList。map 和 string 里面,我要先找到 map ,然后再把數據拿出來。如圖3所示。

Go在百萬億級搜索引擎中的應用
圖3

說一下搜索引擎的核心技術。 首先倒排索引,倒排索引有一個趨勢,DocidList 非常長。我們一個分詞會先計算出來 hashid ,知道 hashid 之后要查詢的時候我們要做一個平臺,給出要查詢哪一個業務,比如我要查網絡等等這些,我們以業務的簡寫拼接上hashid,然后要查詢的時間,查詢哪一天的數據,我們引擎不是實時,因為數據量太大做不了實時,只能做到今天查昨天。然后解析 invertedindex 拿到對應的文檔信息在里面,找到這個位置之后,把我們所有的需要的原數據抽出來,然后解壓。我們就知道某一個分詞對應著 DocidList 是哪一個,根據 DocidList 去查要查的 map 信息在哪個地方,獲取之后再拼一個路徑,把原始數據拿出來。拿出原始數據之后,一個文件里面會有 128 行日志,這 128 行日志Doc里面rowindx 找到文檔在哪一行,做過濾就可以了。用非常簡單的話來總結一下,因為 Docid 比較長,我們存一個位置,我們的 DocidList 每一個 Docid 對應的文檔也比較多,我們讀原始文檔的時候,也會存一個位置,在計算機領域中,各種難以解決的問題都可以添加一個間接的中間層來解決這個問題。如圖4所示。這句話在我們系統中有了很好的嘗試,不僅是這一塊。

Go在百萬億級搜索引擎中的應用
圖4

再來說一下 idgeneratror 。 按照每天業務 27700 億來算,分詞以后是 100 億,每一個分詞對應 277 行日志,這是平均數,每天 Docid 有 27700 億個。按照每個 4 字節來計算,光是 Docid 數字將近 11TB。在這里進行了處理,采用分段區間獲取降低 qps,每天的 id 重新從 0 開始分配。我們每天 Docid 倒排索引量在2.4T。每天 27700 億我們做起來也稍微有點發怵,我們想了一個辦法,我們業務名加時間作為 key,每天id 從零開始重新分配,這樣就可以保證我每天的量不至于太高,而且分出來的 Docid 不用太大,如果太大的話,可能數據就會比較膨脹。我現在建了索引是哪個業務,什么時間段,哪一天的,我這次要請求哪一個區段,如果說我請求了 1 到 100 個這個區段,在 idgeneratro 會提前預留出 1 到 100 這個空隙。

Proxy/Searcher詳細設計。 Searcher核心引擎就是走四級索引里面做的事情,其中包括過濾和模糊查詢等等,這些不是主干業務我沒有說。從里面拿出map數據,然后再取原始數據,取完數據以后,我們有很多原始數據非常大,大約有幾十兆左右,如果放在處理器前端,前面會直接卡死,我們會把原始數據比較大的業務,在頁面上面給大家展示,點擊查看原始數據這么一個鏈接,點了以后再過來請求一遍,這是一個非常簡單的架構。如圖5所示。

Go在百萬億級搜索引擎中的應用
圖5

Searcher并發模型。 因為讀 四級索引的時候,讀 Docid 的過程一模一樣,所以我在這里用讀 Docid 舉例子,比如我拿到 DocidList 的數據,我會給每一個 Docid 分配一個 Goroutine ,拼接出來 doc path ,讀取原始日志,然后做過濾,***返回給前端。如圖6所示。

Go在百萬億級搜索引擎中的應用
圖6

怎樣應用

***個瓶頸。 我們團隊的基礎組件全是 c++,我們團隊核心業務,以及在線引擎、核心引擎都是c++ 來做的。我們用到 gdb 進行調試,進程過多,用 c++ 組件一開始想偷懶,然后編輯進C,再放到 Go 里面去。每一個讀取 Docid 中,每一個文件都會去讀,我們的運用程序經常就掛,當時也沒有原因,***我們才看到執行 CGO 的時候,我們收到一個信號,就是 signal exit,然后我們進行GDB調試,說是進程太多,因為CGO在執行的時候會新建一個M。

解決方案:用Go重新實現一遍,將組件作為http服務,Go Client調用,做集中式處理。

第二個瓶頸。 在系統中,我們大量使用 Goroutine,子寫程 panic 在主寫程不能被處理掉。

解決方案:我們在通道類型里面為struct,封裝正常數據和error,在主協程取取出數據,統一做處理。

經驗小結。

  • 即使精通很多語言,***不要混用,要非常謹慎引入其他語言的解決方案。
  • 不要完全相信recover,它不能恢復runtime的一些panic。

看一下我們的Proxy多天并發查詢設計。 如圖7所示。要做 多天查詢有兩種方案。***種方案把多天查詢加上,這樣使我們核心查詢引擎變得非常臃腫,我們還是那句話,加一個中間層。把多天變成單天,然后在Proxy 拿到所有的單天數據,就形成了多天查詢。

Go在百萬億級搜索引擎中的應用
圖7

我們還有另外一個項目,請求Poseidon的數據,我們想到兩種解決方案,***種解決方案,你在自己第三方系統里面做緩存,要不我們做緩存,我們是這樣取舍。如果第三方系統里面做緩存,所有的查詢,緩存只能在第三方系統里面用。如果在我們這里緩存,他們發了請求到我們這來,其他所有第三方里面都有可能能用上。我們是這樣做的,首先請求 Searcher 拿到當天的數據,比如查一個月的數據,請求 Searcher 單天的數據,如果每一個Goroutine 去查一天,每一個 Goroutine 拿到 Searcher 單天數據之后,把它解出來,看一下是不是錯誤數據。如果是錯誤數據的話,直接給客戶端把這條數據返回錯誤,并不是給客戶端整個錯誤,因為只是這一天某一條數據有錯誤。而不至于我們在查詢 30 天數據的時候,里面只要某一天某一條數據有錯誤,就直接返回給用戶,我這個系統不可用。如果不是錯誤數據,會根據請求參數,請求參數有很多。除了這些之外,還有查詢的時間,根據這個來做一個Cace Key,然后打回給前端。

我們遇到一個問題,每一個用戶會把整個索引流程都跑一遍,也就是說用戶會給我們實時測試。在同一個時間之內,同一份數據在緩存時間之內不會走完整個 readhdfs 流程。build index 程序化,我們會有監控,如果程序化我們會知道,程序掛了會報警感知,但是數據錯誤卻是未知,我們現在還沒有做到這種監控。但是這個數據錯誤是未知的,我們修復索引就會花費大量時間,去重新寫日志,跑 Docid,還要解決漏洞。

我們的解決方案,***個減少緩存時間,在可容忍錯誤數據時間之內,用戶查詢能及時發現問題,恢復一天兩天數據還可以,不至于緩存 30 天或者一、兩個月,到***錯誤數據會越來越多。第二個解決方案,參考 NSQ,利用 for+select 的不確定性來分餾,隨機流量到 chanel 和 hdfs 做熱測試。缺點,就是開發成本相對***種方案來說有點高。這塊要注意,開發成本并不是非常高,因為 select 而只能從 chanel 拿數據。

第二個經驗小結。 不要選擇非常高大上的一些技術,或者說一些我們所說的黑科技,簡單、有效、夠用能解決問題完全可以。利用 Goroutine 設計并發程序很方便,但是并發運行模型一定要 hold 住。我們之前Gopher 群里面發過一個博客,里面發了很多動態圖,一些 Go 的 Goroutine 和 channel 如何并發,動態圖畫的非常炫。我們在寫自己業務的時候,我們看了 Goroutine 以及 Goroutine 和 channel 怎么聯動,我們自己有概念。我要表達觀點的時候,我一時也找不到非常恰當的名詞來描述,我不知道這個名詞之前有沒有,或者有沒有其他的意義。

Proxy多天異步下載。 如圖8所示。前端發起請求,要選擇下載多少天,下載多少數據,服務端接受到請求之后,馬上給客戶端返回,我已經收到了,把這個消息寫到channel。剛開始我們已經說過在readHDFS是是用JAVA寫的,Goroutine太多,底層掛掉。兩個Searcher到HDFS的時候,一個分詞對應上百個Docid,可能對應著上百個文件,因為每一個Docid不一定在一個文件里面。在Searcher里面的時候,看起來進來一個請求,實際上往后會越來越大,到***可能就是指數級的增長,像我們滾雪球一樣。

Go在百萬億級搜索引擎中的應用
圖8

首先JAVA做了簡單的連接池,然后有熔斷機制,如果超出一定的連接數,直接返回error。像我們很早之前的時候,保險絲,家里面的電率大的時候,保險絲是用鉛絲做的,鉛絲會熔化掉。

再說一下GC的變化。 首先我說一下GC在我們整個系統中,從來都不是瓶頸。在這里說的幾點,是我們升級之后簡單做的測試,在這里和大家交流一下。如果有其他做測試比我們更細的同學,可以交流一下。

Go 1.7。 我們之前用的 1.5,升級到 1.7 之后,我們的 GC 下降到了三分之一。

nginx 代理問題,之前我做分享的時候,有同學問我在 Go 前端要不要加nginx代理。我之前做的系統面向海量用戶,我們只把 GoServer 打包成二進制的可執行包,請求打到 lvs 的80 端口然后再轉發到 GoServer 8080,非常簡單。在這個項目我們用了 nginx,我們有用它的理由。

訪問控制和負載均衡。 負載均衡我們可以用 LVS 做,我們這個項目的場景,使用的人非常少。***我們是一個內部項目,權限問題,我們所在前端端口只能讓開放的一些機器來訪問,除了我們自己的前端器會訪問以外,其實還有其他的一些團隊,會過來直接寫腳本請求我們的數據。我們nginx里面直接用了這兩個,這樣我不需要在Go里面做,前面就可以直接用nginx做了簡單的負載均衡。要不要nginx,完全取決于自己業務的場景。因為在這個場景中,加了nginx也只是給運維稍微增加了負擔,但是ip限制和負載均衡不需要重新開發了,之前沒有用因為它沒有在里面起到任何作用,而且之前是對外的服務,不需要有任何的限制,任何人都可以過來請求。

開源的改變

我們考慮開源。 在去年11月份的時候,我們開源了系統,系統有66%代碼是用Golang寫的。我們有兩個問題需要解決,***個問題第三方依賴的問題,我們開源主體方案沒有用到我們自己的內部依賴包,這些第三方的組件,我們應該如何維護它,我當時和很多人交流過,這種方式也比較多,但是他們各有各的優點和缺點,幾乎沒有一個非常***的方案,能解決到依賴里面再套依賴,以及多層依賴關系,至少我沒有找到,既然沒有的話,就選擇***眾化,最簡單的方案,用這個方式來解決。

在我們整個服務里面,我們自己開發了幾個服務,一共有五個。我們當時考慮過,如果讓用戶部署五個服務,即使我們寫好了腳本,部署起來在每個用戶端操作系統不同,CPU位數不同等等,都會出各種各樣的問題。排查起問題來,不知道排查哪一個服務,對于我們這些開發者來說,我們排查問題的時候,也會根據日志一個服務一個服務去找。我們考慮到,我們把所有的服務打成一個ALL in One一個包。在實際交流試用中,我們了解到有很多人沒有選擇All in One而選擇這五個服務獨立部署。

我們開源有五個月,有很多人想讓我們把模糊查詢以及過濾開源出來。模糊查詢我們做的非常簡單,我們用了一個數據庫,有并發能力。我們先把我們需要模糊查詢的分詞給分出來,放到數據庫里面,在數據庫里面我就可以操作,我們平常用到的模糊查詢關鍵詞,也就是幾十億左右,幾十億的量做一個操作,那簡直太簡單了,查到之后就知道關鍵詞,拿到關鍵詞之后,接下來的方案就是一個用多個關鍵詞查詢多天的場景,用多個關鍵詞和單個關鍵詞是一樣的。多個關鍵詞去查詢和用多天查詢是一樣的,每個關鍵詞分一個Goroutine去查詢,就可以解決問題了。

總結回顧

首先Go的開發體驗比較好,性能比較高,服務很穩定,我們除了線上有一次事故之后,好像就再也沒有過。我們線上是用自己寫的做監控,如果它掛掉就會自動拉起來,當然這是一種比較low的方式,因為它可能沒有掛,但是它的確死掉了。可以滿足大部分的需求場景,GO語言程序開發需要在代碼可讀性和性能之間做平衡取舍,應用程序并發模型需要在控制之內。我們有很多人在群里面問連接池以及對象池,連接池我們不說,因為很多客戶端都會實現連接池這個功能,我們考慮對象池。對象池優點的確很大,因為它可以復用對象減輕壓力,這是最核心的功能。復用對象解決了gc壓力,但還有一個代碼可讀性的問題,引進對象池,對象池和業務沒有關系,你要看對象池怎么做,代碼可讀性會非常差。還要說的是,對象池這種解決方案,在Go1.2的時候,用起來很爽,但是目前為止1.4到1.7的時候,對象池這種方案已經遠遠用不到了,因為gc已經不是那么明顯。除非在非常極端的情況下,我們可能會用到這種非常極端的方式解決問題,但是我想大部分的公司都不太會遇到這種問題。我們知道Go在開發安卓,我們現在用的最多就是它和c++以及c的配合然后在用CGO引入到GO,謹慎與其他語言合用,即使對語言都非常熟,你也并不知道他們兩個結合起來說不定引發一個問題,可能是你永遠解決不了的問題。要合理引進第三方解決方案,在運維成本和系統維護成本要做平衡。

責任編輯:未麗燕 來源: 推酷
相關推薦

2011-06-20 18:23:06

SEO

2009-02-19 09:41:36

搜索引擎搜狐百度

2012-04-30 20:54:01

Android

2009-09-22 16:23:52

搜索引擎

2023-07-11 08:28:33

Redis數據存儲

2020-03-20 10:14:49

搜索引擎倒排索引

2017-08-07 08:15:31

搜索引擎倒排

2016-12-26 13:41:19

大數據搜索引擎工作原理

2025-02-28 01:00:00

2010-06-13 16:27:28

搜索引擎

2010-04-20 11:43:46

2022-10-08 09:13:18

搜索引擎?站

2012-09-07 13:22:21

搜索搜狗

2009-04-28 19:42:44

Linux系統FTP搜索

2011-06-22 17:28:51

SEO

2012-05-14 11:01:50

搜索引擎微軟

2020-08-10 14:39:30

搜索引擎

2011-06-15 19:09:24

搜索引擎

2014-06-23 15:12:29

大數據

2015-08-31 10:41:58

搜索引擎Google云應用
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产一区二区三区免费 | 日韩视频―中文字幕 | 成人特区 | 欧美日韩成人 | 日本三级电影在线观看视频 | 一区二区久久电影 | 亚洲中午字幕 | 青青草一区二区 | 国产精品美女www爽爽爽 | 欧美日韩国产一区二区 | 国产亚洲一区二区三区在线观看 | 最新伦理片 | 国产日韩精品一区 | 国产黄色av网站 | 伊人狠狠| 四虎影院免费在线 | 午夜理伦三级理论三级在线观看 | 久久久免费精品 | 一区二区在线观看免费视频 | 亚洲91精品 | 播放一级黄色片 | 91色站| 亚洲精品久久久久久久久久久久久 | 亚洲视频免费播放 | 亚洲最大看片网站 | 精品99久久久久久 | 九九久久久 | 一区二区三区亚洲视频 | 国产精品福利网站 | 男人的天堂在线视频 | 亚洲一区久久久 | 亚洲精品永久免费 | 精品亚洲二区 | 亚洲九九| 7777精品伊人久久精品影视 | 国产精品久久在线 | 日韩欧美中文在线 | 精品一区二区久久久久久久网站 | 九九热精品在线视频 | 男女搞网站 | 久久精品一 |