Elasticsearch用得好,下班下得早!
入行 Elastic-Stack 技術棧很久了,為了免于知識匱乏眼光局限,有必要到外面的世界看看,豐富自己的世界觀。
圖片來自 Pexels
本篇內容從 Elastic 的競爭產品角度分析探討:
- 哪些應用場景下使用 Elasticsearch 最佳?
- 哪些應用場景下不使用 Elasticsearch 最好?
Elasticsearch 當前熱度排名很高
本文僅代表個人的觀點,不代表社區技術陣營觀點,無意口水之爭,限于本人的經驗知識有限,可能與讀者觀點認知不一致。
競爭產品
Elasticseach 從做搜索引擎開始,到現在主攻大數據分析領域,逐步進化成了一個全能型的數據產品。
在 Elasticsearch 諸多優秀的功能中,與很多數據產品有越來越多的交叉競爭,有的功能很有特色,有的功能只是附帶,了解這些產品特點有助于更好的應用于業務需求。
Elasticsearch 競爭圖譜示意圖
Lucene
Lucene 是一個搜索的核心庫,Elastic 也是在 Lucene 基礎之上構建,它們之間的競爭關系是由 Lucene 本身決定的。
在互聯網 2.0 時代,考驗各互聯網公司最簡單的技術要求,就是看他們的搜索做的怎么樣,那時大家的做法幾乎一樣,都基于 Lucene 核心庫構建一套搜索引擎,剩下的就看各公司的開發者們的水平。
筆者有幸在 2012 年之前,基于 Lucene 做過垂直行業的搜索引擎,遇到很多問題有必要說一下:
- 項目基于 Lucene 包裝,業務代碼與核心庫一起構建發布,代碼耦合度很高,每次有數據字段變更,都需要重新編譯打包發布,這個過程非常的繁瑣,且相當危險。
- 程序重新發布,需要關閉原有的程序,涉及到進程切換問題。
- 索引數據定期全量重新生成,也涉及到新舊索引切換,索引實時刷新等問題,都需要設計一套復雜的程序機制保障
- 每個獨立業務線需求,都需要單獨構建一個 Lucene 索引進程,業務線多了之后,管理是個麻煩的事情
- 當單個 Lucene 索引數據超過單實例限制之后,需要做分布式,這個原有 Lucene 是沒有辦法的,所以常規的做法也是按照某特定分類,拆分成多個索引進程,客戶端查詢時帶上特定分類,后端根據特定分類路由到具體的索引。
- Lucene 庫本身的掌控難度,對于功力尚淺的開發工程師,需要考慮的因素實在太多了,稍微不慎,就會出現很大的程序問題。
Lucene 內部索引構建與查詢過程
Elasticsearch 與 Lucene 核心庫競爭的優勢在于:
- 完美封裝了 Lucene 核心庫,設計了友好的 Restful-API,開發者無需過多關注底層機制,直接開箱即用。
- 分片與副本機制,直接解決了集群下性能與高可用問題。
Elastic 近年的快速發展,市面上已經很少發現基于 Lucene 構建搜索引擎的項目,幾乎清一色選擇 Elasticsearch 作為基礎數據庫服務。
由于其開源特性,廣大云廠商也在此基礎上定制開發,與自己的云平臺深度集成,但也沒有獨自發展一個分支。本次的競爭中,Elasticsearch 完勝。
Solr
Solr 是第一個基于 Lucene 核心庫功能完備的搜索引擎產品,誕生遠早于 Elasticsearch。
早期在全文搜索領域,Solr 有非常大的優勢,幾乎完全壓倒 Elastic,在近幾年大數據發展時代,Elastic 由于其分布式特性,滿足了很多大數據的處理需求。
特別是后面 ELK 這個概念的流行,幾乎完全忘記了 Solr 的存在,雖然也推出了 Solr-Coud 分布式產品,但已經基本無優勢。
接觸過幾個數據類公司,全文搜索都基于 Solr 構建,且是單節點模式,偶然出現一些問題,找咨詢顧問排查問題,人員難找,后面都遷移到 Elasticsearch 之上。
現在市面上幾乎大大小小公司都在使用 Elasticsearch,除了老舊系統有的基于 Solr 的,新系統項目應該全部是 Elasticsearch。
個人認為有以下幾個原因:
- ES 比 Solr 更加友好簡潔,門檻更低。
- ES 比 Solr 產品功能特點更加豐富,分片機制,數據分析能力。
- ES 生態發展,Elastic-stack 整個技術棧相當全,與各種數據系統都很容易集成。
- ES 社區發展更加活躍,Solr 幾乎沒有專門的技術分析大會。
Solr 產品功能模塊內部架構圖
本次競爭中,Elasticsearch 完勝。
RDBMS
關系型數據庫與 Elasticsarch 相比主要優點是事務隔離機制無可替代,但其局限性很明顯。
主要幾個方面如下:
- 關系型數據庫查詢性能,數據量超過百萬級千萬級之后下降厲害,本質是索引的算法效率不行,B+ 樹算法不如倒排索引算法高效。
- 關系型數據庫索引最左原則限制,查詢條件字段不能任意組合,否則索引失效,相反 Elasticserach 可以任意組合,此場景在數據表關聯查詢時特別明顯,Elasticsearch 可以采用大寬表解決,而關系型數據庫不能。
- 關系型數據庫分庫分表之后多條件查詢,難于實現,Elasticsearch 天然分布式設計,多個索引多個分片皆可聯合查詢。
- 關系型數據庫聚合性能低下,數據量稍微多點,查詢列基數多一點性能下降很快,Elasticsearch 在聚合上采用的是列式存儲,效率極高。
- 關系型數據庫側重均衡性,Elasticsearch 側重專一查詢速度。
若數據無需嚴格事務機制隔離,個人認為都可以采用 Elasticsearch 替代。若數據既要事務隔離,也要查詢性能,可以采用 DB 與 ES 混合實現。
RDBMS 與 ES 各自優勢示意圖
OpenTSDB
OpenTSDB 內部基于 HBase 實現,屬于時間序列數據庫,主要針對具有時間特性和需求的數據,進行過數據結構的優化和處理,從而適合存儲具有時間特性的數據,如監控數據、溫度變化數據等。
小米公司開源監控體系 open-falcon 的就是基于 OpenTSDB 實現。
OpenTSDB 時間序列數據庫內部實現
Elastic 產品本身無意時間序列這個領域,隨著 ELK 的流行,很多公司采用ELK來構建監控體系,雖然在數值類型上不像時間序列數據庫做過特別處理,但由于其便利的使用,以及生態技術棧的優勢,我們也接受了這樣的事實。
Elasticsearch 構建時間序列很簡單,性能也相當不錯:
- 索引創建規則,可以按年、按月、按周、按星期、按天、按小時等都創建索引,非常便利。
- 數據填充方面,定制一個時間字段做區分排序,其余的字段無需。
- 數據查詢方面,除了按實際序列查詢外,還可以有更多的搜索條件。
- 除非對于時間序列數據有非??量痰谋O控需求,否則選擇 Elasticsearch 會更加合適一些。
HBase
HBase 是列式數據庫的代表,其內部有幾個致命設計大大限制了它的應用范圍:
- 訪問 HBase 數據只能基于 Rowkey,Rowkey 設計的好壞直接決定了HBase使用優劣。
- 本身不支持二級索引,若要實現,則需要引入第三方。
關于其各種技術原理就不多說了,說說它的一些使用情況。
公司所屬物流速運行業,一個與車輛有關的項目,記錄所有車輛行駛軌跡,車載設備會定時上報車子的軌跡信息,后端數據存儲基于 HBase,數據量在幾十 TB 級以上。
由于業務端需要依據車輛軌跡信息計算它的公里油耗以及相關成本,所以要按查詢條件批量查詢數據,查詢條件有一些非 Rowkey 的字段,如時間范圍,車票號,城市編號等,這幾乎無法實現,原來暴力的做過,性能問題堪憂。
此項目的問題首先也在于 Rowkey 難設計滿足查詢條件的需求,其次是二級索引問題,查詢的條件很多。
如果用列式數據庫僅限于 Rowkey 訪問場景,其實采用 Elastic 也可以,只要設計好 _id,與 HBase 可以達到相同的效果。
如果用列式數據庫查詢還需要引入三方組件,那還不如直接在 Elasticsearch 上構建更直接。
除非對使用列式數據庫有非??量痰囊?,否則 Elasticsearch 更具備通用性,業務需求場景適用性更多。
列式數據庫內部數據結構示意圖
MongoDB
MongoDB 是文檔型數據庫的代表,數據模型基于 Bson,而 Elasticsearch 的文檔數據模型是 Json,Bson 本質是 Json 的一種擴展,可以相互直接轉換,且它們的數據模式都是可以自由擴展的,基本無限制。
MongoDB 本身定位與關系型數據庫競爭,支持嚴格的事務隔離機制,在這個層面實際上與 Elasticsearch 產品定位不一樣,但實際工作中,幾乎沒有公司會將核心業務數據放在 MongoDB 上,關系型數據庫依然是第一選擇。
若超出這個定位,則 Elasticsearh 相比 MongoDB 有如下優點:
- 文檔查詢性能,倒排索引/KDB-Tree 比 B+Tree 厲害。
- 數據的聚合分析能力,ES 本身提供了列式數據 doc_value,比 MongoDB 的行式要快不少。
- 集群分片副本機制,ES 架構設計更勝一籌。
- ES 特色功能比 MongoDB 提供的更多,適用的場景范圍更寬泛。
- 文檔數據樣例,ObjectId 由 MongoDB 內置自動生成。
公司剛好有個項目,原來數據層基于 MongoDB 設計構建的,查詢問題不少 ,后面成功遷移到 Elasticsearch 平臺上,服務器數據量從 15 臺降低到 3 臺,查詢性能還大幅度提升十倍。
詳細可閱讀筆者另一篇文章《為什么要從MongoDB遷移到Elasticsearch?》拋開數據事務隔離,Elasticsearch 可以完全替代 MongoDB。
ClickHouse
ClickHouse 是一款 MPP 查詢分析型數據庫,近幾年活躍度很高,很多頭部公司都引入其中。
我們為什么要引入呢,原因可能跟其他頭部公司不太一樣,如下:
- 筆者長期從事大數據工作,經常會碰到數據聚合的實時查詢需求,早期我們會選擇一款關系型數據庫來做做聚合查詢,如 MySQL/PostgreSQL,稍微不注意就很容易出現性能瓶頸。
- 后面引入 Elasticsearch 產品,其基于列式設計以及分片架構,性能各方面確實明顯優于單節點的關系型數據庫。
- Elasticsearch 局限性也很明顯,一是數據量超過千萬或者億級時,若聚合的列數太多,性能也到達瓶頸;二是不支持深度二次聚合,導致一些復雜的聚合需求,需要人工編寫代碼在外部實現,這又增加很多開發工作量。
- 后面引入了 ClickHouse,替代 Elasticserach 做深度聚合需求,性能表現不錯,在數據量千萬級億級表現很好,且資源消耗相比之前降低不少,同樣的服務器資源可以承擔更多的業務需求。
ClickHouse 與 Elasticsearch 一樣,都采用列式存儲結構,都支持副本分片。
不同的是 ClickHouse 底層有一些獨特的實現,如下:
- MergeTree 合并樹表引擎,提供了數據分區、一級索引、二級索引。
- Vector Engine 向量引擎,數據不僅僅按列存儲,同時還按向量(列的一部分)進行處理,這樣可以更加高效地使用 CPU。
ClickHouse 在大數據平臺中的位置
Druid
Durid 是一個大數據 MPP 查詢型數據產品,核心功能 Rollup,所有的需要 Rollup 原始數據必須帶有時間序列字段。
Elasticsearch 在 6.3.X 版本之后推出了此功能,此時兩者產品形成競爭關系,誰高誰下,看應用場景需求。
Druid 樣本數據,必須帶有 time 時間字段。
筆者之前負責過公司所有 Elasticsearch 技術棧相關數據項目,當時也有碰到一些實時聚合查詢返回部分數據的需求。
但我們的需求不太一樣,索引數據屬于離線型更新,每天都會全部刪除并重新創建索引插入數據。
此時使用 Elastic 的版本是 6.8.X,僅支持離線型數據 Rollup,所以此功能沒用上,Elastic 在 7.2.X 版本之后才推出實時 Rollup 功能。
Druid 更加專注,產品設計圍繞 Rollup 展開,Elastic 只是附帶。
Druid 支持多種外接數據,直接可以對接 Kafka 數據流,也可以直接對接平臺自身內部數據;而 Elastic 僅支持內部索引數據,外部數據需要借助三方工具導入到索引里。
Druid 在數據 Rollup 之后,會丟棄原始數據;Elastic 在原有索引基礎之后,生成新的 Rollup 之后的索引數據。
Druid 與 Elastic 的技術架構非常類似,都支持節點職責分離,都支持橫向擴展。
Druid 與 Elastic 在數據模型上都支持倒排索引,基于此的搜索與過濾。
Druid 產品技術架構體系示意圖
關于 Rollup 這個大數據分析領域,若有大規模的 Rollup 的場景需求,個人更傾向于 Druid。
結語
總結:
- Elasticsearch 產品功能全面,適用范圍廣,性能也不錯,綜合應用是首選。
- Elasticsearch 在搜索查詢領域,幾乎完勝所有競爭產品,在筆者的技術??磥?,關系型數據庫解決數據事務問題,Elasticsearch 幾乎解決一切搜索查詢問題。
- Elasticsearch 在數據分析領域,產品能力偏弱一些,簡單通用的場景需求可以大規模使用,但在特定業務場景領域,還是要選擇更加專業的數據產品,如前文中提到的復雜聚合、大規模 Rollup、大規模的 Key-Value。
- Elasticsearch 越來越不像一個搜索引擎,更像是一個全能型的數據產品,幾乎所有行業都在使用,業界非常受歡迎。
- Elasticsearch 用得好,下班下得早。
注:內容來源于筆者實際工作中運用多種技術棧實現場景需求,得出的一些實戰經驗與總結思考,提供后來者借鑒參考。
本文圍繞 Elastic 的競爭產品對比僅限概要性分析,粒度較粗,深度有限,之后會有更加專業深入競爭產品分析文章,敬請期待。
作者:李猛(ynuosoft)
簡介:Elastic-stack 產品深度用戶,ES 認證工程師,2012 年接觸 Elasticsearch,對 Elastic-Stack 開發、架構、運維等方面有深入體驗,實踐過多種 Elasticsearch 項目,最暴力的大數據分析應用,最復雜的業務系統應用;業余為企業提供 Elastic-Stack 咨詢培訓以及調優實施。
編輯:陶家龍
出處:轉載自微信公眾號 DBAplus 社群(ID:dbaplus)