完爆90%的性能毛病,數據庫優化八大通用絕招!
大家好,我是不才陳某~
毫不夸張的說咱們后端工程師,無論在哪家公司,呆在哪個團隊,做哪個系統,遇到的第一個讓人頭疼的問題絕對是數據庫性能問題。如果我們有一套成熟的方法論,能讓大家快速、準確的去選擇出合適的優化方案,我相信能夠快速準備解決咱么日常遇到的80%甚至90%的性能問題。
從解決問題的角度出發,我們得先了解到問題的原因;其次我們得有一套思考、判斷問題的流程方式,讓我們合理的站在哪個層面選擇方案;最后從眾多的方案里面選擇一個適合的方案進行解決問題,找到一個合適的方案的前提是我們自己對各種方案之間的優缺點、場景有足夠的了解,沒有一個方案是完全可以通吃通用的,軟件工程沒有銀彈。
下文的我工作多年以來,曾經使用過的八大方案,結合了平常自己學習收集的一些資料,以系統、全面的方式整理成了這篇博文,也希望能讓一些有需要的同行在工作上、成長上提供一定的幫助。
為什么數據庫會慢?
慢的本質:
慢的本質 | |
查找的時間復雜度 | 查找算法 |
存儲數據結構 | 存儲數據結構 |
數據總量 | 數據拆分 |
高負載 | CPU、磁盤繁忙 |
無論是關系型數據庫還是NoSQL,任何存儲系統決定于其查詢性能的主要有三種:
- 查找的時間復雜度
- 數據總量
- 高負載
而決定于查找時間復雜度主要有兩個因素:
- 查找算法
- 存儲數據結構
無論是哪種存儲,數據量越少,自然查詢性能就越高,隨著數據量增多,資源的消耗(CPU、磁盤讀寫繁忙)、耗時也會越來越高。關注公眾號:碼猿技術專欄,回復關鍵詞:1111 獲取阿里內部Java性能調優手冊
從關系型數據庫角度出發,索引結構基本固定是B+Tree,時間復雜度是O(log n),存儲結構是行式存儲。因此咱們對于關系數據庫能優化的一般只有數據量。
而高負載造成原因有高并發請求、復雜查詢等,導致CPU、磁盤繁忙等,而服務器資源不足則會導致慢查詢等問題。該類型問題一般會選擇集群、數據冗余的方式分擔壓力。
應該站在哪個層面思考優化?
從上圖可見,自頂向下的一共有四層,分別是硬件、存儲系統、存儲結構、具體實現。層與層之間是緊密聯系的,每一層的上層是該層的載體;因此越往頂層越能決定性能的上限,同時優化的成本也相對會比較高,性價比也隨之越低。以最底層的具體實現為例,那么索引的優化的成本應該是最小的,可以說加了索引后無論是CPU消耗還是響應時間都是立竿見影降低;然而一個簡單的語句,無論如何優化加索引也是有局限的,當在具體實現這層沒有任何優化空間的時候就得往上一層【存儲結構】思考,思考是否從物理表設計的層面出發優化(如分庫分表、壓縮數據量等);關注公眾號:碼猿技術專欄,回復關鍵詞:1111 獲取阿里內部Java性能調優手冊;如果是文檔型數據庫得思考下文檔聚合的結果;如果在存儲結構這層優化得沒效果,得繼續往再上一次進行考慮,是否關系型數據庫應該不適合用在現在得業務場景?如果要換存儲,那么得換怎樣得NoSQL?
所以咱們優化的思路,出于性價比的優先考慮具體實現,實在沒有優化空間了再往上一層考慮。當然如果公司有錢,直接使用鈔能力,繞過了前面三層,這也是一種便捷的應急處理方式。
該篇文章不討論頂與底的兩個層面的優化,主要從存儲結構、存儲系統中間兩層的角度出發進行探討。
八大方案總結
數據庫的優化方案核心本質有三種:減少數據量、用空間換性能、選擇合適的存儲系統,這也對應了開篇講解的慢的三個原因:數據總量、高負載、*查找的時間復雜度。*
這里大概解釋下收益類型:短期收益,處理成本低,能緊急應對,久了則會有技術債務;長期收益則跟短期收益相反,短期內處理成本高,但是效果能長久使用,擴展性會更好。
靜態數據意思是,相對改動頻率比較低的,也無需過多聯表的,where過濾比較少。動態數據與之相反,更新頻率高,通過動態條件篩選過濾。
減少數據量
減少數據量類型共有四種方案:數據序列化存儲、數據歸檔、中間表生成、分庫分表。
就如上面所說的,無論是哪種存儲,數據量越少,自然查詢性能就越高,隨著數據量增多,資源的消耗(CPU、磁盤讀寫繁忙)、耗時也會越來越高。目前市面上的NoSQL基本上都支持分片存儲,所以其天然分布式寫的能力從數據量上能得到非常的解決方案。而關系型數據庫,查找算法與存儲結構是可以優化的空間比較少,因此咱們一般思考出發點只有從如何減少數據量的這個角度進行選擇優化,因此本類型的優化方案主要針對關系型數據庫進行處理。
數據歸檔
注意點:別一次性遷移數量過多,建議低頻率多次限量遷移。像MySQL由于刪除數據后是不會釋放空間的,可以執行命令OPTIMIZE TABLE釋放存儲空間,但是會鎖表,如果存儲空間還滿足,可以不執行。
建議優先考慮該方案,主要通過數據庫作業把非熱點數據遷移到歷史表,如果需要查歷史數據,可新增業務入口路由到對應的歷史表(庫)。
中間表(結果表)
中間表(結果表)其實就是利用調度任務把復雜查詢的結果跑出來存儲到一張額外的物理表,因為這張物理表存放的是通過跑批匯總后的數據,因此可以理解成根據原有的業務進行了高度的數據壓縮。以報表為例,如果一個月的源數據有數十萬,我們通過調度任務以月的維度生成,那么等于把原有的數據壓縮了幾十萬分之一;接下來的季報和年報可以根據月報*N來進行統計,以這種方式處理的數據,就算三年、五年甚至十年數據量都可以在接受范圍之內,而且可以精確計算得到。關注公眾號:碼猿技術專欄,回復關鍵詞:1111 獲取阿里內部Java性能調優手冊
那么數據的壓縮比率是否越低越好?下面有一段口訣:
- 字段越多,粒度越細,靈活性越高,可以以中間表進行不同業務聯表處理。
- 字段越少,粒度越粗,靈活性越低,一般作為結果表查詢出來。
數據序列化存儲
在數據庫以序列化存儲的方式,對于一些不需要結構化存儲的業務來說是一種很好減少數據量的方式,特別是對于一些M*N的數據量的業務場景,如果以M作為主表優化,那么就可以把數據量維持最多是M的量級。另外像訂單的地址信息,這種業務一般是不需要根據里面的字段檢索出來,也比較適合。
這種方案我認為屬于一種臨時性的優化方案,無論是從序列化后丟失了部份字段的查詢能力,還是這方案的可優化性都是有限的。
分庫分表
分庫分表作為數據庫優化的一種非常經典的優化方案,特別是在以前NoSQL還不是很成熟的年代,這個方案就如救命草一般的存在。
如今也有不少同行也會選擇這種優化方式,但是從我角度來看,分庫分表是一種優化成本很大的方案。這里我有幾個建議:
- 分庫分表是實在沒有辦法的辦法,應放到最后選擇。
- 優先選擇NoSQL代替,因為NoSQL誕生基本上為了擴展性與高性能。
- 究竟分庫還是分表?量大則分表,并發高則分庫
- 不考慮擴容,一部做到位。因為技術更新太快了,每3-5年一大變。
拆分方式
只要涉及到這個拆,那么無論是微服務也好,分庫分表也好,拆分的方式主要分兩種:垂直拆分、水平拆分。
垂直拆分更多是從業務角度進行拆分,主要是為了降低業務耦合度;此外以SQL Server為例,一頁是8KB存儲,如果在一張表里字段越多,一行數據自然占的空間就越大,那么一頁數據所存儲的行數就自然越少,那么每次查詢所需要IO則越高因此性能自然也越慢;因此反之,減少字段也能很好提高性能。之前我聽說某些同行的表有80個字段,幾百萬的數據就開始慢了。
水平拆分更多是從技術角度進行拆分,拆分后每張表的結構是一模一樣的,簡而言之就是把原有一張表的數據,通過技術手段進行分片到多張表存儲,從根本上解決了數據量的問題。
路由方式
進行水平拆分后,根據分區鍵(sharding key)原來應該在同一張表的數據拆解寫到不同的物理表里,那么查詢也得根據分區鍵進行定位到對應的物理表從而把數據給查詢出來。
路由方式一般有三種區間范圍、Hash、分片映射表,每種路由方式都有自己的優點和缺點,可以根據對應的業務場景進行選擇。
區間范圍根據某個元素的區間的進行拆分,以時間為例子,假如有個業務我們希望以月為單位拆分那么表就會拆分像 table_2022-04,這種對于文檔型、ElasticSearch這類型的NoSQL也適用,無論是定位查詢,還是日后清理維護都是非常的方便的。那么缺點也明顯,會因為業務獨特性導致數據不平均,甚至不同區間范圍之間的數據量差異很大。
Hash也是一種常用的路由方式,根據Hash算法取模以數據量均勻分別存儲在物理表里,缺點是對于帶分區鍵的查詢依賴特別強,如果不帶分區鍵就無法定位到具體的物理表導致相關所有表都查詢一次,而且在分庫的情況下對于Join、聚合計算、分頁等一些RDBMS的特性功能還無法使用。
一般分區鍵就一個,假如有時候業務場景得用不是分區鍵的字段進行查詢,那么難道就必須得全部掃描一遍?其實可以使用分片映射表的方式,簡單來說就是額外有一張表記錄額外字段與分區鍵的映射關系。舉個例子,有張訂單表,原本是以UserID作為分區鍵拆分的,現在希望用OrderID進行查詢,那么得有額外得一張物理表記錄了OrderID與UserID的映射關系。因此得先查詢一次映射表拿到分區鍵,再根據分區鍵的值路由到對應的物理表查詢出來。可能有些朋友會問,那這映射表是否多一個映射關系就多一張表,還是多個映射關系在同一張表。我優先建議單獨處理,如果說映射表字段過多,那跟不進行水平拆分時的狀態其實就是一致的,這又跑回去的老問題。
用空間換性能
該類型的兩個方案都是用來應對高負載的場景,方案有以下兩種:分布式緩存、一主多從。
與其說這個方案叫用空間換性能,我認為用空間換資源更加貼切一些。因此兩個方案的本質主要通數據冗余、集群等方式分擔負載壓力。
對于關系型數據庫而言,因為他的ACID特性讓它天生不支持寫的分布式存儲,但是它依然天然的支持分布式讀。
分布式緩存
緩存層級可以分好幾種:客戶端緩存、API服務本地緩存和分布式緩存,咱們這次只聊分布式緩存。一般我們選擇分布式緩存系統都會優先選擇NoSQL的鍵值型數據庫,例如Memcached、Redis,如今Redis的數據結構多樣性,高性能,易擴展性也逐漸占據了分布式緩存的主導地位。
緩存策略也主要有很多種:Cache-Aside、Read/Wirte-Through、Write-Back,咱們用得比較多的方式主要Cache-Aside,?具體流程可看下圖:
我相信大家對分布式緩存相對都比較熟悉了,但是我在這里還是有幾個注意點希望提醒一下大家:
避免濫用緩存
緩存應該是按需使用,從28法則來看,80%的性能問題由主要的20%的功能引起。濫用緩存的后果會導致維護成本增大,而且有一些數據一致性的問題也不好定位。特別像一些動態條件的查詢或者分頁,key的組裝是多樣化的,量大又不好用keys指令去處理,當然我們可以用額外的一個key把記錄數據的key以集合方式存儲,刪除時候做兩次查詢,先查Key的集合,然后再遍歷Key集合把對應的內容刪除。這一頓操作下來無疑是非常廢功夫的,誰弄誰知道。
避免緩存擊穿
當緩存沒有數據,就得跑去數據庫查詢出來,這就是緩存穿透。假如某個時間臨界點數據是空的例如周排行榜,穿透過去的無論查找多少次數據庫仍然是空,而且該查詢消耗CPU相對比較高,并發一進來因為缺少了緩存層的對高并發的應對,這個時候就會因為并發導致數據庫資源消耗過高,這就是緩存擊穿。數據庫資源消耗過高就會導致其他查詢超時等問題。
該問題的解決方案也簡單,對于查詢到數據庫的空結果也緩存起來,但是給一個相對快過期的時間。有些同行可能又會問,這樣不就會造成了數據不一致了么?一般有數據同步的方案像分布式緩存、后續會說的一主多從、CQRS,只要存在數據同步這幾個字,那就意味著會存在數據一致性的問題,因此如果使用上述方案,對應的業務場景應允許容忍一定的數據不一致。?
不是所有慢查詢都適用
一般來說,慢的查詢都意味著比較吃資源的(CPU、磁盤I/O)。舉個例子,假如某個查詢功能需要3秒時間,串行查詢的時候并沒什么問題,我們繼續假設這功能每秒大概QPS為100,那么在第一次查詢結果返回之前,接下來的所有查詢都應該穿透到數據庫,也就意味著這幾秒時間有300個請求到數據庫,如果這個時候數據庫CPU達到了100%,那么接下來的所有查詢都會超時,也就是無法有第一個查詢結果緩存起來,從而還是形成了緩存擊穿。
一主多從
常用的分擔數據庫壓力還有一種常用做法,就是讀寫分離、一主多從。咱們都是知道關系型數據庫天生是不具備分布式分片存儲的,也就是不支持分布式寫,但是它天然的支持分布式讀。一主多從是部署多臺從庫只讀實例,通過冗余主庫的數據來分擔讀請求的壓力,路由算法可有代碼實現或者中間件解決,具體可以根據團隊的運維能力與代碼組件支持視情況選擇。
一主多從在還沒找到根治方案前是一個非常好的應急解決方案,特別是在現在云服務的年代,擴展從庫是一件非常方便的事情,而且一般情況只需要運維或者DBA解決就行,無需開發人員接入。當然這方案也有缺點,因為數據無法分片,所以主從的數據量完全冗余過去,也會導致高的硬件成本。從庫也有其上限,從庫過多了會主庫的多線程同步數據的壓力。
選擇合適的存儲系統
NoSQL主要以下五種類型:鍵值型、文檔型、列型、圖型、搜素引擎,不同的存儲系統直接決定了查找算法、存儲數據結構,也應對了需要解決的不同的業務場景。NoSQL的出現也解決了關系型數據庫之前面臨的難題(性能、高并發、擴展性等)。
例如,ElasticSearch的查找算法是倒排索引,可以用來代替關系型數據庫的低性能、高消耗的Like搜索(全表掃描)。而Redis的Hash結構決定了時間復雜度為O(1),還有它的內存存儲,結合分片集群存儲方式以至于可以支撐數十萬QPS。
因此本類型的方案主要有兩種:CQRS、替換(選擇)存儲,這兩種方案的最終本質基本是一樣的主要使用合適存儲來彌補關系型數據庫的缺點,只不過切換過渡的方式會有點不一樣。
CQRS
CQS(命令查詢分離)指同一個對象中作為查詢或者命令的方法,每個方法或者返回的狀態,要么改變狀態,但不能兩者兼備
講解CQRS前得了解CQS,有些小伙伴看了估計還沒不是很清晰,我這里用通俗的話解釋:某個對象的數據訪問的方法里,要么只是查詢,要么只是寫入(更新)。而CQRS(命令查詢職責分離)基于CQS的基礎上,用物理數據庫來寫入(更新),而用另外的存儲系統來查詢數據。因此我們在某些業務場景進行存儲架構設計時,可以通過關系型數據庫的ACID特性進行數據的更新與寫入,用NoSQL的高性能與擴展性進行數據的查詢處理,這樣的好處就是關系型數據庫和NoSQL的優點都可以兼得,同時對于某些業務不適于一刀切的替換存儲的也可以有一個平滑的過渡。
從代碼實現角度來看,不同的存儲系統只是調用對應的接口API,因此CQRS的難點主要在于如何進行數據同步。
數據同步方式
一般討論到數據同步的方式主要是分推和拉:
推指的是由數據變更端通過直接或者間接的方式把數據變更的記錄發送到接收端,從而進行數據的一致性處理,這種主動的方式優點是實時性高。
拉指的是接收端定時的輪詢數據庫檢查是否有數據需要進行同步,這種被動的方式從實現角度來看比推簡單,因為推是需要數據變更端支持變更日志的推送的。
而推的方式又分兩種:CDC(變更數據捕獲)和領域事件。對于一些舊的項目來說,某些業務的數據入口非常多,無法完整清晰的梳理清楚,這個時候CDC就是一種非常好的方式,只要從最底層數據庫層面把變更記錄取到就可。
對于已經服務化的項目來說領域事件是一種比較舒服的方式,因為CDC是需要數據庫額外開啟功能或者部署額外的中間件,而領域事件則不需要,從代碼可讀性來看會更高,也比較開發人員的維護思維模式。
替換(選擇)存儲系統
因為從本質來看該模式與CQRS的核心本質是一樣的,主要是要對NoSQL的優缺點有一個全面認識,這樣才能在對應業務場景選擇與判斷出一個合適的存儲系統。這里我像大家介紹一本書馬丁.福勒《NoSQL精粹》,這本書我重復看了好幾遍,也很好全面介紹各種NoSQL優缺點和使用場景。
當然替換存儲的時候,我這里也有個建議:加入一個中間版本,該版本做好數據同步與業務開關,數據同步要保證全量與增加的處理,隨時可以重來,業務開關主要是為了后續版本的更新做的一個臨時型的功能,主要避免后續版本更新不順利或者因為版本更新時導致的數據不一致的情況出現。在跑了一段時間后,驗證了兩個不同的存儲系統數據是一致的后,接下來就可以把數據訪問層的底層調用替換了。如此一來就可以平滑的更新切換。
結束
本文到這里就把八大方案介紹完了,在這里再次提醒一句,每個方案都有屬于它的應對場景,咱們只能根據業務場景選擇對應的解決方案,沒有通吃,沒有銀彈。
這八個方案里,大部分都存在數據同步的情況,只要存在數據同步,無論是一主多從、分布式緩存、CQRS都好,都會有數據一致性的問題導致,因此這些方案更多適合一些只讀的業務場景。當然有些寫后既查的場景,可以通過過渡頁或者廣告頁通過用戶點擊關閉切換頁面的方式來緩解數據不一致性的情況。