數據庫日常管理 ? 我有這些經驗淺談交給你
普遍的問題
博主就職于一家專注數據庫產品及服務的公司,見過上千家的客戶場景,和各行業的人、系統打過交道,那么我們來看看普遍遇到的問題。
為什么會這樣?
我認為造成現在數據庫問題頻發的原因有 4 點:
1. 傳統的 IT 建設方式、管理方式導致了今天的問題
傳統的建設方式:一大堆廠商的產品簡單堆疊、松散拼湊。 傳統的管理方式:用戶的運維人員 + 一大堆廠商。
2. 缺乏專業規劃的 IT 架構,缺乏穩定性,增加管理復雜性
架構缺乏規劃和合理化設計,借助一大堆廠商提供的分散的單機、雙機、備份一體機、虛擬化、超融合等技術的簡單堆疊,參見 :如何規劃、建設你的數據庫架構
3. 傳統的數據庫管理方式無法滿足今天的業務要求
4. 高速的業務增長導致數據平臺面臨巨大挑戰
今天,業務高度依賴 IT,IT 的重要程度。。。 今天,IT 系統的使用者、數據量的規模一直在快速增長,且體量***的大;
愿景——大邏輯
說到數據庫管理,有合理規劃的架構必然是前提,架構是基礎,在穩定的基礎上配備合理的管理手段,管理制度,在上層要有及時的服務 (很多企業沒有 DBA、沒有懂得人也許這是***的問題)
細化管理
架構層面不再贅述,如何可視化管理? 如何制定管理制度? 如何快速準確消滅問題? 如何輕松、簡單?
工具篇
首先普遍缺乏 DBA 的企業中是否可以找到一個稱手的工具,正所謂 "武林***,寶刀屠龍,號令天下,莫敢不從,倚天不出,誰與爭鋒"
稱手的工具產品對于管理數據庫更為重要,對于武林高手 (資深 DBA) 工具能起到的作用——方便,對于非專業數據庫人員起到的左右——一個 DBA 小秘書
那么現在的數據庫稱手兵器應該做到什么?? (個人覺得至少要下述內容)
- 統一管理,統一呈現
- 實時知道復雜的數據庫運行狀態,運行了哪些語句,運行的怎么樣?
- 告警,問題及時自動報告
- 知道過去發生了什么,就像 “攝像頭” 記錄分分秒秒,記錄案發現場
- 指標全面,支撐解決問題,可以應對數據庫的復雜場景,生僻問題
- 智能化,自動化巡檢,一鍵發現潛在隱患
- 智能化,解決問題 (性能、日常運維)
這樣的工具也許就是知道數據庫的 “昨天、今天、明天”,也就是 “過去、現在和將來”
當然,現在的運維管理工具產品越來越強大,強大到甚至讓我這 10 年的老司機都感覺到要被取代,往往非專業的 DBA 缺少的是:
- 解決問題所需要的數據支撐
- 分析問題的邏輯
- 解決問題的手段
那相應的工具產品中也要做到數據指標全面,而且對分析問題的流程和邏輯做到只需 “按步驟點擊” ,比如突然一個時間點系統慢了,要幫助管理人員清晰的展示出分析問題的邏輯!
也許這就是所謂的 “工欲善其事,必先利其器”
管理篇
除了稱手的工具外,標準化管理流程也是必要的,再牛逼得工具不用也是白扯,博主之前做 DBA 的時候的管理流程分享給大家,很多人也問 DBA 都要做些什么,統一回答:
- 日常巡檢,保證系統穩定 (DBA 最重要的工作),經常會有客戶的數據庫,備份策略錯誤,作業失敗,磁盤空間爆滿等等一系列的基本問題,這些都應該通過日常巡檢處理
注:不是流于表面 CPU、IO、內存,而要深入數據庫各項指標,并生成報告,匯報
周期:每周 / 每月
- 新上線系統 / 功能的評估,現在的企業系統中經常會有新接口的上線,這些功能是否會對原有系統造成性能影響?
注:企業對新功能的上線過程要嚴格把控,嚴格控制風險,往往問題都是日積月累不重視而產生的
周期:每次
- 日常性能優化,數據庫是動態的過程,需要不斷的優化,而不是一次優化以后就沒問題了,買車還需要定期保養吧!
- 應急問題處理,突發問題是避免不了的,但是要做到少突發,提前消滅 (這也是巡檢的左右),突發問題一旦產品,數據記錄、問題日志就是必要的,快速處理問題、減少損失是必須的
- 協作 (開發部門、軟件廠商、集成商) 處理各種花式問題
專業服務篇
數據庫是整個 IT 系統的***層,而漏斗形的 IT 結構讓數據庫成為整個 IT 的瓶頸,在沒有 DBA 的企業中對數據庫的管理更為重要,常見的管理一般只有定期的巡檢,軟件廠商、集成商等等,而且是簡單的巡檢,這樣對隱患的排查極其弱,無法起到該有的效果,而在數據庫的專業服務中,博主認為應該做到下述方面:
- 定期的深度、有效巡檢
- 通過專業管理工具產品讓多人協作、及時分析、高效解決
- 對多系統趨勢分析,何時瓶頸
- 根據壓力、業務如何系統的整合、拆分,對基礎架構進行不斷升級
- 在問題發生前解決而非在發生時救火
服務中也許只有三點:及時、專業、懂得客戶
總結
大多數企業存在這樣的問題:我們沒 DBA,我們只對業務精通,對程序了解,但數據庫我只懂一點
數據庫指標多而雜,出現問題不知道怎么排查?
因為錯過問題出現的時間點,問題原因無法得知,問題無法解決
長期 “頭疼醫頭” 的 “救火” 運維留下了病根
巡檢? 啥是巡檢? 根本沒做過
總來說,數據庫管理要有明確的規劃,如何構建平穩的架構,如何有一套輕松、簡單的管理方法,如何借助專業的工具、公司或人來管理。
也許很簡單
早發現早治療——預防機制
當場發現及時治療——實時機制
徹底治療而非緩解——全面、重視
原文鏈接:https://www.cnblogs.com/double-K/p/9140424.html