從Oracle TFA偷師學藝
?做了多年數(shù)據(jù)庫優(yōu)化與服務(wù)工作,對TFA這樣的工具已經(jīng)產(chǎn)生了依賴性,一旦客戶的系統(tǒng)遇到問題,肯定會讓客戶提供一份TFA收集的信息,然后基于這些信息進行分析。大部分問題都可以從TFA采集的數(shù)據(jù)中獲得答案。Oracle TFA是一個用于收集和分析跟蹤和日志文件的實用程序,可以自動檢測和收集與Oracle產(chǎn)品相關(guān)的各種診斷數(shù)據(jù),例如跟蹤、日志、AWR報告、ASH報告和、配置文件系統(tǒng)信息等,并將它們匯總到一個統(tǒng)一的位置。使用Oracle TFA,管理員可以更快地診斷和解決問題,減少系統(tǒng)停機時間并提高生產(chǎn)力。TFA可以和Oracle Support Service緊密集成,OSS/OCS/ACS等支持部門可以利用TFA的數(shù)據(jù)完成遠程分析與診斷,從而降低Oracle售后服務(wù)的成本。
我是從Oracle 5.1開始使用Oracle數(shù)據(jù)庫的,經(jīng)歷了沒有任何類似TFA的時代,要幫用戶分析問題,哪怕是在現(xiàn)場分析,也很頭疼,要從各個地方去翻找各種日志和信息。后來有了TFA的前身RDA,采集變得簡單了很多。TFA能夠采集的數(shù)據(jù)十分豐富,包括:
- 日志文件:例如數(shù)據(jù)庫、監(jiān)聽器、ASM、OEM等的日志文件,可以幫助診斷各種錯誤和問題。
- TRACE文件:例如數(shù)據(jù)庫、監(jiān)聽器、ASM、OEM等的跟蹤文件,可以幫助診斷SQL執(zhí)行、鎖定等問題。
- 配置文件:例如Oracle Home、數(shù)據(jù)庫、監(jiān)聽器、ASM、OEM等的配置文件,可以幫助確認系統(tǒng)配置和診斷配置問題。
- 系統(tǒng)信息:例如操作系統(tǒng)、網(wǎng)絡(luò)、存儲等的系統(tǒng)信息,可以幫助確認系統(tǒng)配置和診斷系統(tǒng)問題。
lDump文件:例如內(nèi)存Dump文件、進程Dump文件等,可以幫助診斷內(nèi)存使用、進程問題等。
lAWR報告:可以幫助分析系統(tǒng)性能和診斷性能問題。
lASH報告:可以幫助分析系統(tǒng)活動和診斷系統(tǒng)性能問題。
l監(jiān)控信息:例如AWR快照、Metric信息、OS Watcher信息等,可以幫助分析系統(tǒng)性能和診斷性能問題。
TFA提高了數(shù)據(jù)庫服務(wù)遠程分析數(shù)據(jù)的采集能力,可以讓用戶一次性收集到最為詳細的信息,減少現(xiàn)場與三線支持交互的次數(shù),提高問題分析與故障定位的效率。有經(jīng)驗的DBA在Mos上開SR的時候,總會第一時間就把TFA采集好,并把數(shù)據(jù)隨同SR一起上傳,由于減少了多個初始階段的交互,如果這么做,解決問題的時間可以縮短好幾天。
目前國產(chǎn)數(shù)據(jù)庫的售后服務(wù)面臨更大的挑戰(zhàn),第三方服務(wù)能力的缺失導(dǎo)致客戶現(xiàn)場問題不經(jīng)緩沖直接會壓到數(shù)據(jù)庫原廠的售后服務(wù)人員頭上,而國產(chǎn)數(shù)據(jù)庫廠商的售后服務(wù)體系遠沒有Oracle那么完善和強大,因此將會面臨更大的壓力。目前國產(chǎn)數(shù)據(jù)庫廠商還缺乏TFA那么強大和體系化的支持工具,因此在幫助用戶解決售后問題的時候缺乏標準化的流程與標準化的分析方法,導(dǎo)致售后服務(wù)的效率和能力受到了進一步的限制。實際上我們可以從Oracle偷師學藝,TFA就是十分重要的一項。
首先我們可以學習TFA工具的功能,開發(fā)一個數(shù)據(jù)庫診斷數(shù)據(jù)自動采集工具,采集各種日志、TRACE、配置數(shù)據(jù),以及操作系統(tǒng)的一些日志、硬件信息等基礎(chǔ)信息。再輔助一些性能、等待事件、鎖、數(shù)據(jù)庫信息相關(guān)的數(shù)據(jù),構(gòu)建一個后端服務(wù)支持標準化分析流程中所必須的數(shù)據(jù)。通過這樣的工具不但讓三線運維更加便捷,也可以通過工具規(guī)范化售后服務(wù)的一些技術(shù)分析方法,形成企業(yè)級規(guī)范化的售后服務(wù)技術(shù)分析體系。
其次我們需要關(guān)注一下OSW這個工具,OSW是Oracle采集操作系統(tǒng)各種信息的利器。以前我們服務(wù)的客戶都會建議他們安裝OSW。數(shù)據(jù)庫的問題有很大一部分是和OS相關(guān)的,OSW的數(shù)據(jù)可以幫助我們厘清問題與OS還是DB有關(guān)。從Oracle 11.2.0.4開始,OSW已經(jīng)成為了Oracle數(shù)據(jù)庫標準安裝的一部分,12C中,OSWatcher Black Box(oswbb)的引入使得OSW與Oracle數(shù)據(jù)庫集成的更為緊密。國產(chǎn)數(shù)據(jù)庫的問題很多都是OS問題引發(fā)的,因此對OS的分析更為重要。我想國產(chǎn)數(shù)據(jù)庫也應(yīng)該內(nèi)置安裝一套OS數(shù)據(jù)庫監(jiān)控的工具。因為知識產(chǎn)權(quán)的問題,國產(chǎn)數(shù)據(jù)庫不可能內(nèi)置安裝OSW,也有些國產(chǎn)數(shù)據(jù)庫廠商建議用戶安裝一個nmon之類的OS監(jiān)控工具。以我這些年做數(shù)據(jù)庫服務(wù)的經(jīng)驗來看,nmon雖然能夠生成漂亮的圖表,但是如果是做問題的根因定位,其數(shù)據(jù)采集的粒度和豐富程度,都遠不如OSW。目前也有很多監(jiān)控OS的開源工具,利用開源協(xié)議比較友好的開源工具,學習OSW采的數(shù)據(jù)內(nèi)容,搞一套OS采集工具,集成到數(shù)據(jù)庫產(chǎn)品中,應(yīng)該會對售后服務(wù)有很大的幫助。?