DB2數(shù)據(jù)庫里面正確更新執(zhí)行計(jì)劃的操作步驟
在DB2數(shù)據(jù)庫里面正確更新執(zhí)行計(jì)劃的實(shí)際操作步驟是本文的主要內(nèi)容,我們大家都知道DB2數(shù)據(jù)庫的優(yōu)化器實(shí)際上是一個(gè)標(biāo)準(zhǔn)規(guī)則集合,一般來說我們只要告訴DB2要檢索什么,而不是如何檢索。
和Oracle數(shù)據(jù)庫一樣,DB2數(shù)據(jù)庫里面也是通過優(yōu)化器來分析你的SQL,生成它認(rèn)為***的執(zhí)行計(jì)劃(Access Plan)。DB2的優(yōu)化器實(shí)際上是一個(gè)標(biāo)準(zhǔn)規(guī)則集合,一般來說我們只要告訴DB2要檢索什么,而不是如何檢索。
那么DB2的優(yōu)化器是根據(jù)什么來判斷SQL的***存取路徑呢?
DB2的優(yōu)化器是基于成本的優(yōu)化器,也就是CBO(Cost Based Optmizer)。也就是說DB2 優(yōu)化器會(huì)應(yīng)用查詢成本公式,該公式對(duì)每條可能的存取路徑的四個(gè)因素進(jìn)行評(píng)估和權(quán)衡:CPU 成本、I/O 成本、DB2 系統(tǒng)目錄中的統(tǒng)計(jì)信息和實(shí)際的 SQL 語句。
那么我們來簡(jiǎn)單看一下DB2的優(yōu)化器的工作流程:
1.DB2的優(yōu)化器,在接收到SQL語句后,會(huì)首先校驗(yàn)SQL的語法,確保是正確的SQL
2.根據(jù)當(dāng)前的系統(tǒng)環(huán)境信息,生成***的執(zhí)行計(jì)劃來優(yōu)化SQL語句
3.把SQL翻譯成計(jì)算機(jī)指令語言,并執(zhí)行這個(gè)優(yōu)化后的SQL
4.返回結(jié)果,或者存儲(chǔ)它們,以便將來的執(zhí)行
在我們看來,DB2 系統(tǒng)目錄中統(tǒng)計(jì)信息是讓DB2優(yōu)化器正確工作的一個(gè)非常重要的依據(jù)。這些統(tǒng)計(jì)信息向優(yōu)化器提供了與正在被優(yōu)化的 SQL 語句將要訪問的表狀態(tài)相關(guān)的信息。這些信息主要包括:
Table--包括表的記錄數(shù)、PAGE、PCTFREE以及COMPRESS等信息,相關(guān)的系統(tǒng)視圖是:sysstat.tables、syscat.tables
Columns—包括COLUMNS的數(shù)量、長(zhǎng)度、分布特征以及COMPRESS等信息,相關(guān)的系統(tǒng)視圖是:sysstat.columns、syscat. columns
Index--包括是否存在索引、索引的組織(葉子頁的數(shù)量和級(jí)別的數(shù)量)、索引鍵的離散值的數(shù)量以及是否群集索引, 相關(guān)的系統(tǒng)視圖是:sysstat.indexes、syscat. indexes
其他的還有分區(qū)/節(jié)點(diǎn)組信息和表空間的信息
如何及時(shí)更新這些信息呢?保證DB2優(yōu)化器正確的工作,在DB2里面提供了以下的辦法。
1.RUNSTATS與REOGCHK
Runstats這個(gè)命令的功能主要就是收集數(shù)據(jù)庫對(duì)象的狀態(tài)信息,這對(duì)DB2數(shù)據(jù)庫使用合理的ACCESS PLAN是至關(guān)重要的。一般來說,以下幾種情況下面,我們需要用runstats來收集統(tǒng)計(jì)信息:
1.在給表創(chuàng)建一個(gè)index后,我們***做一次runstat。這個(gè)情況也是大家經(jīng)常忽略的。很多時(shí)候大家在給表增加了一個(gè)index后,分析執(zhí)行計(jì)劃,發(fā)現(xiàn)沒有變化,覺得很奇怪。其實(shí)這個(gè)時(shí)候,你需要做一次runstats,就可以了。在8.2里面,DB2做了很好的改進(jìn),可以避免這個(gè)問題,在創(chuàng)建index的時(shí)候,可以立即更新你的信息。
2.在對(duì)table做了一次reorg后,記得要做一次runstats。因?yàn)閷?duì)表做reorg,會(huì)修改表的很多信息,比如高水位等,所以做一次runstats,可以更新統(tǒng)計(jì)信息。
3.當(dāng)你的表里面的數(shù)據(jù)發(fā)生了比較大的變化,一般來說,大約表里面的數(shù)據(jù)量的10%-20%發(fā)生了變化,就應(yīng)該作一次runstats。這些變化包括刪除,修改,插入。對(duì)于一些非常大的表,比方在數(shù)據(jù)倉庫的項(xiàng)目里面,某些事實(shí)表非常巨大。這個(gè)時(shí)候,完整的對(duì)一個(gè)大表作runstats可能花費(fèi)時(shí)間相當(dāng)大,DB2 8.1里面支持我們對(duì)這些大表作抽樣,比方說只對(duì)20%的數(shù)據(jù)作runstats,這樣的話,一般來說也能保證得到正確的執(zhí)行計(jì)劃。當(dāng)然首先要確保這個(gè)表里面的數(shù)據(jù)***分布比較均勻。
4.當(dāng)你在分區(qū)(DPF)數(shù)據(jù)庫里面使用了REDISTRIBUTE DATABASE PARTITION GROUP這個(gè)命令,那么就需要用runstats來收集新的統(tǒng)計(jì)信息。
RUNSTATS命令的語法如下:
如果表名為DB2INST1.STAFF,表上有索引,則可以用下面的例子完成RUNSTATS命令:
db2 runstats on table db2inst1.staff with distribution and detailed indexes all
在實(shí)際的項(xiàng)目里面,對(duì)于變化比較大的表,需要我們定時(shí)對(duì)數(shù)據(jù)庫做runstats,一般來說runstats和reorg可以結(jié)合起來做,首先對(duì)表作reorg,然后做runstats,***REBIND數(shù)據(jù)庫根據(jù)***的統(tǒng)計(jì)信息生成合適的統(tǒng)計(jì)計(jì)劃。
值得注意的是,如果我們要處理的表數(shù)據(jù)量是快速變化的,比如在電信移動(dòng)行業(yè),需要在月末進(jìn)行處理的匯總表。在不長(zhǎng)的時(shí)間范圍內(nèi)數(shù)據(jù)量變化特別大,從而使得RUNSTATS 得到的統(tǒng)計(jì)信息不準(zhǔn)確,原因是這些統(tǒng)計(jì)信息只是某個(gè)時(shí)間點(diǎn)的信息。您可以用這條語句來把表修改為volatile。
alter table table_name volatile cardinality
這樣優(yōu)化器將考慮使用索引掃描而不是表掃描。無論統(tǒng)計(jì)信息如何,優(yōu)化器將使用索引掃描而不是使用表掃描。
IBM的文檔里面還提供了REORGCHK這個(gè)命令,可以根據(jù)統(tǒng)計(jì)公式計(jì)算表是否需要重整。
比如可以分為對(duì)系統(tǒng)表和用戶表兩部分分別進(jìn)行REORGCHK:
1) 針對(duì)系統(tǒng)表進(jìn)行REORGCHK
db2 reorgchk update statistics on table system
2) 針對(duì)用戶表進(jìn)行REORGCHK
db2 reorgchk update statistics on table user
需要注意的是,如果數(shù)據(jù)庫中數(shù)據(jù)量比較大,這些操作一般所需時(shí)間比較長(zhǎng),所以盡量安排在數(shù)據(jù)庫比較空閑的時(shí)候做。
db2 update db cfg using AUTO_MAINT off AUTO_TBL_MAINT off AUTO_RUNSTATS off
在DB2 8.2里面數(shù)據(jù)庫可以自動(dòng)進(jìn)行統(tǒng)計(jì)信息收集,不過這樣的動(dòng)作還是會(huì)帶來額外的負(fù)載,一般情況下面可以關(guān)掉,只在我們需要的時(shí)候運(yùn)行就可以了。
2.LOAD
Load這個(gè)工具是DB2里面一個(gè)非常強(qiáng)大的數(shù)據(jù)遷移工具。一般用作大批量的數(shù)據(jù)插入。因?yàn)長(zhǎng)oad操作不記日志,所以效率非常好。筆者曾經(jīng)在RS6000平臺(tái)上面實(shí)現(xiàn)50-60m/s的速度Load數(shù)據(jù)。在這里我想討論的是在DB2數(shù)據(jù)庫里面如何用load來影響你的catalog視圖的統(tǒng)計(jì)信息。
在Load的時(shí)候使用statistics選項(xiàng)可以在裝入的過程中生成統(tǒng)計(jì)數(shù)據(jù),這些統(tǒng)計(jì)數(shù)據(jù)可以供優(yōu)化器確定最有效的執(zhí)行sql語句的方式。
4.當(dāng)你在分區(qū)(DPF)數(shù)據(jù)庫里面使用了REDISTRIBUTE DATABASE PARTITION GROUP這個(gè)命令,那么就需要用runstats來收集新的統(tǒng)計(jì)信息。
RUNSTATS命令的語法如下:
如果表名為DB2INST1.STAFF,表上有索引,則可以用下面的例子完成RUNSTATS命令:
db2 runstats on table db2inst1.staff with distribution and detailed indexes all
在實(shí)際的項(xiàng)目里面,對(duì)于變化比較大的表,需要我們定時(shí)對(duì)DB2數(shù)據(jù)庫做runstats,一般來說runstats和reorg可以結(jié)合起來做,首先對(duì)表作reorg,然后做runstats,***REBIND數(shù)據(jù)庫根據(jù)***的統(tǒng)計(jì)信息生成合適的統(tǒng)計(jì)計(jì)劃。
值得注意的是,如果我們要處理的表數(shù)據(jù)量是快速變化的,比如在電信移動(dòng)行業(yè),需要在月末進(jìn)行處理的匯總表。在不長(zhǎng)的時(shí)間范圍內(nèi)數(shù)據(jù)量變化特別大,從而使得RUNSTATS 得到的統(tǒng)計(jì)信息不準(zhǔn)確,原因是這些統(tǒng)計(jì)信息只是某個(gè)時(shí)間點(diǎn)的信息。您可以用這條語句來把表修改為volatile。
alter table table_name volatile cardinality
這樣優(yōu)化器將考慮使用索引掃描而不是表掃描。無論統(tǒng)計(jì)信息如何,優(yōu)化器將使用索引掃描而不是使用表掃描。
IBM的文檔里面還提供了REORGCHK這個(gè)命令,可以根據(jù)統(tǒng)計(jì)公式計(jì)算表是否需要重整。
比如可以分為對(duì)系統(tǒng)表和用戶表兩部分分別進(jìn)行REORGCHK:
1) 針對(duì)系統(tǒng)表進(jìn)行REORGCHK
db2 reorgchk update statistics on table system
2) 針對(duì)用戶表進(jìn)行REORGCHK
db2 reorgchk update statistics on table user
需要注意的是,如果數(shù)據(jù)庫中數(shù)據(jù)量比較大,這些操作一般所需時(shí)間比較長(zhǎng),所以盡量安排在數(shù)據(jù)庫比較空閑的時(shí)候做。
db2 update db cfg using AUTO_MAINT off AUTO_TBL_MAINT off AUTO_RUNSTATS off
在DB2 8.2里面數(shù)據(jù)庫可以自動(dòng)進(jìn)行統(tǒng)計(jì)信息收集,不過這樣的動(dòng)作還是會(huì)帶來額外的負(fù)載,一般情況下面可以關(guān)掉,只在我們需要的時(shí)候運(yùn)行就可以了。
2.LOAD
Load這個(gè)工具是DB2里面一個(gè)非常強(qiáng)大的數(shù)據(jù)遷移工具。一般用作大批量的數(shù)據(jù)插入。因?yàn)長(zhǎng)oad操作不記日志,所以效率非常好。筆者曾經(jīng)在RS6000平臺(tái)上面實(shí)現(xiàn)50-60m/s的速度Load數(shù)據(jù)。在這里我想討論的是在DB2數(shù)據(jù)庫里面如何用load來影響你的catalog視圖的統(tǒng)計(jì)信息。
在Load的時(shí)候使用statistics選項(xiàng)可以在裝入的過程中生成統(tǒng)計(jì)數(shù)據(jù),這些統(tǒng)計(jì)數(shù)據(jù)可以供優(yōu)化器確定最有效的執(zhí)行sql語句的方式。
【編輯推薦】
- DB2 9.7三種神秘武器
- DB2:信息管理 盡在掌握
- DB2在線增量備份 還原增量備份及前滾恢復(fù)
- DB2 優(yōu)化器中針對(duì) JOIN 語句的結(jié)果集估計(jì)
- 實(shí)現(xiàn)DB2HADRv8.2 EE實(shí)施的正確操作步驟