SQL Server索引密度的實際操作
以下的文章主要向大家描述的是SQL Server索引密度(Index Densities),在實際操作中當一個查詢的SARG 的值直到查詢運行時才已知,或是 SARG 是關于一個索引的多列時,SQL Server才使用為索引中每列存儲的密度值。
對于組合鍵值,SQL Server為第一列的組合鍵存儲了密度值;為第一列和第二列;為第一、二、三列;等等。這些信息可以從Listing34.1的DBCC SHOW_STATISTICS 輸出信息的All density區域看到。
SQL Server索引密度表示為鍵的唯一鍵值的倒數。每個鍵的密度可以按照下面的公式進行計算:
引用
- Key density = 1.00/ ( Count of distinct key values in the table)
鍵密度 = 1.00 / (表中的不同鍵值數)
所以,pubs數據庫的author表中state列的密度計算公式如下:
- Sql代碼
- Select Density = 1.00/ (select count (distinct state) from authors)
- Go
- Select Density = 1.00/ (select count (distinct state) from authors)
- Go
- Density
- .1250000000000
State和zip的組合列密度計算如下:
- Sql代碼
- Select density = 1.00/( select count (distinct state + zip) from authors)
- Go
- Select density = 1.00/( select count (distinct state + zip) from authors)
- Go
- Density
- .0555555555555
注意,不像選擇率,越小的SQL Server索引密度意味著具有更高的索引選擇性。當密度趨近于1,索引就變得有更少的選擇性,基本上沒有用處了。當索引的選擇性低的時候,優化器可能會選擇一個表掃描(table scan),或者葉子級的索引掃描(Index scan),而不會進行索引查找(index seek),因為這樣會付出更多的代價。
引用
提示:
當心你的數據庫中低選擇性的索引。這樣的索引通常是對系統的性能是一個損害。它們通常不僅不會用來進行數據的檢索,而且也會使得數據修改語句變得緩慢,因為需要額外的索引維護。識別這些索引,考慮刪除掉它們。
通常,當你給鍵中添加更多的列時,密度值應該變得更小。例如,在Listing 34.2,密度值逐漸變小。
- Key Column Index Density
- title_id 1.8621974E-3
- title_id, stor_id 5.997505E-6
- title_id, stor_id, ord_num 5.9268041E-6
使用索引密度評估行數(Estimating Rows Using the Index Statistics)
那么優化器是如何使用SQL Server索引密度來決定一個索引的效果呢?
當在一個范圍內查找一個索引值或者鍵中存在重復值時,SQL Server會使用直方圖信息。考慮下面關于bigpubs2000數據庫中的sales表中查詢:
Sql代碼
- Select * from sales
- Where title_id = 'BI2184'
- Select * from sales
- Where title_id = 'BI2184'
因為在表中title_id中存在重復值,SQL Server使用關于title_id的直方圖(參考Listing34.2)來估計匹配的行數。對于BI2184值,它將查看EQ_ROWS值,值為343.0。這表示在表中title_id值為BI2184的記錄共有343行。
當一個查詢參數(search argument)的精確匹配(exact match 即等號計算)在直方圖中step沒有發現時,SQL Server使用比查找值(search value)大的下一個step中的AVG_RANG_ROWS值。例如,SQL Server對查找值為‘BI2187’進行評估,它將會發現匹配值為270.0行。
對一個范圍檢索,SQL Server把檢范圍兩端的RANG_ROW和EQ_ROWS相加。例如,利用Listing34.2中的直方圖,如果查找參數為 where title_id <= 'BI2574',行數估計將是:
314 + 613 + 343 + 270 + 277,或者為1817。
當直方圖不能使用時,SQL Server就使用索引密度來估計匹配行數。對于等值查找的計算公式是直截了當的,例如:
- Sql代碼
- Declare @tid varchar(6)
- Select @tid = 'BI2574'
- Select count(*) from sales where title_id = @tid
- Declare @tid varchar(6)
- Select @tid = 'BI2574'
- Select count(*) from sales where title_id = @tid
行估計值等于指定鍵值的SQL Server索引密度(1.8621974E-3)乘以表中行數:
- Sql代碼
- Select count(*) * 1.8621974E-3
- From sales
- Go
- Select count(*) * 1.8621974E-3
- From sales
- Go
- 314.19925631500001
如果一個查詢的SARG為title_id 和stor_id,并且假如title_id的SARG是一個可在優化期間可評價的常量表達式,SQL Server會用title_id stor_id的索引密度和title_id的直方圖來估計匹配的行數(對某些值來說,索引密度估計的值可能會大學直方圖估計出來的值)。SQL Server 將會用二者中較小的值作為匹配的行數。
根據title_id stor_id的索引密度,你能看到:
- Sql代碼
- Select coun(*) * 5.997505E-6
- From sales
- Select coun(*) * 5.997505E-6
- From sales
- 1.011929031125
在這個例子中,SQL Server將用title_id 和stor_id的SQL Server索引密度來估計匹配的值。在此情況下,它估計查詢將返回一條匹配的行。
【編輯推薦】