海量數(shù)據(jù)處理之?dāng)?shù)據(jù)庫索引及優(yōu)化

作者：碼農(nóng) 2011-08-19 13:28:25

索引是對數(shù)據(jù)庫表中一列或多列的值進(jìn)行排序的一種結(jié)構(gòu)，使用索引可快速訪問數(shù)據(jù)庫表中的特定信息。除了數(shù)據(jù)庫索引之外，在LAMP結(jié)果如此流行的今天，數(shù)據(jù)庫(尤其是MySQL)性能優(yōu)化也是海量數(shù)據(jù)處理的一個熱點(diǎn)。下

索引是對數(shù)據(jù)庫表中一列或多列的值進(jìn)行排序的一種結(jié)構(gòu)，使用索引可快速訪問數(shù)據(jù)庫表中的特定信息。

數(shù)據(jù)庫索引

什么是索引

數(shù)據(jù)庫索引好比是一本書前面的目錄，能加快數(shù)據(jù)庫的查詢速度。

例如這樣一個查詢：select * from table1 where id=44。如果沒有索引，必須遍歷整個表，直到ID等于44的這一行被找到為止;有了索引之后(必須是在ID這一列上建立的索引)，直接在索引里面找 44(也就是在ID這一列找)，就可以得知這一行的位置，也就是找到了這一行。可見，索引是用來定位的。

索引分為聚簇索引和非聚簇索引兩種，聚簇索引是按照數(shù)據(jù)存放的物理位置為順序的，而非聚簇索引就不一樣了;聚簇索引能提高多行檢索的速度，而非聚簇索引對于單行的檢索很快。

概述

建立索引的目的是加快對表中記錄的查找或排序。

為表設(shè)置索引要付出代價的：一是增加了數(shù)據(jù)庫的存儲空間，二是在插入和修改數(shù)據(jù)時要花費(fèi)較多的時間(因?yàn)樗饕惨S之變動)。

B樹索引-Sql Server索引方式

為什么要創(chuàng)建索引

創(chuàng)建索引可以大大提高系統(tǒng)的性能。

***，通過創(chuàng)建***性索引，可以保證數(shù)據(jù)庫表中每一行數(shù)據(jù)的***性。

第二，可以大大加快數(shù)據(jù)的檢索速度，這也是創(chuàng)建索引的最主要的原因。

第三，可以加速表和表之間的連接，特別是在實(shí)現(xiàn)數(shù)據(jù)的參考完整性方面特別有意義。

第四，在使用分組和排序子句進(jìn)行數(shù)據(jù)檢索時，同樣可以顯著減少查詢中分組和排序的時間。

第五，通過使用索引，可以在查詢的過程中，使用優(yōu)化隱藏器，提高系統(tǒng)的性能。

也許會有人要問：增加索引有如此多的優(yōu)點(diǎn)，為什么不對表中的每一個列創(chuàng)建一個索引呢?因?yàn)椋黾铀饕灿性S多不利的方面。

***，創(chuàng)建索引和維護(hù)索引要耗費(fèi)時間，這種時間隨著數(shù)據(jù)量的增加而增加。

第二，索引需要占物理空間，除了數(shù)據(jù)表占數(shù)據(jù)空間之外，每一個索引還要占一定的物理空間，如果要建立聚簇索引，那么需要的空間就會更大。

第三，當(dāng)對表中的數(shù)據(jù)進(jìn)行增加、刪除和修改的時候，索引也要動態(tài)的維護(hù)，這樣就降低了數(shù)據(jù)的維護(hù)速度。

在哪建索引

索引是建立在數(shù)據(jù)庫表中的某些列的上面。在創(chuàng)建索引的時候，應(yīng)該考慮在哪些列上可以創(chuàng)建索引，在哪些列上不能創(chuàng)建索引。一般來說，應(yīng)該在這些列上創(chuàng)建索引：

在經(jīng)常需要搜索的列上，可以加快搜索的速度;

在作為主鍵的列上，強(qiáng)制該列的***性和組織表中數(shù)據(jù)的排列結(jié)構(gòu);

在經(jīng)常用在連接的列上，這些列主要是一些外鍵，可以加快連接的速度;在經(jīng)常需要根據(jù)范圍進(jìn)行搜索的列上創(chuàng)建索引，因?yàn)樗饕呀?jīng)排序，其指定的范圍是連續(xù)的;

在經(jīng)常需要排序的列上創(chuàng)建索引，因?yàn)樗饕呀?jīng)排序，這樣查詢可以利用索引的排序，加快排序查詢時間;

在經(jīng)常使用在WHERE子句中的列上面創(chuàng)建索引，加快條件的判斷速度。

同樣，對于有些列不應(yīng)該創(chuàng)建索引。一般來說，不應(yīng)該創(chuàng)建索引的的這些列具有下列特點(diǎn)：

***，對于那些在查詢中很少使用或者參考的列不應(yīng)該創(chuàng)建索引。這是因?yàn)椋热贿@些列很少使用到，因此有索引或者無索引，并不能提高查詢速度。相反，由于增加了索引，反而降低了系統(tǒng)的維護(hù)速度和增大了空間需求。

第二，對于那些只有很少數(shù)據(jù)值的列也不應(yīng)該增加索引。這是因?yàn)椋捎谶@些列的取值很少，例如人事表的性別列，在查詢的結(jié)果中，結(jié)果集的數(shù)據(jù)行占了表中數(shù)據(jù)行的很大比例，即需要在表中搜索的數(shù)據(jù)行的比例很大。增加索引，并不能明顯加快檢索速度。

第三，對于那些定義為text, image和bit數(shù)據(jù)類型的列不應(yīng)該增加索引。這是因?yàn)椋@些列的數(shù)據(jù)量要么相當(dāng)大，要么取值很少,不利于使用索引。

第四，當(dāng)修改性能遠(yuǎn)遠(yuǎn)大于檢索性能時，不應(yīng)該創(chuàng)建索引。這是因?yàn)椋薷男阅芎蜋z索性能是互相矛盾的。當(dāng)增加索引時，會提高檢索性能，但是會降低修改性能。當(dāng)減少索引時，會提高修改性能，降低檢索性能。因此，當(dāng)修改操作遠(yuǎn)遠(yuǎn)多于檢索操作時，不應(yīng)該創(chuàng)建索引。

#p#

數(shù)據(jù)庫優(yōu)化

此外，除了數(shù)據(jù)庫索引之外，在LAMP結(jié)果如此流行的今天，數(shù)據(jù)庫(尤其是MySQL)性能優(yōu)化也是海量數(shù)據(jù)處理的一個熱點(diǎn)。下面就結(jié)合自己的經(jīng)驗(yàn)，聊一聊MySQL數(shù)據(jù)庫優(yōu)化的幾個方面。

首先，在數(shù)據(jù)庫設(shè)計(jì)的時候，要能夠充分的利用索引帶來的性能提升，至于如何建立索引，建立什么樣的索引，在哪些字段上建立索引，上面已經(jīng)講的很清楚了，這里不在贅述。另外就是設(shè)計(jì)數(shù)據(jù)庫的原則就是盡可能少的進(jìn)行數(shù)據(jù)庫寫操作(插入，更新，刪除等)，查詢越簡單越好。如下：

數(shù)據(jù)庫設(shè)計(jì)

其次，配置緩存是必不可少的，配置緩存可以有效的降低數(shù)據(jù)庫查詢讀取次數(shù)，從而緩解數(shù)據(jù)庫服務(wù)器壓力，達(dá)到優(yōu)化的目的，一定程度上來講，這算是一個“圍魏救趙”的辦法。可配置的緩存包括索引緩存(key_buffer)，排序緩存(sort_buffer)，查詢緩存(query_buffer)，表描述符緩存(table_cache)，如下圖：

配置緩存

第三，切表，切表也是一種比較流行的數(shù)據(jù)庫優(yōu)化方法。分表包括兩種方式：橫向分表和縱向分表，其中，縱向分表比較有使用意義，但是分表會造成查詢的負(fù)擔(dān)，因此在數(shù)據(jù)庫設(shè)計(jì)之初，要想好：

分表

第四，日志分析，在數(shù)據(jù)庫運(yùn)行了較長一段時間以后，會積累大量的LOG日志，其實(shí)這里面的蘊(yùn)涵的有用的信息量還是很大的。通過分析日志，可以找到系統(tǒng)性能的瓶頸，從而進(jìn)一步尋找優(yōu)化方案。

性能分析

以上講的都是單機(jī)MySQL的性能優(yōu)化的一些經(jīng)驗(yàn)，但是隨著信息大爆炸，單機(jī)的數(shù)據(jù)庫服務(wù)器已經(jīng)不能滿足我們的需求，于是，多多節(jié)點(diǎn)，分布式數(shù)據(jù)庫網(wǎng)絡(luò)出現(xiàn)了，其一般的結(jié)構(gòu)如下：