針對MySQL大規模數據庫的性能和伸縮性的優化
在需要支持移動/平板電腦應用及普通桌面瀏覽器訪問的時代,網站的普及率和有效性很大程度上取決于其可用性和性能。一個訪問緩慢的網站會使得訪問者或潛在的客戶流失,并導致商業的失敗。一個訪問速度相當快的網站將會決定訪客是否會使用網站提供的產品或服務。
擁有大規模數據庫的網站始終需要適當的關注、配置、優化、調整和維護,以確保網站的快速加載。這篇文章將討論如何優化有海量數據的 MySQL 數據庫。
選擇 InnoDB 作為存儲引擎
大型產品的數據庫對于可靠性和并發性的要求較高,InnoDB 作為默認的 MySQL 存儲引擎,相對于 MyISAM 來說是個更佳的選擇。
優化數據庫結構
- 組織數據庫的 schema、表和字段以降低 I/O 的開銷,將相關項保存在一起,并提前規劃,以便隨著數據量的增長,性能可以保持較高的水平。
- 設計數據表應盡量使其占用的空間最小化,表的主鍵應盡可能短。
- 對于 InnoDB 表,主鍵所在的列在每個輔助索引條目中都是可復制的,因此如果有很多輔助索引,那么一個短的主鍵可以節省大量空間。
- 僅創建你需要改進查詢性能的索引。索引有助于檢索,但是會增加插入和更新操作的執行時間。
InnoDB 的 Change Buffering 特性
InnoDB 提供了 change buffering 的配置,可減少維護輔助索引所需的磁盤 I/O。大規模的數據庫可能會遇到大量的表操作和大量的 I/O,以保證輔助索引保持***。當相關頁面不在緩沖池里面時,InnoDB 的 change buffer 將會更改緩存到輔助索引條目,從而避免因不能立即從磁盤讀取頁面而導致耗時的 I/O 操作。當頁面被加載到緩沖池時,緩沖的更改將被合并,更新的頁面之后會刷新到磁盤。這樣做可提高性能,適用于 MySQL 5.5 及更高版本。
InnoDB 頁面壓縮
InnoDB 支持對表進行頁面級的壓縮。當寫入數據頁的時候,會有特定的壓縮算法對其進行壓縮。壓縮后的數據會寫入磁盤,其打孔機制會釋放頁面末尾的空塊。如果壓縮失敗,數據會按原樣寫入。表和索引都會被壓縮,因為索引通常是數據庫總大小中占比很大的一部分,壓縮可以顯著節約內存,I/O 或處理時間,這樣就達到了提高性能和伸縮性的目的。它還可以減少內存和磁盤之間傳輸的數據量。MySQL 5.1 及更高版本支持該功能。
注意,頁面壓縮并不能支持共享表空間中的表。共享表空間包括系統表空間、臨時表空間和常規表空間。
使用批量數據導入
在主鍵上使用已排序的數據源進行批量數據的導入可加快數據插入的過程。否則,可能需要在其他行之間插入行以維護排序,這會導致磁盤 I/O 變高,進而影響性能,增加頁的拆分。關閉自動提交的模式也是有好處的,因為它會為每個插入執行日志刷新到磁盤。在批量插入期間臨時轉移唯一鍵和外鍵檢查也可顯著降低磁盤 I/O。對于新建的表,***的做法是在批量導入后創建外鍵/唯一鍵約束。
SQL 語句優化
為了提升查詢的速度,可以為 WHERE 字句中使用的列添加索引。此外,不要將主鍵索引用于太多或太長的列,因為這些列值在輔助索引進行復制的時候會增加讀取所需要的 I/O 資源并占用緩存。
如果索引包含了不必要的數據,通過 I/O 讀取這些數據并進行緩存就會減弱服務器的性能和伸縮性。也不要為不必要的列使用唯一鍵索引,因為它會禁用 change buffering。應該使用常規索引代替。
減少和隔離需要耗費大量時間的函數調用。
盡可能的減少查詢中的全表掃描次數。
調整緩存區域的大小和屬性,比如 InnoDB 緩沖池,MySQL 查詢緩存等,這樣會通過從內存而非從硬盤獲取數據而讓重復的查詢變得更快。
優化存儲結構
對于大型的表,或者包含大量重復文本或數值數據的表,應該考慮使用 COMPRESSED(壓縮的) 行格式。這樣只需要較少的 I/O 就可以把數據取到緩沖池,或執行全表掃描。
一旦你的數據達到穩定的大小,或者增長的表增加了幾十或幾百兆字節,就應該考慮使用 OPTIMIZE TABLE 語句重新組織表并壓縮浪費的空間。對重新組織后的表進行全表掃描所需要的 I/O 會更少。
優化 InnoDB 磁盤 I/O
增加 InnoDB 緩沖池大小可以讓查詢從緩沖池訪問而不是通過磁盤 I/O 訪問。通過調整系統變量 innodb_flush_method 來調整清除緩沖的指標使其達到***水平。
使用其它存儲設備配置 RAID。
MySQL 的內存分配
在為 MySQL 分配足夠的內存之前,請考慮不同領域對 MySQL 的內存需求。
要考慮的關鍵領域是:并發連接 —— 對于大量并發連接,排序和臨時表將需要大量內存。在撰寫本文時,對于處理 3000+ 并發連接的數據庫,16GB 到 32GB的 RAM 是足夠的。
內存碎片可以消耗大約 10% 或更多的內存。像 innodb_buffer_pool_size、key_buffer_size、query_cache_size 等緩存和緩沖區要消耗大約 80% 的已分配內存。
日常維護
定期檢查慢的查詢日志并優化查詢機制以有效使用緩存來減少磁盤 I/O。優化它們,以掃描最少的行數,而不是進行全表掃描。
其他可以幫助 DBA 檢查和分析性能的日志包括:錯誤日志、常規查詢日志、二進制日志、DDL日志(元數據日志)。
定期刷新緩存和緩沖區以降低碎片化。使用 OPTIMIZE TABLE 語句重新組織表并壓縮任何可能被浪費的空間。