MySQL該如何進行大數據量快速插入方法和語句優化?
MySQL大數據量快速插入方法和語句優化是本文我們主要要介紹的內容。
INSERT 語句的速度
插入一個記錄需要的時間由下列因素組成,其中的數字表示大約比例:
連接:(3)
發送查詢給服務器:(2)
分析查詢:(2)
插入記錄:(1x 記錄大小)
插入索引:(1x 索引)
關閉:(1)
這不考慮打開表的初始開銷,每個并發運行的查詢打開。
表的大小以 logN (B 樹)的速度減慢索引的插入。
加快插入的一些方法
如果同時從同一個客戶端插入很多行,使用含多個 VALUE 的 INSERT 語句同時插入幾行。這比使用單行 INSERT 語句快(在某些情況下快幾倍)。如果你正向一個非空表添加數據,可以調節 bulk_insert_buffer_size 變量,使數據插入更快。
如果你從不同的客戶端插入很多行,能通過 INSERT DELAYED 語句加快速度。
用 MyISAM,如果在表中沒有刪除的行,能在 SELECT 語句正在運行的同時插入行。
當從一個文本文件裝載一個表時,使用 LOAD DATA INFILE。這通常比使用很多 INSERT 語句快 20 倍。參見 13.2.5 節,“LOAD DATA INFILE 語法”。
當表有很多索引時,有可能要多做些工作使得 LOAD DATA INFILE 更快些。使用下列過程:
有選擇地用 CREATE TABLE 創建表
執行 FLUSH TABLES 語句或命令 mysqladmin flush-tables。使用 myisamchk –keys-used=0 -rq /path/to/db/tbl_name。這將從表中取消所有索引的使用。
用 LOAD DATA INFILE 把數據插入到表中,因為不更新任何索引,因此很快。 如果只想在以后讀取表,使用 myisampack 壓縮它。參見 15.1.3.3 節,“壓縮表特性”。
用 myisamchk -r -q /path/to/db/tbl_name 重新創建索引。這將在寫入磁盤前在內存中創建索引樹,并且它更快,因為避免了大量磁盤搜索。結果索引樹也被***地平衡。 執行 FLUSH TABLES 語句或 mysqladmin flush-tables 命令。
請注意如果插入一個空 MyISAM 表,LOAD DATA INFILE 也可以執行前面的優化;主要不同處是可以讓 myisamchk 為創建索引分配更多的臨時內存,比執行 LOAD DATA INFILE 語句時為服務器重新創建索引分配得要多。
也可以使用 ALTER TABLE tbl_name DISABLE KEYS 代替 myisamchk –keys-used=0 -rq/path/to/db/tbl_name,使用 ALTER TABLE tbl_name ENABLE KEYS 代替 myisamchk -r -q/path/to/db/tbl_name。使用這種方式,還可以跳過 FLUSH TABLES。
鎖定表可以加速用多個語句執行的 INSERT 操作:
- LOCK TABLES a WRITE;
- INSERT INTO a VALUES (1,23),(2,34),(4,33);
- INSERT INTO a VALUES (8,26),(6,29);
- UNLOCK TABLES;
這樣性能會提高,因為索引緩存區僅在所有 INSERT 語句完成后刷新到磁盤上一次。一般有多少 INSERT 語句即有多少索引緩存區刷新。如果能用一個語句插入所有的行,就不需要鎖定。
對于事務表,應使用 BEGIN 和 COMMIT 代替 LOCK TABLES 來加快插入。
鎖定也將降低多連接測試的整體時間,盡管因為它們等候鎖定***等待時間將上升。例如:
- Connection 1 does 1000 inserts
- Connections 2, 3, and 4 do 1 insert
- Connection 5 does 1000 inserts
如果不使用鎖定,2、3 和 4 將在 1 和 5 前完成。如果使用鎖定,2、3 和 4 將可能不在 1 或 5 前完成,但是整體時間應該快大約 40%。
INSERT、UPDATE 和 DELETE 操作在 MySQL 中是很快的,通過為在一行中多于大約 5 次連續不斷地插入或更新的操作加鎖,可以獲得更好的整體性能。如果在一行中進行多次插入,可以執行 LOCK TABLES,隨后立即執行 UNLOCK TABLES(大約每 1000 行) 以允許其它的線程訪問表。這也會獲得好的性能。
INSERT 裝載數據比 LOAD DATA INFILE 要慢得多,即使是使用上述的策略。
為了對 LOAD DATA INFILE 和 INSERT 在 MyISAM 表得到更快的速度,通過增加 key_buffer_size 系統變量來擴大 鍵高速緩沖區。
INSERT 語法
- INSERT [LOW_PRIORITY | DELAYED | HIGH_PRIORITY] [IGNORE]
- [INTO] tbl_name [(col_name,...)]
- VALUES ({expr | DEFAULT},...),(...),...
- [ ON DUPLICATE KEY UPDATE col_name=expr, ... ]
或:
- INSERT [LOW_PRIORITY | DELAYED | HIGH_PRIORITY] [IGNORE]
- [INTO] tbl_name
- SET col_name={expr | DEFAULT}, ...
- [ ON DUPLICATE KEY UPDATE col_name=expr, ... ]
或:
- INSERT [LOW_PRIORITY | HIGH_PRIORITY] [IGNORE]
- [INTO] tbl_name [(col_name,...)]
- SELECT ...
- [ ON DUPLICATE KEY UPDATE col_name=expr, ... ]
一、DELAYED 的使用
使用延遲插入操作 DELAYED 調節符應用于 INSERT 和 REPLACE 語句。當 DELAYED 插入操作到達的時候,服務器把數據行放入一個隊列中,并立即給客戶端返回一個狀態信息,這樣客戶端就可以在數據表被真正地插入記錄之前繼續進行操作了。如果讀取者從該數據表中讀取數據,隊列中的數據就會被保持著,直到沒有讀取者為止。
接著服務器開始插入延遲數據行(delayed-row)隊列中的數據行。在插入操作的同時,服務器還要檢查是否有新的讀取請求到達和等待。如果有,延遲數據行隊列就被掛起,允許讀取者繼續操作。當沒有讀取者的時候,服務器再次開始插入延遲的數據行。這個過程一直進行,直到隊列空了為止。
幾點要注意事項
INSERT DELAYED 應該僅用于指定值清單的 INSERT 語句。服務器忽略用于 INSERT DELAYED…SELECT 語句的 DELAYED。服務器忽略用于 INSERT DELAYED…ON DUPLICATE UPDATE 語句的 DELAYED。
因為在行被插入前,語句立刻返回,所以您不能使用 LAST_INSERT_ID() 來獲取 AUTO_INCREMENT 值。AUTO_INCREMENT 值可能由語句生成。
對于 SELECT 語句,DELAYED 行不可見,直到這些行確實被插入了為止。
DELAYED 在從屬復制服務器中被忽略了,因為 DELAYED 不會在從屬服務器中產生與主服務器不一樣的數據。注意,目前在隊列中的各行只保存在存儲器中,直到它們被插入到表中為止。這意味著,如果您強行中止了 mysqld(例如,使用 kill -9) 或者如果 mysqld 意外停止,則所有沒有被寫入磁盤的行都會丟失。
二、IGNORE 的使用
IGNORE 是 MySQL 相對于標準 SQL 的擴展。如果在新表中有重復關鍵字,或者當 STRICT 模式啟動后出現警告,則使用 IGNORE 控制 ALTER TABLE 的運行。
如果沒有指定 IGNORE,當重復關鍵字錯誤發生時,復制操作被放棄,返回前一步驟。
如果指定了 IGNORE,則對于有重復關鍵字的行,只使用***行,其它有沖突的行被刪除。并且,對錯誤值進行修正,使之盡量接近正確值。insert ignore into tb(…) value(…) 這樣不用校驗是否存在了,有則忽略,無則添加。
三、ON DUPLICATE KEY UPDATE 的使用
如果您指定了 ON DUPLICATE KEY UPDATE,并且插入行后會導致在一個 UNIQUE 索引或 PRIMARY KEY 中出現重復值,則執行舊行 UPDATE。例如,如果列 a 被定義為 UNIQUE,并且包含值 1,則以下兩個語句具有相同的效果:
- mysql> INSERT INTO table (a,b,c) VALUES (1,2,3)
- -> ON DUPLICATE KEY UPDATE cc=c+1;
- mysql> UPDATE table SET cc=c+1 WHERE a=1;
如果行作為新記錄被插入,則受影響行的值為 1;如果原有的記錄被更新,則受影響行的值為 2。
注釋:如果列 b 也是唯一列,則 INSERT 與此 UPDATE 語句相當:
- mysql> UPDATE table SET cc=c+1 WHERE a=1 OR b=2 LIMIT 1;
如果 a=1 OR b=2 與多個行向匹配,則只有一個行被更新。通常,您應該盡量避免對帶有多個唯一關鍵字的表使用 ON DUPLICATE KEY 子句。您可以在 UPDATE 子句中使用 VALUES(col_name) 函數從 INSERT…UPDATE 語句的 INSERT 部分引用列值。換句話說,如果沒有發生重復關鍵字沖突,則 UPDATE 子句中的 VALUES(col_name) 可以引用被插入的 col_name 的值。本函數特別適用于多行插入。VALUES() 函數只在 INSERT…UPDATE 語句中有意義,其它時候會返回 NULL。
示例:
- mysql> INSERT INTO table (a,b,c) VALUES (1,2,3),(4,5,6)
- -> ON DUPLICATE KEY UPDATE c=VALUES(a)+VALUES(b);
本語句與以下兩個語句作用相同:
mysql> INSERT INTO table (a,b,c) VALUES (1,2,3)
-> ON DUPLICATE KEY UPDATE c=3;
mysql> INSERT INTO table (a,b,c) VALUES (4,5,6)
-> ON DUPLICATE KEY UPDATE c=9;
當您使用 ON DUPLICATE KEY UPDATE 時,DELAYED 選項被忽略。