PostgreSQL vs MySQL:1000萬數據批量插入,誰能略勝一籌
之前測試MySQL批量插入,發現慢的離譜,找了下原因,竟然是少了個參數,rewriteBatchedStatements=true。昨天《PostgreSQL vs MySQL - 30倍性能差異》這個原因也找到了,汗顏。
rewriteBatchedStatements介紹
rewriteBatchedStatements=true 是MySQL JDBC驅動程序中的一個連接屬性,用于啟用批量重寫功能。它可以在執行批量插入操作時提高性能。
默認情況下,在JDBC中使用批量插入時,每個插入語句都會作為單獨的請求發送到數據庫服務器。但是,將 rewriteBatchedStatements 設置為 true 時,驅動程序會對批量插入語句進行重寫和優化,將多個插入語句合并成一個批量語句,然后一次性發送給數據庫服務器。
通過啟用批量重寫功能,可以減少與數據庫服務器之間的通信開銷和網絡往返時間。此外,將多個插入語句合并為一個批量語句還可以減少數據庫服務器上的查詢計劃優化和日志記錄操作,從而提高整體性能。
需要注意的是,啟用 rewriteBatchedStatements=true 并不總是能夠帶來顯著的性能改進。它的效果取決于多個因素,包括數據量、網絡延遲、數據庫和系統配置等。在某些情況下,尤其是需要大量數據插入的場景,啟用該選項可以明顯提升性能。然而,在某些情況下,可能不會看到明顯的性能改進或甚至性能下降。
連接參數修改
在連接之后加上rewriteBatchedStatements=true,如下:
String url = "jdbc:mysql://localhost/mydatabase?rewriteBatchedStatements=true";
測試結果
先插入少量數據:10萬條。下述結果,耗時毫秒級被我省略了,所以針對10萬的數據量插入,看不出大的差異。
每批數量 | 耗時 (第一輪) | 耗時 | 耗時 | 耗時 (第n輪) | 平均耗時 | 每秒寫入速度 |
100 | 6s | 6s | 6s | …… | 6s | ≈16666/s |
500 | 4s | 4s | 4s | …… | 4s | ≈25000/s |
1000 | 4s | 4s | 4s | …… | 4s | ≈25000/s |
3000 | 4s | 4s | 4s | …… | 4s | ≈25000/s |
5000 | 4s | 4s | 4s | …… | 4s | ≈25000/s |
10000 | 4s | 4s | 4s | …… | 4s | ≈25000/s |
這個測試結果和昨天測試的PostgreSQL相當(符合預期)。
接下來測試一下1000w數據的耗時,并對比一下PostgreSQL的性能(代碼均復用上篇)。
測試結果
每批數量 | MySQL | PostgreSQL | 每秒寫入速度 | 每秒寫入速度 |
100 | 8m 43s | 3m 36s | ≈19120 | ≈46296 |
500 | 5m 26s | 3m 37s | ≈30674 | ≈46082 |
1000 | 4m 59s | 3m 36s | ≈33444 | ≈46296 |
3000 | 4m 42s | 3m 35s | ≈35460 | ≈46511 |
5000 | 4m 41s | 3m 36s | ≈35587 | ≈46296 |
10000 | 4m 35s | 3m 38s | ≈36363 | ≈45871 |
20000 | 4m 36s | 3m 42s | ≈36231 | ≈45045 |
結論
- MySQL 批量插入時批量不同性能差異較大,PostgreSQL相對穩定。
- 相同配置下PostgreSQL插入性能略具上風。
- MySQL批量插入一定不能忘了加 rewriteBatchedStatements=true ,不然就像之前測試,就是搞笑的。
本數據只是個人測試,僅供參考,不同環境、場景、配置等因素下,結論可能都不一致,大家可根據實際情況進行測試。