成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

10個你不知道的PostgreSQL功能:創建統計信息

數據庫 其他數據庫 PostgreSQL
如果你曾使用 Postgres 做過一些性能優化,你或許已經使用過 EXPLAIN 。EXPLAIN 向你展示了 PostgreSQL planner 為提供的語句生成的執行計劃。它說明了語句涉及到的表將會使用順序掃描、索引掃描等方式進行掃描,在使用多表的情況下將會使用連接算法。但是, Postgres 是如何產生這些規劃的?

如果你曾使用 Postgres 做過一些性能優化,你或許已經使用過 EXPLAIN 。EXPLAIN 向你展示了 PostgreSQL planner 為提供的語句生成的執行計劃。它說明了語句涉及到的表將會使用順序掃描、索引掃描等方式進行掃描,在使用多表的情況下將會使用連接算法。但是, Postgres 是如何產生這些規劃的?

[[224918]]

決定使用哪種規劃的一個非常重要的輸入是 planner 收集到的數據統計。這些統計的數據能夠使 planner 評估執行規劃的某一部分會返回多少行,繼而影響到使用哪一種規劃或連接算法。它們主要是通過運行 ANALYZE 或 VACUUM(和一些 DDL 命令,比如說 CREATE INDEX )來采集或更新的。

這些統計信息由 planner 存儲在 pg_class 和 pg_statistics 中。Pg_class 基本上存儲了每個表和索引中的條目總數,以及它們所占用的磁盤塊數。Pg_statistic 存儲關于每列的統計信息,例如哪些列的 % 值為 nul l,哪些是最常見的值,直方圖邊界等。你可以查看下面的示例,以了解 Postgres 在下表中為 col1 收集的統計信息類型。下面的查詢輸出展示了 planner(正確地)預估表中列 col1 中有 1000 個不同的值,并且還對最常見的值、頻率等進行了其他預估。

請注意,我們已經查詢了 pg_stats(一個擁有更多可讀版本的列統計信息的視圖)。

 

  1. CREATE TABLE tbl (                                                                         
  2.     col1 int,                                                                              
  3.     col2 int                                                                               
  4. );                                                                                         
  5.  
  6. INSERT INTO tbl SELECT i/10000, i/100000                                                   
  7. FROM generate_series (1,10000000) s(i);                                                    
  8.  
  9. ANALYZE tbl;                                      
  10.  
  11. select * from pg_stats where tablename = 'tbl' and attname = 'col1'
  12. -[ RECORD 1 ]----------+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 
  13. schemaname             | public 
  14. tablename              | tbl 
  15. attname                | col1 
  16. inherited              | f 
  17. null_frac              | 0 
  18. avg_width              | 4 
  19. n_distinct             | 1000 
  20. most_common_vals       | {318,564,596,...} 
  21. most_common_freqs      | {0.00173333,0.0017,0.00166667,0.00156667,...} 
  22. histogram_bounds       | {0,8,20,30,39,...} 
  23. correlation            | 1 
  24. most_common_elems      |  
  25. most_common_elem_freqs |  
  26. elem_count_histogram   | 

單列統計數據不足時

這些單列統計信息可幫助 planner 估算你的條件選擇性(這是 planner 用來估算索引掃描將選擇多少行的內容)。 當查詢中存在多個條件時,planner 假定列(或 where 子句條件)彼此獨立。 當列相互關聯或相互依賴并導致 planner 低估或高估這些條件將返回的行數時,就不適用。

我們來看下面的幾個例子。 為了使查詢計劃易于閱讀,我們通過設置 max_parallel_workers_per_gather 為 0 來關閉每個查詢的并行性:

 

  1. EXPLAIN ANALYZE SELECT * FROM tbl where col1 = 1;                             
  2.                                                 QUERY PLAN                                                  
  3. ----------------------------------------------------------------------------------------------------------- 
  4.  Seq Scan on tbl  (cost=0.00..169247.80 rows=9584 width=8) (actual time=0.641..622.851 rows=10000 loops=1) 
  5.    Filter: (col1 = 1) 
  6.    Rows Removed by Filter: 9990000 
  7.  Planning time: 0.051 ms 
  8.  Execution time: 623.185 ms 
  9. (5 rows

正如你看到的那樣,planner 估計 col1 的值為 1 的行數是 9584 ,而查詢返回的實際行數是 10000 ,所以相當準確。

當你在 column 1 和 column 2 都包含過濾器時會發生什么情況。

 

  1. EXPLAIN ANALYZE SELECT * FROM tbl where col1 = 1 and col2 = 0;                             
  2.                                                 QUERY PLAN                                                 
  3. ---------------------------------------------------------------------------------------------------------- 
  4.  Seq Scan on tbl  (cost=0.00..194248.69 rows=100 width=8) (actual time=0.640..630.130 rows=10000 loops=1) 
  5.    Filter: ((col1 = 1) AND (col2 = 0)) 
  6.    Rows Removed by Filter: 9990000 
  7.  Planning time: 0.072 ms 
  8.  Execution time: 630.467 ms 
  9. (5 rows

planner 的估計減少了100倍! 讓我們試著理解為什么發生這種情況。

第一個列的選擇性約為 0.001(1/1000),第二個列的選擇性為 0.01(1/100)。 要計算將由這兩個“獨立”條件過濾的行數,planner 會將它們的選擇性相乘。 所以,我們得到:

  • 選擇性= 0.001 * 0.01 = 0.00001。

當它乘以我們在表中的行數即 10000000 時,我們得到 100。這就是 planner 對 100 的估計值的來源。 但是,這些列不是獨立的,那么我們如何告知 planner ?

在 PostgreSQL 中創建統計信息

在 Postgres 10 之前,沒有一種簡易的方式去告訴 planner 采集捕捉列之間關系的數據統計。但是, Postgres 10 有一個新特性正好解決了這個問題,可以使用 CREATE STATISTICS 來創建擴展統計的對象,告訴服務器去采集這些有意思的相關列的額外的統計信息。

函數依賴統計

回到我們先前評估的問題,col2 的值僅僅是 col1/10 。在數據庫的術語中,我們會說 col2 是函數依賴于 col1 ,也就是說,col1 的值足以決定 col2 的值,并且不存在有兩行數據擁有相同的 col1 值的同時有不同的 col2 值。因此,在 col2 列上的第二個過濾篩選并沒有移除任何行!但是,planner 捕捉到了足夠的統計信息去知道這件事情。

讓我們來創建一個統計對象去捕獲這些列和運行分析(ANALYZE)所依賴的函數統計。

 

  1. CREATE STATISTICS s1 (dependencies) on col1, col2 from tbl;  
  2. ANALYZE tbl; 

讓我們來看看現在的計劃是怎么來的。

 

  1. EXPLAIN ANALYZE SELECT * FROM tbl where col1 = 1 and col2 = 0;                             
  2.                                                 QUERY PLAN                                                  
  3. ----------------------------------------------------------------------------------------------------------- 
  4.  Seq Scan on tbl  (cost=0.00..194247.76 rows=9584 width=8) (actual time=0.638..629.741 rows=10000 loops=1) 
  5.    Filter: ((col1 = 1) AND (col2 = 0)) 
  6.    Rows Removed by Filter: 9990000 
  7.  Planning time: 0.115 ms 
  8.  Execution time: 630.076 ms 
  9. (5 rows

很好!讓我們看一下對計劃的測量。

 

  1. SELECT stxname, stxkeys, stxdependencies                                                   
  2.   FROM pg_statistic_ext                                                                    
  3.   WHERE stxname = 's1';    
  4. stxname | stxkeys |   stxdependencies     
  5. ---------+---------+---------------------- 
  6.  s1      | 1 2     | {"1 => 2": 1.000000} 
  7. (1 row) 

看這里,我們可以看到, Postgres 意識到 col1 完全決定 col2 ,因此用系數1來捕獲這些信息。現在,所有的查詢都過濾這些列之后,計劃將會得到更好的評估。

ndistinct 統計

函數依賴是你可以在列之間捕獲的一種關系。 你可以捕獲的另一種統計信息是一組列的不同值。 我們之前指出,planner 可以獲取每列不同值的統計數字,但再次合并多列時,這些統計數據往往是錯誤的。

這些不好的數據是在什么時候影響我們的呢? 下面來看一個例子。

 

  1. EXPLAIN ANALYZE SELECT col1,col2,count(*) from tbl group by col1, col2;                    
  2.                                                          QUERY PLAN                                                           
  3. ----------------------------------------------------------------------------------------------------------------------------- 
  4.  GroupAggregate  (cost=1990523.20..2091523.04 rows=100000 width=16) (actual time=2697.246..4470.789 rows=1001 loops=1) 
  5.    Group Key: col1, col2 
  6.    ->  Sort  (cost=1990523.20..2015523.16 rows=9999984 width=8) (actual time=2695.498..3440.880 rows=10000000 loops=1) 
  7.          Sort Key: col1, col2 
  8.          Sort Method: external sort  Disk: 176128kB 
  9.          ->  Seq Scan on tbl  (cost=0.00..144247.84 rows=9999984 width=8) (actual time=0.008..665.689 rows=10000000 loops=1) 
  10.  Planning time: 0.072 ms 
  11.  Execution time: 4494.583 ms 

聚合行時,Postgres 選擇做散列聚合或組合。 如果它認為散列表合適,則選擇散列聚合,否則它會選擇對所有行進行排序,然后按照 col1、col2 對它們進行分組。

現在,planner 估計組的數量(等于 col1、col2 的不同值的數量)將為 100000。它預計到它沒有足夠的 work_mem 將該散列表存儲在內存中。 因此,它使用基于磁盤的排序來運行該查詢。 但是,正如在查詢計劃中所看到的那樣,實際行數僅為 1001。也許,我們有足夠的內存來執行哈希聚合。

讓 planner 去捕獲 n_distinct 統計信息,重新運行查詢并找出結果。

 

  1. CREATE STATISTICS s2 (ndistinct) on col1, col2 from tbl;                                   
  2. ANALYZE tbl; 
  3.  
  4. EXPLAIN ANALYZE SELECT col1,col2,count(*) from tbl group by col1, col2;                    
  5.                                                       QUERY PLAN                                                        
  6. ----------------------------------------------------------------------------------------------------------------------- 
  7.  HashAggregate  (cost=219247.63..219257.63 rows=1000 width=16) (actual time=2431.767..2431.928 rows=1001 loops=1) 
  8.    Group Key: col1, col2 
  9.    ->  Seq Scan on tbl  (cost=0.00..144247.79 rows=9999979 width=8) (actual time=0.008..643.488 rows=10000000 loops=1) 
  10.  Planning time: 0.129 ms 
  11.  Execution time: 2432.010 ms 
  12. (5 rows

可以看到,現在的估算精度更高了(即 1000 ),查詢速度也提高了2倍左右。 通過運行下面的查詢,我們可以看到 planner 學到了什么。

 

  1. SELECT stxkeys AS k, stxndistinct AS nd                                                    
  2.   FROM pg_statistic_ext                                                                    
  3.   WHERE stxname = 's2';  
  4.   k  |       nd        
  5. -----+---------------- 
  6.  1 2 | {"1, 2": 1000} 

現實影響

在實際的生產模式中,你總是會有某些與數據庫不知道的相互依賴或關系的列。 以下是我們與 Citus 客戶見過的一些例子:

  • 有月份,季度和年份的列,因為你希望在報告中顯示按所有人分組的統計信息。
  • 地理層次之間的關系。 例如。 具有國家,州和城市的列,并由它們來過濾/分組。

這里的例子僅僅是在數據集中只有 10M 行的情況,并且我們已經看到,在存在相關列的情況下,使用 CREATE 統計信息可顯著改善查詢計劃,并顯示性能改進。在 Citus 使用案例中,我們有客戶存儲數十億行數據,糟糕查詢計劃的影響可能非常嚴重。在上述示例中,當 planner 選擇了一個糟糕的查詢計劃時,我們不得不為 10M 行做一個基于磁盤的分類。想象一下如果是數十億行,那會有多糟糕。

Postgres一直在變得越來越好

當我們著手構建 Citus 時,我們明確選擇了 Postgres 作為構建基礎。通過擴展 Postgres ,我們選擇了一個堅實的基礎,在每個版本迭代中變得更好。由于 Citus 是一個純粹的擴展,而不是分支,所以每個版本中出現的所有優秀新功能都可以在使用 Citus 時得到充分利用。

喜歡以上的內容嗎?

如果您有興趣閱讀我們團隊的更多文章,請注冊我們的月刊,我們會將最新內容直接發送到您的收件箱。

責任編輯:未麗燕 來源: 開源中國編譯
相關推薦

2019-11-29 16:49:42

HTML語言開發

2009-04-14 21:38:05

LinuxUbuntu技巧

2020-06-12 09:20:33

前端Blob字符串

2020-07-28 08:26:34

WebSocket瀏覽器

2018-04-26 13:33:20

Python語法Bug

2020-09-11 08:48:52

Python 3開發代碼

2024-12-17 08:33:42

2024-05-20 09:27:00

Web 開發CSS

2023-12-21 14:40:09

Python編程語言

2011-09-06 13:56:07

Vista服務器網卡

2022-03-10 09:11:33

JavaScrip開發JSON

2020-06-22 08:09:22

GitHub工具開發

2017-07-21 09:48:45

SQL索引查詢

2015-10-30 09:56:10

WiFiWiFi技術傳感

2019-04-01 06:37:12

R語言數據分析數據

2025-02-27 08:33:13

2011-09-15 17:10:41

2021-02-01 23:23:39

FiddlerCharlesWeb

2022-10-13 11:48:37

Web共享機制操作系統

2009-12-10 09:37:43

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 金莲网| 国产一区二区免费 | 成人免费视频观看 | 午夜免费小视频 | 三级黄色片在线观看 | 亚洲综合二区 | 性做久久久久久免费观看欧美 | 欧美激情国产精品 | 日日操日日干 | 欧美一区二区三区国产 | 日日噜噜噜夜夜爽爽狠狠视频, | 色屁屁在线观看 | 成人超碰在线 | 成人婷婷 | 成人污污视频 | 精精国产xxxx视频在线野外 | 亚洲国产精品一区二区三区 | 精品伊人久久 | 国产精品观看 | 波多野结衣一区二区三区 | 日韩中文在线 | 色综合一区二区 | 免费在线观看av网站 | 狠狠操狠狠操 | 不卡一区| 亚洲一区综合 | 国产精品毛片 | 中文字幕啪啪 | 久久com | 国产伦一区二区三区久久 | 久久亚洲一区 | 国产在线资源 | 久久久久久国模大尺度人体 | 国产精品亚洲精品久久 | 国产资源在线播放 | 亚洲欧美另类在线观看 | 欧美成人免费在线 | 成人三级在线观看 | 久久免费看 | 日韩成人av在线 | av网站免费观看 |