成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

MySQL中Join的那些事

作者：黎杜 2021-08-11 21:46:47

數據庫 MySQL

Mysql的join主要涉及到三種算法，分別是Simple Nested-Loop Join、Block Nested-Loop Join、Index Nested-Loop Join，下面我們就來深入的了解這三種算法的原理、區別、效率。

大家好，我是黎杜，上一期我們聊了Mysql的索引篇，這一期，我們來聊一聊Mysql中的join原理，join用法基本工作過的都會用，不管是left join、right join、inner join語法都是比較簡單的。

但是，join的原理確實博大精深，對于一些傳統it企業，幾乎是一句sql走天下，join了五六個表，當數據量上來的時候，就會變得非常慢，索引對于掌握join的優化還是非常有必要的。

阿里的開發手冊中規定join不能查過三個，有些互聯網是明確規定不能使用join的的明文規定，那么在實際的場景中，我們真的不能使用join嗎?我們就來詳細的聊一聊。

Mysql的join主要涉及到三種算法，分別是Simple Nested-Loop Join、Block Nested-Loop Join、Index Nested-Loop Join，下面我們就來深入的了解這三種算法的原理、區別、效率。

首先，為了測試先準備兩個表作為測試表，并且使用存儲過程初始化一些測試數據，初始化的表結構sql如下所示：

CREATE TABLE `testa` ( 
  `id` int(20) NOT NULL AUTO_INCREMENT COMMENT '活動主鍵', 
  `col1` int(20) NOT NULL DEFAULT '0' COMMENT '測試字段1', 
  `col2` int(20) NOT NULL DEFAULT '0' COMMENT '測試字段2', 
  PRIMARY KEY (`id`), 
  KEY `col1` (`idx_col1`) 
)ENGINE=InnoDB AUTO_INCREMENT=782 DEFAULT CHARSET=utf8mb4 COMMENT='測試表1'; 
 
 
CREATE TABLE `testb` ( 
  `id` int(20) NOT NULL AUTO_INCREMENT COMMENT '活動主鍵', 
  `col1` int(20) NOT NULL DEFAULT '0' COMMENT '測試字段1', 
  `col2` int(20) NOT NULL DEFAULT '0' COMMENT '測試字段2', 
  PRIMARY KEY (`id`), 
  KEY `col1` (`idx_col1`) 
) ENGINE=InnoDB AUTO_INCREMENT=782 DEFAULT CHARSET=utf8mb4 COMMENT='測試表2';

初始化數據：

CREATE DEFINER = `root` @`localhost` PROCEDURE `init_data` ()  
 
BEGIN 
 DECLARE i INT; 
  
 SET i = 1; 
 WHILE ( i <= 100 ) DO 
   INSERT INTO testa VALUES ( i, i, i ); 
  SET i = i + 1; 
 END WHILE; 
  
 SET i = 1; 
 WHILE ( i <= 2000) DO 
   INSERT INTO test2 VALUES ( i, i, i ); 
  SET i = i + 1; 
 END WHILE; 
 
END

分別初始化testa表為100條數據，testb為2000條數據

Simple Nested-Loop Join

首先，我們執行如下sql：

select * from testa ta left join testb tb on (ta.col1=tb.col2);

Simple Nested-Loop Join是最簡單也是最粗暴的join方法，上面的sql在testb 的col2字段是沒有加索引的，所以當testa為驅動表，testb為被驅動表時，就會拿著testa的每一行，然后去testb的全表掃描，執行流程如下：

從表testa中取出一行數據，記為ta。
從ta中取出col1字段去testb中全表掃描查詢。
找到testb中滿足情況的數據與ta組成結果集返回。
重復執行1-3步驟，直到把testa表的所有數據都取完。

因此掃描的時間復雜度就是100*2000=20W的行數，所以在被驅動表關聯字段沒有添加索引的時候效率就非常的低下。

假如testb是百萬數據以上，那么掃描的時間復雜度就更恐怖了，但是在Mysql中沒有使用這個算法，而是使用了另一種算法Block Nested-Loop Join，目的就是為了優化驅動表沒有索引時的查詢。

Block Nested-Loop Join

還是上面的sql，不過通過加explain關鍵字來查看這條sql的執行計劃：

explain select * from testa ta left join testb tb on (ta.col1=tb.col2);

可以看到testb依舊是全表掃描，并且在Extra字段中可以看到testb的Using join buffer(hash join)的字樣，在rows中可以看到總掃描的行數是驅動表行數+被驅動表行數，那么這個算法與Simple Nested-Loop Join有什么區別呢?

Block Nested-Loop Join算法中引入了join buffer區域，而join buffer是一塊內存區域，它的大小由join_buffer_size參數大小控制，默認大小是256k：

在執行上面的sql的時候，它會把testa表的數據全部加載到join buffer區域，因為join buffer是內存操作，因此相對于比上面的simple算法要高效，具體的執行流程如下：

首先把testa表的所有數據都加在到join buffer里面，這里的所有數據是select后面的testa的字段，因為這里是select *，所以就是加載所有的testa字段。
然后遍歷的取testb表中的每一行數據，并且與join buffer里面的數據濟寧對比，符合條件的，就作為結果集返回。

具體的流程圖如下所示：

所以，從上面的執行的步驟來看(假設驅動表的行數為N，被驅動表的行數據為M)，Block Nested-Loop Join的掃描的行數還是驅動表+被驅動表行數(N+M)，在內存中總的比較次數還是驅動表*被驅動表行數(N*M)

上面我們提到join buffer是一塊內存區域，并且有自己的大小，要是join buffer的大小不足夠容納驅動表的數量級怎么辦呢?

答案就是分段，你要是join buffer沒辦法容納驅動表的所有數據，那么就不把所有的數據加載到join buffer里面，先加載一部分，后面再加載另一部分，比如：先加載testa中的80條數據，與testb比較完數據后，清空再加載testa后20條數據，再與testb進行比較。具體執行流程如下：

先加載testa中的80條數據到join buffer
然后一次遍歷testb的所有數據，與join buffer里面的數據進行比較，符合條件的組成結果集。
清空join buffer，再加載testa后面的20條數據。
然后一次遍歷testb的所有數據，與join buffer里面的數據進行比較，符合條件的組成結果集并返回。

執行流程圖如下所示：

從上面的結果來看相對于比內存足夠的join buffer來說，分段的join buffer多了一遍全表全表遍歷testb，并且分的段數越多，多掃描驅動表的次數就越多。，性能就越差，所以在某一些場景下，適當的增大join buffer的值，是能夠提高join的效率。

假如驅動表的行數是N，分段參數為K，被驅動表的行數是M，那么總的掃描行數還是N+K*M，而內存比較的次數還是N*M，沒有變。

其中K段數與N的數據量有關，若是N的數據量越大，那么可能K被分成段數就越多，這樣多次重復掃描的被驅動表的次數就越多。

所以在join buffer不夠的情況小，驅動表是越小越好，能夠減少K值，減少重復掃描被驅動表的次數。這也就是為什么提倡小表要作為驅動表的原因。

那么這里提到小表的概念，是不是就是數據量少的就是認為是小表呢?其實不然，小表的真正的還是是實際參與join的數據量，比如以下的兩條sql：

select * from testa ta left join testb tb on (ta.col1=tb.col2) where tb.id<=20; 
select * from testb tb left join testa ta on (ta.col1=tb.col2) where tb.id<=20;

在第二條sql中，雖然testb驅動表數據量比較大，但是在where條件中實際參與join的行數也就是id小于等于20的數據，完全小于testa的數據量，所以這里選擇以testb作為驅動表是更加的合適。

在實際的開發中Block Nested-Loop Join也是嚴禁被禁止出現的，嚴格要求關聯條件建索引，所以性能最好的就是Index Nested-Loop Join算法。

Index Nested-Loop Join

當我們執行如下sql時：

select * from testa ta left join testb tb on (ta.col1=tb.col1);

它的執行流程如下：

首先取testa表的一行數據。
使用上面的行數據的col1字段去testb表進行查詢。
在testb找到符合條件的數據行，并與testa的數據行組合作為結果集。
重復執行1-3步驟，直到取完testa表的所有數據。

因為testb的col1字段是建立了索引，所以，當使用testa表的字段col1去testb查找的時候，testb走的是col1索引的b+樹的搜索，時間復雜度近似log2M，并且因為是select*，也就是要查找testb的所有字段，所以這里也涉及到回表查詢，因此就變成了2*log2M，若是不懂回表的，可以參考這一篇文章：十萬個為什么，精通Mysql索引

在這個過程中，testa表的掃描行數是全部，所以需要掃描100行，然后testa的每一行都與testb也是一一對應的，所以col1索引查詢掃描的行數也是100行，所以總的掃描行數就是200行。

我們假設驅動表的數據行位N，被驅動表的數據行為M，那么近似的復雜度為：N+N*2*log M，因為驅動表的掃描行數就是N，然后被驅動表因為每一次都對應驅動表的一次，并且一次的時間復雜度就是近似2*log M，所以被驅動表就是N*2*log M。

明顯N的值對于N+N*2*log M的結果值影響更大，所以N越小越好，所以選擇小表作為驅動表是最優選擇。

在一些情況下的優化，假如join的驅動表所需要的字段很少(兩個)，可以建立聯合索引來優化join查詢，并且如果業務允許的話，可以通過冗余字段，減少join的個數提高查詢的效率。

好了，這一期就分享join的原理，以及join一些優化的手段和注意的事項，我們下一期見。

本文轉載自微信公眾號「黎杜編程」，可以通過以下二維碼關注。轉載本文請聯系黎杜編程公眾號。

責任編輯：武曉燕來源：黎杜編程

MySQL 索引 join

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：亚洲三区在线观看 | 视频一区在线观看 | 99精品在线观看 | 青青草在线视频免费观看 | 免费观看av网站 | 中文字幕一区在线观看视频 | 亚洲一区中文字幕在线观看 | 欧洲一区二区三区 | 国产农村妇女精品一二区 | 亚洲日韩中文字幕一区 | 日本不卡一二三 | 亚洲国产精品久久 | 日本久久精品视频 | 国产乱码精品一区二区三区忘忧草 | 狠狠亚洲| 亚洲精品久久久久久久久久久久久 | 精国产品一区二区三区四季综 | 午夜爱爱毛片xxxx视频免费看 | 亚洲免费视频一区二区 | 国产中文一区二区三区 | 国产探花在线精品一区二区 | 久久久精品影院 | 91成人精品 | 性色av香蕉一区二区 | 亚州无限乱码 | 91一区二区三区 | 仙人掌旅馆在线观看 | 中国黄色在线视频 | 午夜精品久久久久久久久久久久久 | 91精品久久久久久久久久入口 | 久久久综合精品 | 精品成人一区二区 | 日韩三级免费观看 | 超碰人人艹 | 成人精品一区二区户外勾搭野战 | 成人免费网站www网站高清 | www.久久久.com | 黄色一级片aaa | 欧美激情久久久 | 国产精品一区二区在线免费观看 | 欧美成人精品一区二区男人看 |