MySQL樹狀數據的數據庫設計
0 樹狀數據的分類
我們在mysql數據庫設計的時候,會遇到一種樹狀的數據。如公司下面分開數個部門,部門下面又各自分開數個科室,以此形成樹狀的數據。關于樹狀的數據,按層級數大致可分為一下兩類:
分類 | 特點 |
---|---|
固定數量層級 | 層級數量固定,每一層級都有各自的意義,如集團-分公司-部門-科室,省-市-區等 |
可變數量層級 | 層級數量不固定,前幾層級可能會有特殊含義,但整體在相當大的范圍內是浮動的 |
前者的優點在于,由于每一層級均有各自含義,數據庫的整體設計更為方便,可將某一子節點的不同上級節點均存儲在數據庫中,同樣以某集團為例:
節點code | 節點名稱 | 節點層級 | 父級節點code | 1級祖先code | 2級祖先cdoe |
---|---|---|---|---|---|
010000 | 公司1 | 1 | 000000 | null | null |
020000 | 公司2 | 1 | 000000 | null | null |
010300 | 制造部 | 2 | 010000 | 010000 | null |
010400 | 品質部 | 2 | 010000 | 010000 | null |
010301 | 前工程制造 | 3 | 010300 | 010000 | 010300 |
010303 | 組裝制造 | 3 | 010300 | 010000 | 010300 |
這樣設計的表格冗余較多,但在各種類型查詢的時候效率較高.在插入,更新(含子機構,由于業務邏輯特點,機構之間的更新一般是平行轉移),刪除(含子機構)的時候,由于冗余信息較多,數據操作時所需進行的查詢獲得也較簡單。根據情況,部分冗余信息也考慮刪去,如父級節點code,刪去一些設計必然會導致部分查詢的效率或復雜度提升,這個就需要根據實際情況來取舍平衡了。
缺點有兩個:
- 一個是當層級數量較多的時候,需要存儲大量的冗余信息.當然也可以考慮節約方案:1)不存儲像n級祖先code這樣的字段,但這樣就無法利用固定層級設計帶來的高效查詢特性,是不建議這么做的;2)n級存儲不使用code而改用id,這樣做主要是在數據遷移或者他表利用的時候不方便。
- 另一個缺點是,當需求方給出要求,需要對當前機構重新洗牌,變更層級數的時候,你會非常頭疼。
后者的優缺點則與前者的優缺點恰好相反,非固定的層級限制非常靈活,而缺點就是查詢及數據操作上兩方面的不便,這也是本文所要講述的重點,即如何設計非固定層級的樹狀數據。
1 非固定層級樹狀數據的設計方式--祖先路徑
樹狀數據最簡單的一種設計方式是,只增加父級id。但這種設計方式給查詢后代節點帶來了極大的不便,據我所知,尚沒有一種不通過函數/存儲過程這樣循環遍歷的查詢方式,來一次獲取某個節點的所有后代節點或是祖先節點。(此前找到過一個較復雜的查詢后代節點的sql,利用的也是祖先節點的id大于后代節點id的特性,但有可能存在通過更新節點使后代節點id大于祖先節點id,所以也不嚴謹,在此不進行詳述)
對于非固定層級樹狀數據的一種設計方式是:增加祖先路徑(ancestor_path),具體可參考下表:
id | 節點名稱 | 父id | 祖先路徑
- --- | --- | --- | ---
- 1 | node1 | 0 | 0,
- 2 | node2 | 0 | 0,
- 3 | node1.1 | 1 | 0,1,
- 4 | node1.2 | 1 | 0,1,
- 5 | node2.1 | 2 | 0,2,
- 6 | node1.1.1 | 3 | 0,1,3,
- 7 | node1.1.2 | 3 | 0,1,3,
- 8 | node1.2.1 | 4 | 0,1,4,
- 9 | node2.1.1 | 5 | 0,2,5,
實際設計時,還可考慮加入層級這個冗余字段,但我在實際使用的過程中很少用到這個字段。
這樣,在加了這個字段之后,任意節點的所有祖先節點信息就都可通過這樣一條數據全部獲取。
祖先路徑的設定具有以下特點:
- 沒有父節點的根節點,父id默認為'0',祖先路徑默認為'0,';
- 每增加的一個子節點,祖先路徑都是在要增加的子節點的父節點的祖先路徑上增加父id和',';參考的表結構如下:
- CREATE TABLE `t_node` (
- `node_id` int(11) NOT NULL AUTO_INCREMENT,
- `node_name` varchar(50) NOT NULL,
- `p_id` int(11) NOT NULL,
- `ancestor_path` varchar(100) NOT NULL,
- PRIMARY KEY (`node_id`)
- ) ENGINE=InnoDB AUTO_INCREMENT=10 DEFAULT CHARSET=utf8;
2 祖先路徑的查詢
設計的樹節點的查詢,主要有兩種,一種是查詢某個節點的所有后代節點(與查詢祖先節點為某個已知節點的所有節點集合是一個意思),這種也是最常用的一種查詢;一種是查詢某個節點的所有祖先節點,這種不太常用。
1. 查詢某個節點的所有后代節點 參考示例如下:
- SELECT * FROM t_node
- WHERE ancestor_path LIKE CONCAT(
- (SELECT * FROM (SELECT ancestor_path FROM t_node WHERE node_id=?)wt),
- ?,',%')
以上sql即是對id為?的某個節點的所有后代節點的查詢方式一,還可使用以下方式:
- SELECT * FROM t_node WHERE ancestor_path LIKE CONCAT('%,',?,',%')
查詢方式二的方式更加簡潔。但考慮到查詢方式一只用到了右模糊查詢,可以使用索引,所以還是建議使用方式一進行查詢。
需要注意的是以上兩種方式查到的節點集合都不包含子節點,如果需要包含該節點的信息,還需要加上
- ... OR node_id=?
2. 查詢某個節點的所有祖先節點
- SELECT * FROM t_node WHERE node_id REGEXP
- CONCAT('^(',
- REPLACE((SELECT * FROM (SELECT ancestor_path FROM t_node WHERE node_id=?) wt),',','|'),
- '0)$')
以上方式查詢祖先節點的效率確實不是很高,但考慮到該查詢本身并不用,便姑且用之了。
3 祖先路徑的插入,更新和刪除
分別分插入,更新和刪除來講:
1. 插入
- INSERT INTO t_node (node_name,p_id,ancestor_path)
- VALUE('node?',?,
- CONCAT((SELECT * FROM (SELECT ancestor_path FROM t_node WHERE node_id=?)wt),?,','))
sql中的3個?均為要加入父節點的id。
2. 更新(含子節點)
如果更新的時候,父節點的位置沒有變化,則不必考慮太多;
如果需要更新所在父節點,相比于最簡單的樹節點設計模式,增加祖先路徑的方式除了在更新當前節點本身的父id外,還需要修改對應的祖先路徑,這個步驟通過存儲過程實現,是一種比較簡單的方式,在此不再詳述。僅對不使用存儲過程的方式進行描述。
- UPDATE t_node SET p_id=?_p WHERE node_id=?_n;
- UPDATE t_node SET ancestor_path=CONCAT((SELECT * FROM(SELECT ancestor_path FROM t_node WHERE node_id=?_p)wt2),?_p,',',SUBSTR(ancestor_path,LENGTH(@PPath)+1))
- WHERE ancestor_path LIKE CONCAT((SELECT * FROM (SELECT @ppath:=ancestor_path FROM t_node WHERE node_id=?_n)wt),?_n,',%')
- OR node_id=?_n ;
其中?_n表示要修改的節點的id,?_p表示要修改的節點的新父節點的id。
注:使用該sql一定要先更新子節點的祖先路徑,再更新本節點的祖先路徑,如果是使用存儲過程的話就可以無視這一點了。
3. 刪除(含子節點)
- DELETE FROM t_node
- WHERE ancestor_path LIKE CONCAT(
- (SELECT * FROM (SELECT ancestor_path FROM t_node WHERE node_id=?)wt),
- ?,',%')
刪除的核心在于where,和獲取所有后代節點的where可以說是完全一樣的。
同樣要主要先刪除所有后代節點,再刪除本節點;
4 祖先路徑的重置
有可能你此前的某個數據庫表格沒有使用過祖先路徑,但已經積累了一定量的數據,或者之前使用了祖先路徑,但由于某種原因導致祖先路徑的一些數據更新錯誤。因為祖先路徑本質上是一個冗余字段,所以還是可以通過父id的方式將之還原重置。
以下為機構表的一個重置存儲過程,供以參考:
- CREATE DEFINER=`root`@`localhost` PROCEDURE `p_reset_organ_path`(OUT resultMark varchar(50))
- BEGIN
- /*
- 使用前的說明:
- 1.本存儲過程非客戶使用,且自己人使用頻率同樣較低,故過程更方便調試,但效率不是很高;
- 2.如果執行SELECT * FROM t_organ WHERE organ_id<parent_organ_id(即父機構產生于子機構之后)后的數據為空,則可以考慮使用分段模式(速度會快一些).
- 3.如果2中所述數據不為空,使用分段會使該id對應的機構及其子機構的ancestor_path不正確.結果為partfail.
- */
- DECLARE intACount INT(11) DEFAULT 0;
- DECLARE intPCount INT(11) DEFAULT 0;
- DECLARE intPIndex INT(11) DEFAULT 0;
- DECLARE intPOrganId INT(11) DEFAULT 0;
- DECLARE strPPath VARCHAR(100) DEFAULT '';
- DECLARE intLoopDone INT(11) DEFAULT 0;
- DECLARE intRCount INT(11) DEFAULT 0;
- DECLARE intRIndex INT(11) DEFAULT 0;
- DECLARE intROrganId INT(11) DEFAULT 0;
- DROP TABLE IF EXISTS tmp_aOrganIdList;
- CREATE TEMPORARY TABLE tmp_aOrganIdList(
- rowid INT(11) auto_increment PRIMARY KEY,
- organ_id INT(11),
- p_organ_id INT(11)
- );
- DROP TABLE IF EXISTS tmp_pOrganIdList;
- CREATE TEMPORARY TABLE tmp_pOrganIdList(
- rowid INT(11) auto_increment PRIMARY KEY,
- organ_id INT(11)
- );
- /**/
- DROP TABLE IF EXISTS tmp_cOrganIdList;
- CREATE TEMPORARY TABLE tmp_cOrganIdList(
- rowid INT(11) auto_increment PRIMARY KEY,
- organ_id INT(11)
- );
- DROP TABLE IF EXISTS tmp_rOrganIdList;
- CREATE TEMPORARY TABLE tmp_rOrganIdList(
- rowid INT(11) auto_increment PRIMARY KEY,
- organ_id INT(11),
- p_organ_id INT(11),
- ancestor_path VARCHAR(100)
- );
- INSERT INTO tmp_aOrganIdList (organ_id,p_organ_id)
- (SELECT organ_id,parent_organ_id FROM t_organ);-- 測試的時候limit: LIMIT 0,100
- INSERT INTO tmp_pOrganIdList (organ_id) VALUES (0);
- INSERT INTO tmp_rOrganIdList (organ_id,p_organ_id,ancestor_path) VALUES (0,-1,'');
- WHILE ((SELECT COUNT(1) FROM tmp_aOrganIdList)>0 AND intLoopDone=0) DO -- 持續循環,當沒有organId數據為止(如果中間機構中斷,則可能陷入死循環)
- SELECT COUNT(1) FROM tmp_pOrganIdList INTO intPCount;-- 當前父機構id的緩存區
- SET intPIndex=0;
- WHILE intPIndex<=intPCount DO -- 對每個當前查詢到的父id進行對應操作
- SELECT organ_id FROM tmp_pOrganIdList LIMIT intPIndex,1 INTO intPOrganId;
- SELECT ancestor_path FROM tmp_rOrganIdList WHERE organ_id=intPOrganId INTO strPPath;
- INSERT INTO tmp_cOrganIdList (organ_id) (SELECT organ_id FROM tmp_aOrganIdList WHERE p_organ_id=intPOrganId);-- 次級機構id的緩存區
- -- SELECT COUNT(1) FROM tmp_pOrganIdList INTO intDelCount;
- INSERT INTO tmp_rOrganIdList (organ_id,p_organ_id,ancestor_path)
- (SELECT organ_id,intPOrganId,CONCAT(strPPath,intPOrganId,',') FROM tmp_aOrganIdList WHERE p_organ_id=intPOrganId);
- DELETE FROM tmp_aOrganIdList WHERE p_organ_id=intPOrganId;
- SET intPIndex=intPIndex+1;
- END WHILE;
- DELETE FROM tmp_pOrganIdList;
- IF (SELECT COUNT(1) FROM tmp_cOrganIdList)>0 THEN
- INSERT INTO tmp_pOrganIdList (organ_id) (SELECT organ_id FROM tmp_cOrganIdList);
- DELETE FROM tmp_cOrganIdList;
- ELSE
- SET intLoopDone=1;
- END IF;
- -- SELECT * FROM tmp_pOrganIdList;
- -- SELECT COUNT(1) FROM tmp_aOrganIdList;
- -- SELECT intLoopDone;
- END WHILE;
- -- SELECT * FROM tmp_rOrganIdList;-- 想要查看測試的結果,請看此表
- SELECT COUNT(1) FROM tmp_rOrganIdList INTO intRCount;
- WHILE intRIndex<=intRCount DO
- SELECT organ_id,ancestor_path FROM tmp_rOrganIdList LIMIT intRIndex,1 INTO intROrganId,strPPath;
- UPDATE t_organ SET ancestor_path=strPPath WHERE organ_id=intROrganId;
- SET intRIndex=intRIndex+1;
- END WHILE;
- IF (SELECT COUNT(1) FROM tmp_aOrganIdList)=0 THEN
- SET resultMark='perfect';
- ELSE
- SET resultMark='partfail';
- END IF;
- END