數據庫中間件 MyCAT源碼分析 —— 跨庫兩表Join

作者：芋艿V 2017-07-18 17:07:40

數據庫

MyCAT 支持跨庫表 Join，目前版本僅支持跨庫兩表 Join。雖然如此，已經能夠滿足我們大部分的業務場景。況且，Join 過多的表可能帶來的性能問題也是很麻煩的。

1. 概述

本文主要分享：

整體流程、調用順序圖
核心代碼的分析

前置閱讀：《MyCAT 源碼分析 —— 【單庫單表】查詢》。

OK，Let's Go。

2. 主流程

當執行跨庫兩表 Join SQL 時，經歷的大體流程如下：

SQL 上，需要添加注解 /*!mycat:catlet=io.mycat.catlets.ShareJoin */ ${SQL} 。RouteService#route(...) 解析注解 mycat:catlet 后，路由給 HintCatletHandler 作進一步處理。

HintCatletHandler 獲取注解對應的 Catlet 實現類，io.mycat.catlets.ShareJoin 就是其中一種實現(目前也只有這一種實現)，提供了跨庫兩表 Join 的功能。從類命名上看，ShareJoin 很大可能性后續會提供完整的跨庫多表的 Join 功能。

核心代碼如下：

// HintCatletHandler.java 
public RouteResultset route(SystemConfig sysConfig, SchemaConfig schema, 
                           int sqlType, String realSQL, String charset, ServerConnection sc, 
                           LayerCachePool cachePool, String hintSQLValue, int hintSqlType, Map hintMap) 
       throws SQLNonTransientException { 
   String cateletClass = hintSQLValue; 
   if (LOGGER.isDebugEnabled()) { 
       LOGGER.debug("load catelet class:" + hintSQLValue + " to run sql " + realSQL); 
   } 
   try { 
       Catlet catlet = (Catlet) MycatServer.getInstance().getCatletClassLoader().getInstanceofClass(cateletClass); 
       catlet.route(sysConfig, schema, sqlType, realSQL, charset, sc, cachePool); 
       catlet.processSQL(realSQL, new EngineCtx(sc.getSession2())); 
   } catch (Exception e) { 
       LOGGER.warn("catlet error " + e); 
       throw new SQLNonTransientException(e); 
   } 
   return null; 
}

3. ShareJoin

目前支持跨庫兩表 Join。ShareJoin 將 SQL 拆分成左表 SQL 和右表 SQL，發送給各數據節點執行，匯總數據結果進行合后返回。

偽代碼如下：

// SELECT u.id, o.id FROM t_order o  
// INNER JOIN t_user u ON o.uid = u.id 
// 【順序】查詢左表 
String leftSQL = "SELECT o.id, u.id FROM t_order o"; 
List leftList = dn[0].select(leftSQL) + dn[1].select(leftSQL) + ... + dn[n].select(leftsql); 
// 【并行】查詢右表 
String rightSQL = "SELECT u.id FROM t_user u WHERE u.id IN (${leftList.uid})"; 
for (dn : dns) { // 此處是并行執行，使用回調邏輯 
    for (rightRecord : dn.select(rightSQL)) { // 查詢右表 
        // 合并結果 
        for (leftRecord : leftList) { 
            if (leftRecord.uid == rightRecord.id) { 
                write(leftRecord + leftRecord.uid 拼接結果); 
            } 
        } 
    } 
}

實際情況會更加復雜，我們接下來一點點往下看。

3.1 JoinParser

JoinParser 負責對 SQL 進行解析。整體流程如下：

舉個例子，/*!mycat:catlet=io.mycat.catlets.ShareJoin */ SELECT o.id, u.username from t_order o join t_user u on o.uid = u.id; 解析后，TableFilter 結果如下：

tName ：表名
tAlia ：表自定義命名
where ：過濾條件
order ：排序條件
parenTable ：左連接的 Join 的表名。t_user表在 join屬性的 parenTable 為 "o"，即 t_order。
joinParentkey ：左連接的 Join 字段
joinKey ：join 字段。t_user表在 join屬性為 id。
join ：子 tableFilter。即，該表連接的右邊的表。
parent ：和 join屬性相對。

看到此處，大家可能有疑問，為什么要把 SQL 解析成 TableFilter。JoinParser 根據 TableFilter 生成數據節點執行 SQL。代碼如下：

// TableFilter.java 
public String getSQL() { 
   String sql = ""; 
   // fields 
   for (Entry<String, String> entry : fieldAliasMap.entrySet()) { 
       String key = entry.getKey(); 
       String val = entry.getValue(); 
       if (val == null) { 
           sql = unionsql(sql, getFieldfrom(key), ","); 
       } else { 
           sql = unionsql(sql, getFieldfrom(key) + " as " + val, ","); 
       } 
   } 
   // where 
   if (parent == null) {    // on/where 等于號左邊的表 
       String parentJoinKey = getJoinKey(true); 
       // fix sharejoin bug： 
       // (AbstractConnection.java:458) -close connection,reason:program err:java.lang.IndexOutOfBoundsException: 
       // 原因是左表的select列沒有包含 join 列，在獲取結果時報上面的錯誤 
       if (sql != null && parentJoinKey != null && 
               !sql.toUpperCase().contains(parentJoinKey.trim().toUpperCase())) { 
           sql += ", " + parentJoinKey; 
       } 
       sql = "select " + sql + " from " + tName; 
       if (!(where.trim().equals(""))) { 
           sql += " where " + where.trim(); 
       } 
   } else {    // on/where 等于號右邊邊的表 
       if (allField) { 
           sql = "select " + sql + " from " + tName; 
       } else { 
           sql = unionField("select " + joinKey, sql, ","); 
           sql = sql + " from " + tName; 
           //sql="select "+joinKey+","+sql+" from "+tName; 
       } 
       if (!(where.trim().equals(""))) { 
           sql += " where " + where.trim() + " and (" + joinKey + " in %s )"; 
       } else { 
           sql += " where " + joinKey + " in %s "; 
       } 
   } 
   // order 
   if (!(order.trim().equals(""))) { 
       sql += " order by " + order.trim(); 
   } 
   // limit 
   if (parent == null) { 
       if ((rowCount > 0) && (offset > 0)) { 
           sql += " limit" + offset + "," + rowCount; 
       } else { 
           if (rowCount > 0) { 
               sql += " limit " + rowCount; 
           } 
       } 
   } 
   return sql; 
}

當 parent 為空時，即on/where 等于號左邊的表。例如：select id, uid from t_order。
當 parent 不為空時，即on/where 等于號右邊的表。例如：select id, username from t_user where id in (1, 2, 3)。

3.2 ShareJoin.processSQL(...)

當 SQL 解析完后，生成左邊的表執行的 SQL，發送給對應的數據節點查詢數據。大體流程如下：

當 SQL 為 /*!mycat:catlet=io.mycat.catlets.ShareJoin */ SELECT o.id, u.username from t_order o join t_user u on o.uid = u.id; 時， sql = getSql() 的返回結果為 select id, uid from t_order。

生成左邊的表執行的 SQL 后，順序順序順序發送給對應的數據節點查詢數據。具體順序查詢是怎么實現的，我們來看下章 BatchSQLJob。

3.3 BatchSQLJob

EngineCtx 對 BatchSQLJob 封裝，提供上層兩個方法：

executeNativeSQLSequnceJob ：順序(非并發)在每個數據節點執行SQL任務
executeNativeSQLParallJob ：并發在每個數據節點執行SQL任務

核心代碼如下：

// EngineCtx.java 
public void executeNativeSQLSequnceJob(String[] dataNodes, String sql, 
        SQLJobHandler jobHandler) { 
    for (String dataNode : dataNodes) { 
        SQLJob job = new SQLJob(jobId.incrementAndGet(), sql, dataNode, 
                jobHandler, this); 
        bachJob.addJob(job, false); 
    } 
} 
 
public void executeNativeSQLParallJob(String[] dataNodes, String sql, 
        SQLJobHandler jobHandler) { 
    for (String dataNode : dataNodes) { 
        SQLJob job = new SQLJob(jobId.incrementAndGet(), sql, dataNode, 
                jobHandler, this); 
        bachJob.addJob(job, true); 
    } 
}

BatchSQLJob 通過執行中任務列表、待執行任務列表來實現順序/并發執行任務。核心代碼如下：

// BatchSQLJob.java 
/** 
* 執行中任務列表 
*/ 
private ConcurrentHashMap<Integer, SQLJob> runningJobs = new ConcurrentHashMap<Integer, SQLJob>(); 
/** 
* 待執行任務列表 
*/ 
private ConcurrentLinkedQueue<SQLJob> waitingJobs = new ConcurrentLinkedQueue<SQLJob>(); 
 
public void addJob(SQLJob newJob, boolean parallExecute) { 
   if (parallExecute) { 
       runJob(newJob); 
   } else { 
       waitingJobs.offer(newJob); 
       if (runningJobs.isEmpty()) { // 若無正在執行中的任務，則從等待隊列里獲取任務進行執行。 
           SQLJob job = waitingJobs.poll(); 
           if (job != null) { 
               runJob(job); 
           } 
       } 
   } 
} 
 
public boolean jobFinished(SQLJob sqlJob) { 
    runningJobs.remove(sqlJob.getId()); 
    SQLJob job = waitingJobs.poll(); 
    if (job != null) { 
        runJob(job); 
        return false; 
    } else { 
        if (noMoreJobInput) { 
            return runningJobs.isEmpty() && waitingJobs.isEmpty(); 
        } else { 
            return false; 
        } 
    } 
}

順序執行時，當 runningJobs 存在執行中的任務時，#addJob(...) 時，不立即執行，添加到 waitingJobs。當 SQLJob 完成時，順序調用下一個任務。
并發執行時，#addJob(...) 時，立即執行。

SQLJob SQL 異步執行任務。其 jobHandler(SQLJobHandler) 屬性，在 SQL 執行有返回結果時，會進行回調，從而實現異步執行。

在 ShareJoin 里，SQLJobHandler 有兩個實現：ShareDBJoinHandler、ShareRowOutPutDataHandler。前者，左邊的表執行的 SQL 回調;后者，右邊的表執行的 SQL 回調。

3.4 ShareDBJoinHandler

ShareDBJoinHandler，左邊的表執行的 SQL 回調。流程如下：

#fieldEofResponse(...) ：接收數據節點返回的 fields，放入內存。
#rowResponse(...) ：接收數據節點返回的 row，放入內存。
#rowEofResponse(...) ：接收完一個數據節點返回所有的 row。當所有數據節點都完成 SQL 執行時，提交右邊的表執行的 SQL 任務，并行執行，即圖中#createQryJob(...)。

當 SQL 為 /*!mycat:catlet=io.mycat.catlets.ShareJoin */ SELECT o.id, u.username from t_order o join t_user u on o.uid = u.id; 時， sql = getChildSQL() 的返回結果為 select id, username from t_user where id in (1, 2, 3)。

核心代碼如下：

// ShareJoin.java 
private void createQryJob(int batchSize) { 
   int count = 0; 
   Map<String, byte[]> batchRows = new ConcurrentHashMap<String, byte[]>(); 
   String theId = null; 
   StringBuilder sb = new StringBuilder().append('('); 
   String svalue = ""; 
   for (Map.Entry<String, String> e : ids.entrySet()) { 
       theId = e.getKey(); 
       byte[] rowbyte = rows.remove(theId); 
       if (rowbyte != null) { 
           batchRows.put(theId, rowbyte); 
       } 
       if (!svalue.equals(e.getValue())) { 
           if (joinKeyType == Fields.FIELD_TYPE_VAR_STRING 
                   || joinKeyType == Fields.FIELD_TYPE_STRING) { // joinkey 為varchar 
               sb.append("'").append(e.getValue()).append("'").append(','); // ('digdeep','yuanfang') 
           } else { // 默認joinkey為int/long 
               sb.append(e.getValue()).append(','); // (1,2,3) 
           } 
       } 
       svalue = e.getValue(); 
       if (count++ > batchSize) { 
           break; 
       } 
   } 
   if (count == 0) { 
       return; 
   } 
   jointTableIsData = true; 
   sb.deleteCharAt(sb.length() - 1).append(')'); 
   String sql = String.format(joinParser.getChildSQL(), sb); 
   getRoute(sql); 
   ctx.executeNativeSQLParallJob(getDataNodes(), sql, new ShareRowOutPutDataHandler(this, fields, joinindex, joinParser.getJoinRkey(), batchRows, ctx.getSession())); 
}

3.5 ShareRowOutPutDataHandler

ShareRowOutPutDataHandler，右邊的表執行的 SQL 回調。流程如下：

#fieldEofResponse(...) ：接收數據節點返回的 fields，返回 header 給 MySQL Client。
#rowResponse(...) ：接收數據節點返回的 row，匹配左表的記錄，返回合并后返回的 row 給 MySQL Client。
#rowEofResponse(...) ：當所有 row 都返回完后，返回 eof 給 MySQL Client。

核心代碼如下：

// ShareRowOutPutDataHandler.java 
public boolean onRowData(String dataNode, byte[] rowData) { 
   RowDataPacket rowDataPkgold = ResultSetUtil.parseRowData(rowData, bfields); 
   //拷貝一份batchRows 
   Map<String, byte[]> batchRowsCopy = new ConcurrentHashMap<String, byte[]>(); 
   batchRowsCopy.putAll(arows); 
   // 獲取Id字段， 
   String id = ByteUtil.getString(rowDataPkgold.fieldValues.get(joinR)); 
   // 查找ID對應的A表的記錄 
   byte[] arow = getRow(batchRowsCopy, id, joinL); 
   while (arow != null) { 
       RowDataPacket rowDataPkg = ResultSetUtil.parseRowData(arow, afields);//ctx.getAllFields()); 
       for (int i = 1; i < rowDataPkgold.fieldCount; i++) { 
           // 設置b.name 字段 
           byte[] bname = rowDataPkgold.fieldValues.get(i); 
           rowDataPkg.add(bname); 
           rowDataPkg.addFieldCount(1); 
       } 
       // huangyiming add 
       MiddlerResultHandler middlerResultHandler = session.getMiddlerResultHandler(); 
       if (null == middlerResultHandler) { 
           ctx.writeRow(rowDataPkg); 
       } else { 
           if (middlerResultHandler instanceof MiddlerQueryResultHandler) { 
               byte[] columnData = rowDataPkg.fieldValues.get(0); 
               if (columnData != null && columnData.length > 0) { 
                   String rowValue = new String(columnData); 
                   middlerResultHandler.add(rowValue); 
               } 
               //} 
           } 
 
       } 
       arow = getRow(batchRowsCopy, id, joinL); 
   } 
   return false; 
}

4. 彩蛋

如下是本文涉及到的核心類，有興趣的同學可以翻一翻。

ShareJoin 另外不支持的功能：

只支持 inner join，不支持 left join、right join 等等連接。
不支持 order by。
不支持 group by 以及相關聚合函數。
即使 join 左表的字段未聲明為返回 fields 也會返回。

恩，MyCAT 弱XA 源碼繼續走起!

責任編輯：龐桂玉來源：芋艿V的博客

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據庫中間件 MyCAT源碼分析 —— 跨庫兩表Join