面試官：分庫分表后如何生成全局ID？

作者：磊哥 2024-01-17 14:42:24

數據庫自增 ID 只適用于單機數據庫環境，而對于分庫、分表、數據分片來說，自增 ID 不具備唯一性，所以要要使用雪花 ID 來替代數據庫自增 ID。但雪花算法依然存在一些問題，例如時間回撥的問題。

分庫分表后就不能使用自增 ID 來作為表的主鍵了，因為數據庫自增 ID 只適用于單機環境，但如果是分布式環境，是將數據庫進行分庫、分表或數據庫分片等操作時，那么數據庫自增 ID 就會生成重復 ID，從而導致業務查詢上的問題。所以此時，可以使用 UUID 或雪花 ID 來作為全局主鍵 ID。

1、UUID作為全局ID

UUID（Universally Unique Identifier）是一種全局唯一標識符，它保證在空間和時間上的唯一性。通常由 128 位的數字組成，采用 32 位的十六進制數表示，格式為 8-4-4-4-12 這樣的 36 個字符（32 個字母數字字符和 4 個短橫線），例如 550e8400-e29b-41d4-a716-446655440000。UUID 在 Java 中的實現如下：

import java.util.UUID;

public class UUIDExample {
    public static void main(String[] args) {
        // Generate a random UUID
        UUID uuid = UUID.randomUUID();
        System.out.println("Random UUID: " + uuid);

        // Convert UUID to string
        String uuidString = uuid.toString();
        System.out.println("UUID as string: " + uuidString);

        // Convert string to UUID
        UUID parsedUuid = UUID.fromString(uuidString);
        System.out.println("Parsed UUID: " + parsedUuid);
    }
}

UUID 存在的問題

雖然 UUID 可以保證全局唯一，但并不推薦使用 UUID 來作為分庫分表后的主鍵 ID，因為 UUID 有兩個問題：

UUID 太長，且生成效率較低。
UUID 沒有任何業務含義，不連續且沒有任何順序可言。

2、雪花ID作為全局ID

雪花 ID（Snowflake ID）是一個用于分布式系統中生成唯一 ID 的算法，由 Twitter 公司提出。它的設計目標是在分布式環境下高效地生成全局唯一的 ID，具有一定的有序性。雪花 ID 的結構如下所示（共 64 位）：

這四部分代表的含義：

符號位：最高位是符號位，始終為 0，1 表示負數，0 表示正數，ID 都是正整數，所以固定為 0。
時間戳部分：由 41 位組成，精確到毫秒級。可以使用該 41 位表示的時間戳來表示的時間可以使用 69 年。
節點 ID 部分：由 10 位組成，用于表示機器節點的唯一標識符。在同一毫秒內，不同的節點生成的 ID 會有所不同。
序列號部分：由 12 位組成，用于標識同一毫秒內生成的不同 ID 序列。在同一毫秒內，可以生成 4096 個不同的 ID。

Java 版雪花算法實現

接下來，我們來實現一個 Java 版的雪花算法：

public class SnowflakeIdGenerator {

    // 定義雪花 ID 的各部分位數
    private static final long TIMESTAMP_BITS = 41L;
    private static final long NODE_ID_BITS = 10L;
    private static final long SEQUENCE_BITS = 12L;
    // 定義起始時間戳（可根據實際情況調整）
    private static final long EPOCH = 1609459200000L;
    // 定義最大取值范圍
    private static final long MAX_NODE_ID = (1L << NODE_ID_BITS) - 1;
    private static final long MAX_SEQUENCE = (1L << SEQUENCE_BITS) - 1;
    // 定義偏移量
    private static final long TIMESTAMP_SHIFT = NODE_ID_BITS + SEQUENCE_BITS;
    private static final long NODE_ID_SHIFT = SEQUENCE_BITS;
    private final long nodeId;
    private long lastTimestamp = -1L;
    private long sequence = 0L;
    public SnowflakeIdGenerator(long nodeId) {
        if (nodeId < 0 || nodeId > MAX_NODE_ID) {
            throw new IllegalArgumentException("Invalid node ID");
        }
        this.nodeId = nodeId;
    }
    public synchronized long generateId() {
        long currentTimestamp = timestamp();
        if (currentTimestamp < lastTimestamp) {
            throw new IllegalStateException("Clock moved backwards");
        }
        if (currentTimestamp == lastTimestamp) {
            sequence = (sequence + 1) & MAX_SEQUENCE;
            if (sequence == 0) {
                currentTimestamp = untilNextMillis(lastTimestamp);
            }
        } else {
            sequence = 0L;
        }
        lastTimestamp = currentTimestamp;
        return ((currentTimestamp - EPOCH) << TIMESTAMP_SHIFT) |
        (nodeId << NODE_ID_SHIFT) |
        sequence;
    }
    private long timestamp() {
        return System.currentTimeMillis();
    }
    private long untilNextMillis(long lastTimestamp) {
        long currentTimestamp = timestamp();
        while (currentTimestamp <= lastTimestamp) {
            currentTimestamp = timestamp();
        }
        return currentTimestamp;
    }
}

調用代碼如下：

public class Main {
    public static void main(String[] args) {
        // 創建一個雪花 ID 生成器實例，傳入節點 ID
        SnowflakeIdGenerator idGenerator = new SnowflakeIdGenerator(1);
        // 生成 ID
        long id = idGenerator.generateId();
        System.out.println(id);
    }
}

其中，nodeId 表示當前節點的唯一標識，可以根據實際情況進行設置。generateId 方法用于生成雪花 ID，采用同步方式確保線程安全。具體的生成邏輯遵循雪花 ID 的位運算規則，結合當前時間戳、節點 ID 和序列號生成唯一的 ID。

需要注意的是，示例中的時間戳獲取方法使用了 System.currentTimeMillis()，根據實際需要可以替換為其他更精確的時間戳獲取方式。同時，需要確保節點 ID 的唯一性，避免不同節點生成的 ID 重復。

雪花ID存在的問題

雖然雪花算法是一種被廣泛采用的分布式唯一 ID 生成算法，但它也存在以下幾個問題：

時間回撥問題：雪花算法生成的 ID 依賴于系統的時間戳，要求系統的時鐘必須是單調遞增的。如果系統的時鐘發生回撥，可能導致生成的 ID 重復。時間回撥是指系統的時鐘在某個時間點之后突然往回走（人為設置），即出現了時間上的逆流情況。
時鐘回撥帶來的可用性和性能問題：由于時間依賴性，當系統時鐘發生回撥時，雪花算法需要進行額外的處理，如等待系統時鐘追上上一次生成 ID 的時間戳或拋出異常。這種處理會對算法的可用性和性能產生一定影響。
節點 ID 依賴問題：雪花算法需要為每個節點分配唯一的節點 ID 來保證生成的 ID 的全局唯一性。節點 ID 的分配需要有一定的管理和調度，特別是在動態擴容或縮容時，節點 ID 的管理可能較為復雜。

如何解決時間回撥問題？

百度 UidGenerator 框架中解決了時間回撥的問題，并且解決方案比較經典，所以咱們這里就來給大家分享一下百度 UidGenerator 是怎么解決時間回撥問題的？

“
UidGenerator 介紹：UidGenerator 是百度開源的一個分布式唯一 ID 生成器，它是基于 Snowflake 算法的改進版本。與傳統的 Snowflake 算法相比，UidGenerator 在高并發場景下具有更好的性能和可用性。它的實現源碼在：https://github.com/baidu/uid-generator

UidGenerator 是這樣解決時間回撥問題的：UidGenerator 的每個實例中，都維護一個本地時鐘緩存，用于記錄當前時間戳。這個本地時鐘會定期與系統時鐘進行同步，如果檢測到系統時鐘往前走了（出現了時鐘回撥），則將本地時鐘調整為系統時鐘。

小結

數據庫自增 ID 只適用于單機數據庫環境，而對于分庫、分表、數據分片來說，自增 ID 不具備唯一性，所以要要使用雪花 ID 來替代數據庫自增 ID。但雪花算法依然存在一些問題，例如時間回撥的問題，所以此時，可以使用雪花算法的改進框架，如百度的 UidGenerator 來作為全局 ID 的生成方案會比較好。

責任編輯：姜華來源： Java中文社群

分庫分表數據庫數據分片

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看