浩鯨科技：為什么要用雪花ID替代數(shù)據(jù)庫(kù)自增ID？

作者：磊哥 2023-11-30 09:09:53

數(shù)據(jù)庫(kù)自增 ID 只適用于單機(jī)數(shù)據(jù)庫(kù)環(huán)境，而對(duì)于分庫(kù)、分表、數(shù)據(jù)分片來說，自增 ID 不具備唯一性，所以要要使用雪花 ID 來替代數(shù)據(jù)庫(kù)自增 ID。

今天咱們來看一道數(shù)據(jù)庫(kù)中比較經(jīng)典的面試問題：為什么要使用雪花 ID 替代數(shù)據(jù)庫(kù)自增 ID？同時(shí)這道題也出現(xiàn)在了浩鯨科技的 Java 面試中，下面我們一起來看吧。

浩鯨科技的面試題如下：

其他面試題相對(duì)來說比較簡(jiǎn)單，大部人題目都可以在我的網(wǎng)站上（www.javacn.site）找到答案，這里就不再贅述，咱們今天只聊“為什么要使用雪花 ID 替代數(shù)據(jù)庫(kù)自增 ID？”這個(gè)問題。

1、什么是雪花 ID？

雪花 ID（Snowflake ID）是一個(gè)用于分布式系統(tǒng)中生成唯一 ID 的算法，由 Twitter 公司提出。它的設(shè)計(jì)目標(biāo)是在分布式環(huán)境下高效地生成全局唯一的 ID，具有一定的有序性。

雪花 ID 的結(jié)構(gòu)如下所示：

這四部分代表的含義

符號(hào)位：最高位是符號(hào)位，始終為 0，1 表示負(fù)數(shù)，0 表示正數(shù)，ID 都是正整數(shù)，所以固定為 0。
時(shí)間戳部分：由 41 位組成，精確到毫秒級(jí)。可以使用該 41 位表示的時(shí)間戳來表示的時(shí)間可以使用 69 年。
節(jié)點(diǎn) ID 部分：由 10 位組成，用于表示機(jī)器節(jié)點(diǎn)的唯一標(biāo)識(shí)符。在同一毫秒內(nèi)，不同的節(jié)點(diǎn)生成的 ID 會(huì)有所不同。
序列號(hào)部分：由 12 位組成，用于標(biāo)識(shí)同一毫秒內(nèi)生成的不同 ID 序列。在同一毫秒內(nèi)，可以生成 4096 個(gè)不同的 ID。

2、Java 版雪花算法實(shí)現(xiàn)

接下來，我們來實(shí)現(xiàn)一個(gè) Java 版的雪花算法：

public class SnowflakeIdGenerator {
  
  // 定義雪花 ID 的各部分位數(shù)
  private static final long TIMESTAMP_BITS = 41L;
  private static final long NODE_ID_BITS = 10L;
  private static final long SEQUENCE_BITS = 12L;

  // 定義起始時(shí)間戳（可根據(jù)實(shí)際情況調(diào)整）
  private static final long EPOCH = 1609459200000L;

  // 定義最大取值范圍
  private static final long MAX_NODE_ID = (1L << NODE_ID_BITS) - 1;
  private static final long MAX_SEQUENCE = (1L << SEQUENCE_BITS) - 1;

  // 定義偏移量
  private static final long TIMESTAMP_SHIFT = NODE_ID_BITS + SEQUENCE_BITS;
  private static final long NODE_ID_SHIFT = SEQUENCE_BITS;

  private final long nodeId;
  private long lastTimestamp = -1L;
  private long sequence = 0L;

  public SnowflakeIdGenerator(long nodeId) {
    if (nodeId < 0 || nodeId > MAX_NODE_ID) {
      throw new IllegalArgumentException("Invalid node ID");
    }
    this.nodeId = nodeId;
  }

  public synchronized long generateId() {
    long currentTimestamp = timestamp();
    if (currentTimestamp < lastTimestamp) {
        throw new IllegalStateException("Clock moved backwards");
    }
    if (currentTimestamp == lastTimestamp) {
      sequence = (sequence + 1) & MAX_SEQUENCE;
      if (sequence == 0) {
        currentTimestamp = untilNextMillis(lastTimestamp);
      }
    } else {
      sequence = 0L;
    }
    lastTimestamp = currentTimestamp;
    return ((currentTimestamp - EPOCH) << TIMESTAMP_SHIFT) |
           (nodeId << NODE_ID_SHIFT) |
           sequence;
  }

  private long timestamp() {
    return System.currentTimeMillis();
  }

  private long untilNextMillis(long lastTimestamp) {
    long currentTimestamp = timestamp();
    while (currentTimestamp <= lastTimestamp) {
      currentTimestamp = timestamp();
    }
    return currentTimestamp;
  }
}

調(diào)用代碼如下：

public class Main {
  public static void main(String[] args) {
    // 創(chuàng)建一個(gè)雪花 ID 生成器實(shí)例，傳入節(jié)點(diǎn) ID
    SnowflakeIdGenerator idGenerator = new SnowflakeIdGenerator(1);
    // 生成 ID
    long id = idGenerator.generateId();
    System.out.println(id);
  }
}

其中，nodeId 表示當(dāng)前節(jié)點(diǎn)的唯一標(biāo)識(shí)，可以根據(jù)實(shí)際情況進(jìn)行設(shè)置。generateId 方法用于生成雪花 ID，采用同步方式確保線程安全。具體的生成邏輯遵循雪花 ID 的位運(yùn)算規(guī)則，結(jié)合當(dāng)前時(shí)間戳、節(jié)點(diǎn) ID 和序列號(hào)生成唯一的 ID。

“
需要注意的是，示例中的時(shí)間戳獲取方法使用了 System.currentTimeMillis()，根據(jù)實(shí)際需要可以替換為其他更精確的時(shí)間戳獲取方式。同時(shí)，需要確保節(jié)點(diǎn) ID 的唯一性，避免不同節(jié)點(diǎn)生成的 ID 重復(fù)。
”

3、雪花算法問題

雖然雪花算法是一種被廣泛采用的分布式唯一 ID 生成算法，但它也存在以下幾個(gè)問題：

時(shí)間回?fù)軉栴}：雪花算法生成的 ID 依賴于系統(tǒng)的時(shí)間戳，要求系統(tǒng)的時(shí)鐘必須是單調(diào)遞增的。如果系統(tǒng)的時(shí)鐘發(fā)生回?fù)埽赡軐?dǎo)致生成的 ID 重復(fù)。時(shí)間回?fù)苁侵赶到y(tǒng)的時(shí)鐘在某個(gè)時(shí)間點(diǎn)之后突然往回走（人為設(shè)置），即出現(xiàn)了時(shí)間上的逆流情況。
時(shí)鐘回?fù)軒淼目捎眯院托阅軉栴}：由于時(shí)間依賴性，當(dāng)系統(tǒng)時(shí)鐘發(fā)生回?fù)軙r(shí)，雪花算法需要進(jìn)行額外的處理，如等待系統(tǒng)時(shí)鐘追上上一次生成 ID 的時(shí)間戳或拋出異常。這種處理會(huì)對(duì)算法的可用性和性能產(chǎn)生一定影響。
節(jié)點(diǎn) ID 依賴問題：雪花算法需要為每個(gè)節(jié)點(diǎn)分配唯一的節(jié)點(diǎn) ID 來保證生成的 ID 的全局唯一性。節(jié)點(diǎn) ID 的分配需要有一定的管理和調(diào)度，特別是在動(dòng)態(tài)擴(kuò)容或縮容時(shí)，節(jié)點(diǎn) ID 的管理可能較為復(fù)雜。

4、如何解決時(shí)間回?fù)軉栴}？

百度 UidGenerator 框架中解決了時(shí)間回?fù)艿膯栴}，并且解決方案比較經(jīng)典，所以咱們這里就來給大家分享一下百度 UidGenerator 是怎么解決時(shí)間回?fù)軉栴}的？

“
UidGenerator 介紹：UidGenerator 是百度開源的一個(gè)分布式唯一 ID 生成器，它是基于 Snowflake 算法的改進(jìn)版本。與傳統(tǒng)的 Snowflake 算法相比，UidGenerator 在高并發(fā)場(chǎng)景下具有更好的性能和可用性。它的實(shí)現(xiàn)源碼在：https://github.com/baidu/uid-generator
”

UidGenerator 是這樣解決時(shí)間回?fù)軉栴}的：UidGenerator 的每個(gè)實(shí)例中，都維護(hù)一個(gè)本地時(shí)鐘緩存，用于記錄當(dāng)前時(shí)間戳。這個(gè)本地時(shí)鐘會(huì)定期與系統(tǒng)時(shí)鐘進(jìn)行同步，如果檢測(cè)到系統(tǒng)時(shí)鐘往前走了（出現(xiàn)了時(shí)鐘回?fù)埽瑒t將本地時(shí)鐘調(diào)整為系統(tǒng)時(shí)鐘。

5、為什么要使用雪花 ID 替代數(shù)據(jù)庫(kù)自增 ID？

數(shù)據(jù)庫(kù)自增 ID 只適用于單機(jī)環(huán)境，但如果是分布式環(huán)境，是將數(shù)據(jù)庫(kù)進(jìn)行分庫(kù)、分表或數(shù)據(jù)庫(kù)分片等操作時(shí)，那么數(shù)據(jù)庫(kù)自增 ID 就有問題了。

例如，數(shù)據(jù)庫(kù)分片之后，會(huì)在同一張業(yè)務(wù)表的分片數(shù)據(jù)庫(kù)中產(chǎn)生相同 ID（數(shù)據(jù)庫(kù)自增 ID 是由每個(gè)數(shù)據(jù)庫(kù)單獨(dú)記錄和增加的），這樣就會(huì)導(dǎo)致，同一個(gè)業(yè)務(wù)表的竟然有相同的 ID，而且相同 ID 背后存儲(chǔ)的數(shù)據(jù)又完全不同，這樣業(yè)務(wù)查詢的時(shí)候就出問題了。

所以為了解決這個(gè)問題，就必須使用分布式中能保證唯一性的雪花 ID 來替代數(shù)據(jù)庫(kù)的自增 ID。

6、擴(kuò)展：使用 UUID 替代雪花 ID 行不行？

如果單從唯一性來考慮的話，那么 UUID 和雪花 ID 的效果是一致的，二者都能保證分布式系統(tǒng)下的數(shù)據(jù)唯一性，但是即使這樣，也不建議使用 UUID 替代雪花 ID，因?yàn)檫@樣做的問題有以下兩個(gè)：

可讀性問題：UUID 內(nèi)容很長(zhǎng)，但沒有業(yè)務(wù)含義，就是一堆看不懂的“字母”。
性能問題：UUID 是字符串類型，而字符串類型在數(shù)據(jù)庫(kù)的查詢中效率很低。

所以，基于以上兩個(gè)原因，不建議使用 UUID 來替代雪花 ID。

小結(jié)

數(shù)據(jù)庫(kù)自增 ID 只適用于單機(jī)數(shù)據(jù)庫(kù)環(huán)境，而對(duì)于分庫(kù)、分表、數(shù)據(jù)分片來說，自增 ID 不具備唯一性，所以要要使用雪花 ID 來替代數(shù)據(jù)庫(kù)自增 ID。但雪花算法依然存在一些問題，例如時(shí)間回?fù)軉栴}、節(jié)點(diǎn)過度依賴問題等，所以此時(shí)，可以使用雪花算法的改進(jìn)框架，如百度的 UidGenerator 來作為數(shù)據(jù)庫(kù)的 ID 生成方案會(huì)比較好。

責(zé)任編輯：姜華來源： Java中文社群