浩鯨科技:為什么要用雪花ID替代數(shù)據(jù)庫(kù)自增ID?
今天咱們來看一道數(shù)據(jù)庫(kù)中比較經(jīng)典的面試問題:為什么要使用雪花 ID 替代數(shù)據(jù)庫(kù)自增 ID?同時(shí)這道題也出現(xiàn)在了浩鯨科技的 Java 面試中,下面我們一起來看吧。
浩鯨科技的面試題如下:
其他面試題相對(duì)來說比較簡(jiǎn)單,大部人題目都可以在我的網(wǎng)站上(www.javacn.site)找到答案,這里就不再贅述,咱們今天只聊“為什么要使用雪花 ID 替代數(shù)據(jù)庫(kù)自增 ID?”這個(gè)問題。
1、什么是雪花 ID?
雪花 ID(Snowflake ID)是一個(gè)用于分布式系統(tǒng)中生成唯一 ID 的算法,由 Twitter 公司提出。它的設(shè)計(jì)目標(biāo)是在分布式環(huán)境下高效地生成全局唯一的 ID,具有一定的有序性。
雪花 ID 的結(jié)構(gòu)如下所示:
這四部分代表的含義
- 符號(hào)位:最高位是符號(hào)位,始終為 0,1 表示負(fù)數(shù),0 表示正數(shù),ID 都是正整數(shù),所以固定為 0。
- 時(shí)間戳部分:由 41 位組成,精確到毫秒級(jí)。可以使用該 41 位表示的時(shí)間戳來表示的時(shí)間可以使用 69 年。
- 節(jié)點(diǎn) ID 部分:由 10 位組成,用于表示機(jī)器節(jié)點(diǎn)的唯一標(biāo)識(shí)符。在同一毫秒內(nèi),不同的節(jié)點(diǎn)生成的 ID 會(huì)有所不同。
- 序列號(hào)部分:由 12 位組成,用于標(biāo)識(shí)同一毫秒內(nèi)生成的不同 ID 序列。在同一毫秒內(nèi),可以生成 4096 個(gè)不同的 ID。
2、Java 版雪花算法實(shí)現(xiàn)
接下來,我們來實(shí)現(xiàn)一個(gè) Java 版的雪花算法:
public class SnowflakeIdGenerator {
// 定義雪花 ID 的各部分位數(shù)
private static final long TIMESTAMP_BITS = 41L;
private static final long NODE_ID_BITS = 10L;
private static final long SEQUENCE_BITS = 12L;
// 定義起始時(shí)間戳(可根據(jù)實(shí)際情況調(diào)整)
private static final long EPOCH = 1609459200000L;
// 定義最大取值范圍
private static final long MAX_NODE_ID = (1L << NODE_ID_BITS) - 1;
private static final long MAX_SEQUENCE = (1L << SEQUENCE_BITS) - 1;
// 定義偏移量
private static final long TIMESTAMP_SHIFT = NODE_ID_BITS + SEQUENCE_BITS;
private static final long NODE_ID_SHIFT = SEQUENCE_BITS;
private final long nodeId;
private long lastTimestamp = -1L;
private long sequence = 0L;
public SnowflakeIdGenerator(long nodeId) {
if (nodeId < 0 || nodeId > MAX_NODE_ID) {
throw new IllegalArgumentException("Invalid node ID");
}
this.nodeId = nodeId;
}
public synchronized long generateId() {
long currentTimestamp = timestamp();
if (currentTimestamp < lastTimestamp) {
throw new IllegalStateException("Clock moved backwards");
}
if (currentTimestamp == lastTimestamp) {
sequence = (sequence + 1) & MAX_SEQUENCE;
if (sequence == 0) {
currentTimestamp = untilNextMillis(lastTimestamp);
}
} else {
sequence = 0L;
}
lastTimestamp = currentTimestamp;
return ((currentTimestamp - EPOCH) << TIMESTAMP_SHIFT) |
(nodeId << NODE_ID_SHIFT) |
sequence;
}
private long timestamp() {
return System.currentTimeMillis();
}
private long untilNextMillis(long lastTimestamp) {
long currentTimestamp = timestamp();
while (currentTimestamp <= lastTimestamp) {
currentTimestamp = timestamp();
}
return currentTimestamp;
}
}
調(diào)用代碼如下:
public class Main {
public static void main(String[] args) {
// 創(chuàng)建一個(gè)雪花 ID 生成器實(shí)例,傳入節(jié)點(diǎn) ID
SnowflakeIdGenerator idGenerator = new SnowflakeIdGenerator(1);
// 生成 ID
long id = idGenerator.generateId();
System.out.println(id);
}
}
其中,nodeId 表示當(dāng)前節(jié)點(diǎn)的唯一標(biāo)識(shí),可以根據(jù)實(shí)際情況進(jìn)行設(shè)置。generateId 方法用于生成雪花 ID,采用同步方式確保線程安全。具體的生成邏輯遵循雪花 ID 的位運(yùn)算規(guī)則,結(jié)合當(dāng)前時(shí)間戳、節(jié)點(diǎn) ID 和序列號(hào)生成唯一的 ID。
“
需要注意的是,示例中的時(shí)間戳獲取方法使用了 System.currentTimeMillis(),根據(jù)實(shí)際需要可以替換為其他更精確的時(shí)間戳獲取方式。同時(shí),需要確保節(jié)點(diǎn) ID 的唯一性,避免不同節(jié)點(diǎn)生成的 ID 重復(fù)。
”
3、雪花算法問題
雖然雪花算法是一種被廣泛采用的分布式唯一 ID 生成算法,但它也存在以下幾個(gè)問題:
- 時(shí)間回?fù)軉栴}:雪花算法生成的 ID 依賴于系統(tǒng)的時(shí)間戳,要求系統(tǒng)的時(shí)鐘必須是單調(diào)遞增的。如果系統(tǒng)的時(shí)鐘發(fā)生回?fù)埽赡軐?dǎo)致生成的 ID 重復(fù)。時(shí)間回?fù)苁侵赶到y(tǒng)的時(shí)鐘在某個(gè)時(shí)間點(diǎn)之后突然往回走(人為設(shè)置),即出現(xiàn)了時(shí)間上的逆流情況。
- 時(shí)鐘回?fù)軒淼目捎眯院托阅軉栴}:由于時(shí)間依賴性,當(dāng)系統(tǒng)時(shí)鐘發(fā)生回?fù)軙r(shí),雪花算法需要進(jìn)行額外的處理,如等待系統(tǒng)時(shí)鐘追上上一次生成 ID 的時(shí)間戳或拋出異常。這種處理會(huì)對(duì)算法的可用性和性能產(chǎn)生一定影響。
- 節(jié)點(diǎn) ID 依賴問題:雪花算法需要為每個(gè)節(jié)點(diǎn)分配唯一的節(jié)點(diǎn) ID 來保證生成的 ID 的全局唯一性。節(jié)點(diǎn) ID 的分配需要有一定的管理和調(diào)度,特別是在動(dòng)態(tài)擴(kuò)容或縮容時(shí),節(jié)點(diǎn) ID 的管理可能較為復(fù)雜。
4、如何解決時(shí)間回?fù)軉栴}?
百度 UidGenerator 框架中解決了時(shí)間回?fù)艿膯栴},并且解決方案比較經(jīng)典,所以咱們這里就來給大家分享一下百度 UidGenerator 是怎么解決時(shí)間回?fù)軉栴}的?
“
UidGenerator 介紹:UidGenerator 是百度開源的一個(gè)分布式唯一 ID 生成器,它是基于 Snowflake 算法的改進(jìn)版本。與傳統(tǒng)的 Snowflake 算法相比,UidGenerator 在高并發(fā)場(chǎng)景下具有更好的性能和可用性。它的實(shí)現(xiàn)源碼在:https://github.com/baidu/uid-generator
”
UidGenerator 是這樣解決時(shí)間回?fù)軉栴}的:UidGenerator 的每個(gè)實(shí)例中,都維護(hù)一個(gè)本地時(shí)鐘緩存,用于記錄當(dāng)前時(shí)間戳。這個(gè)本地時(shí)鐘會(huì)定期與系統(tǒng)時(shí)鐘進(jìn)行同步,如果檢測(cè)到系統(tǒng)時(shí)鐘往前走了(出現(xiàn)了時(shí)鐘回?fù)埽瑒t將本地時(shí)鐘調(diào)整為系統(tǒng)時(shí)鐘。
5、為什么要使用雪花 ID 替代數(shù)據(jù)庫(kù)自增 ID?
數(shù)據(jù)庫(kù)自增 ID 只適用于單機(jī)環(huán)境,但如果是分布式環(huán)境,是將數(shù)據(jù)庫(kù)進(jìn)行分庫(kù)、分表或數(shù)據(jù)庫(kù)分片等操作時(shí),那么數(shù)據(jù)庫(kù)自增 ID 就有問題了。
例如,數(shù)據(jù)庫(kù)分片之后,會(huì)在同一張業(yè)務(wù)表的分片數(shù)據(jù)庫(kù)中產(chǎn)生相同 ID(數(shù)據(jù)庫(kù)自增 ID 是由每個(gè)數(shù)據(jù)庫(kù)單獨(dú)記錄和增加的),這樣就會(huì)導(dǎo)致,同一個(gè)業(yè)務(wù)表的竟然有相同的 ID,而且相同 ID 背后存儲(chǔ)的數(shù)據(jù)又完全不同,這樣業(yè)務(wù)查詢的時(shí)候就出問題了。
所以為了解決這個(gè)問題,就必須使用分布式中能保證唯一性的雪花 ID 來替代數(shù)據(jù)庫(kù)的自增 ID。
6、擴(kuò)展:使用 UUID 替代雪花 ID 行不行?
如果單從唯一性來考慮的話,那么 UUID 和雪花 ID 的效果是一致的,二者都能保證分布式系統(tǒng)下的數(shù)據(jù)唯一性,但是即使這樣,也不建議使用 UUID 替代雪花 ID,因?yàn)檫@樣做的問題有以下兩個(gè):
- 可讀性問題:UUID 內(nèi)容很長(zhǎng),但沒有業(yè)務(wù)含義,就是一堆看不懂的“字母”。
- 性能問題:UUID 是字符串類型,而字符串類型在數(shù)據(jù)庫(kù)的查詢中效率很低。
所以,基于以上兩個(gè)原因,不建議使用 UUID 來替代雪花 ID。
小結(jié)
數(shù)據(jù)庫(kù)自增 ID 只適用于單機(jī)數(shù)據(jù)庫(kù)環(huán)境,而對(duì)于分庫(kù)、分表、數(shù)據(jù)分片來說,自增 ID 不具備唯一性,所以要要使用雪花 ID 來替代數(shù)據(jù)庫(kù)自增 ID。但雪花算法依然存在一些問題,例如時(shí)間回?fù)軉栴}、節(jié)點(diǎn)過度依賴問題等,所以此時(shí),可以使用雪花算法的改進(jìn)框架,如百度的 UidGenerator 來作為數(shù)據(jù)庫(kù)的 ID 生成方案會(huì)比較好。