淺析 Redis 中 String 數(shù)據(jù)類型及其底層編碼
從 RedisObject 說(shuō)起
在 Redis 中,任意數(shù)據(jù)類型的鍵和值都會(huì)被封裝為一個(gè) RedisObject ,也叫做Redis對(duì)象,源碼如下
我們來(lái)看一下這個(gè)結(jié)構(gòu)體中的成員變量分別代表什么:
- unsigned type:4 :對(duì)象類型,分別是 string hash list set zset ,占 4 個(gè) bit 位,如下所示
- #define OBJ_STRING 0 /* String object. */ #define OBJ_LIST 1 /* List object. */ #define OBJ_SET 2 /* Set object. */ #define OBJ_ZSET 3 /* Sorted set object. */ #define OBJ_HASH 4 /* Hash object. */
- unsigned encoding:4: 底層編碼方式,共有 11 種,4 個(gè) bit 位
- unsigned lru:LRU_BITS :該對(duì)象最后一次被訪問(wèn)的時(shí)間,占 24 個(gè) bit ,在 Redis 內(nèi)存回收中起到關(guān)鍵作用
- int refcount :對(duì)象引用計(jì)數(shù)器,計(jì)數(shù)器為 0 則說(shuō)明對(duì)象無(wú)人引用,可以被回收
- void *ptr:指針,指向存放實(shí)際數(shù)據(jù)的空間
我們注意到,在 Redis 中有 5 中數(shù)據(jù)結(jié)構(gòu)(用戶使用的),但在底層卻有 11 種編碼方式,Redis 會(huì)根據(jù)存儲(chǔ)的數(shù)據(jù)類型、存儲(chǔ)數(shù)據(jù)的大小,選擇不同的編碼方式,以獲得最優(yōu)的性能。一種數(shù)據(jù)結(jié)構(gòu)會(huì)對(duì)應(yīng)多種數(shù)據(jù)結(jié)構(gòu),如下表所示。
數(shù)據(jù)類型 | 編碼方式 |
OBJ_STRING | int、embstr、raw |
OBJ_LIST | LinkedList和ZipList(3.2以前)、QuickList(3.2以后) |
OBJ_SET | intset、HT |
OBJ_ZSET | ZipList、HT、SkipList |
OBJ_HASH | ZipList、HT |
下面,我們現(xiàn)在介紹以下 String 數(shù)據(jù)類型,及其底層的編碼方式。
Redis 數(shù)據(jù)結(jié)構(gòu) -- String
String 類型的基本介紹和命令
String 類型,也就是字符串類型,是Redis中最簡(jiǎn)單的存儲(chǔ)類型。它可以存儲(chǔ)字符串、整數(shù)或浮點(diǎn)數(shù)。下面是一些 String 類型常用的命令
1.SET key value:設(shè)置指定 key 的值為指定的字符串或數(shù)字。
2.GET key:獲取指定 key 的值。
3.本地虛擬機(jī)redis:0>set key01 value01 "OK" 本地虛擬機(jī)redis:0>get key01 "value01"
4.INCR key:將指定 key 的值加 1,如果該 key 不存在,則先將其設(shè)置為 0,再進(jìn)行加 1 操作。
5.DECR key:將指定 key 的值減 1,如果該 key 不存在,則先將其設(shè)置為 0,再進(jìn)行減 1 操作。
6.INCRBY key increment:將指定 key 的值增加指定的增量。
7.DECRBY key decrement:將指定 key 的值減少指定的減量。
8.APPEND key value:將指定的值追加到指定 key 的值的末尾。
9.STRLEN key:返回指定 key 的值的長(zhǎng)度。
10.GETRANGE key start end:返回指定 key 的值的子字符串,根據(jù)起始位置和結(jié)束位置指定。
11.SETRANGE key offset value:將指定 key 的值從指定偏移位置開(kāi)始,替換為指定的字符串。
12.MSET key1 value1 [key2 value2 ...]:同時(shí)設(shè)置多個(gè) key 的值。(”[ ]” 中括號(hào)內(nèi)表示可選)
13.MGET key1 [key2 ...]:獲取多個(gè) key 的值。
這里僅給出 SET、GET 命令,其他的請(qǐng)自行測(cè)試。這些命令只是 Redis String 類型命令的一小部分,Redis 還提供了其他更多的命令來(lái)處理 String 類型的數(shù)據(jù)。你可以參考 Redis 官方文檔以獲取完整的命令列表和詳細(xì)的命令說(shuō)明。
String 類型的底層實(shí)現(xiàn)
在 Redis 中,String 類型的數(shù)據(jù)結(jié)構(gòu)并不是采用 C 語(yǔ)言中自帶的字符串類型,C 語(yǔ)言中的數(shù)據(jù)結(jié)構(gòu)存在很多問(wèn)題,比如:
- 獲取字符串長(zhǎng)度的需要通過(guò)運(yùn)算
- 非二進(jìn)制安全
- 不可修改
因此,String 在 Redis 中有其他三種編碼方式: int、embstr、raw 。其中, raw 和 embstr 類型,都是基于動(dòng)態(tài)字符串(SDS)實(shí)現(xiàn)的,下面我們先來(lái)看看動(dòng)態(tài)字符串的結(jié)構(gòu)是怎樣的。
動(dòng)態(tài)字符串(SDS)
動(dòng)態(tài)字符串的結(jié)構(gòu)體如下
這里解釋一下結(jié)構(gòu)體中各個(gè)成員變量的作用:
- len:已經(jīng)保存的字符串字節(jié)數(shù),不包含結(jié)束標(biāo)示
- alloc:申請(qǐng)的總的字節(jié)數(shù),不包含結(jié)束標(biāo)示
- flags:不同的 SDS 的頭類型,用來(lái)控制 SDS 的頭大小
- buf[]:真正存儲(chǔ)數(shù)據(jù)
我們先來(lái)聊一下 flags 這個(gè)成員變量。在 redis 中其實(shí)定義了 5 個(gè) SDS結(jié)構(gòu)體(其中 hisdshdr5 已經(jīng)棄用)如圖所示。他們之間的主要區(qū)別在于 len 和 alloc 的長(zhǎng)度不同。
在 redis 中,為了盡可能地節(jié)省內(nèi)存空間,當(dāng)字符串長(zhǎng)度在不同的區(qū)間時(shí),會(huì)選擇不同的結(jié)構(gòu)體,例如:
- 當(dāng)字符串長(zhǎng)度在 0~255 個(gè)字節(jié)之間時(shí),會(huì)選擇 hisdshdr8 ,這樣一來(lái),用于表示字符串字節(jié)數(shù)和申請(qǐng)的總字節(jié)數(shù)的空間就會(huì)被大大節(jié)省,以此類推。
例如,一個(gè)包含字符串“name”的 sds 結(jié)構(gòu)如下:
SDS之所以叫做動(dòng)態(tài)字符串,是因?yàn)樗邆鋭?dòng)態(tài)擴(kuò)容的能力,例如一個(gè)內(nèi)容為 “hello” 的 SDS,假如我們要給這個(gè) SDS 追加一段字符串 ”world” ,這里首先會(huì)申請(qǐng)新內(nèi)存空間:
- 如果新字符串小于1M,則新空間為擴(kuò)展后字符串長(zhǎng)度的兩倍+1
- 如果新字符串大于1M,則新空間為擴(kuò)展后字符串長(zhǎng)度+1M+1。
這種機(jī)制稱為內(nèi)存預(yù)分配。內(nèi)存預(yù)分配可以減少進(jìn)行內(nèi)存重新分配的開(kāi)銷,減少內(nèi)存碎片,使得 redis 的性能得到提高,空間利用率也得到提高。
String 的三種編碼方式
RAW
- raw 是 string 的基本編碼方式,基于簡(jiǎn)單動(dòng)態(tài)字符串(SDS)實(shí)現(xiàn),存儲(chǔ)上限為512mb。當(dāng)一個(gè)字符串采用 raw 的編碼方式的時(shí)候,它的結(jié)構(gòu)如圖所示。
EMBSTR
- 如果存儲(chǔ)在 SDS 中的數(shù)據(jù)小于等于 44 字節(jié),則會(huì)采用 EMBSTR 編碼,此時(shí) **RedisObject 與 SDS 是一段連續(xù)空間。而不是像 RAW 的編碼方式一樣,由 ptr 指向另外一片空間,**申請(qǐng)內(nèi)存時(shí)只需要調(diào)用一次內(nèi)存分配函數(shù),效率更高。結(jié)構(gòu)如下,
為什么是 44 字節(jié)?Redis 默認(rèn)的內(nèi)存分配器 jemalloc 分配內(nèi)存大小的單位是 $2^n$ ,因此,如果分配的空間大小為 2、4 、8 … 字節(jié)等 $2^n$ 字節(jié),就不會(huì)產(chǎn)生內(nèi)存碎片。
而 redisObject 和 hisdshdr8 中 len alloc flags三個(gè)成員變量加起來(lái)剛剛好是 16 + 4 = 20 字節(jié),如果 char[] (數(shù)據(jù)大小)的大小為 44 字節(jié)時(shí),加起來(lái)剛剛好是 64 字節(jié),也即 26 不會(huì)產(chǎn)生內(nèi)存碎片。
- RAW 和 EMBSTR 的編碼演示
INT
- 如果存儲(chǔ)的字符串是整數(shù)值,并且大小在 LONG MAX 范圍內(nèi),則會(huì)采用 INT 編碼
- 直接將數(shù)據(jù)保存在 RedisObject 的 ptr 指針位置(剛好8字節(jié)),不再需要SDS了。
- INT 編碼演示
寫(xiě)在最后:在使用 string 類型時(shí),盡可能讓其長(zhǎng)度小于 44 字節(jié),或者使用整數(shù)表示,使其使用 EMBSTR 和 INT 編碼