Base64 編碼原來(lái)這么簡(jiǎn)單,你知道嗎?
做了六七年程序員,經(jīng)常用到 Base64 編碼,但對(duì)于為什么要用,以及它的原理,一直是不求甚解。最近在某本書上看到了 Base64 的編碼原理,原來(lái)這么這么這么簡(jiǎn)單。
Base64 解決了什么問(wèn)題
假如我們要在網(wǎng)絡(luò)中傳輸下面的問(wèn)題:
你好 小朋友
我是磚家
你是誰(shuí)?
這段文本中包含了空格、換行、回車等不可見(jiàn)字符,在網(wǎng)絡(luò)傳輸中,各個(gè)設(shè)備對(duì)不可見(jiàn)字符處理機(jī)制可能不同,會(huì)存在信息傳輸錯(cuò)誤的情況。此時(shí)我們就需要一種編碼機(jī)制,把不可見(jiàn)字符統(tǒng)統(tǒng)轉(zhuǎn)成可見(jiàn)字符。
Base64 編碼原理
接下來(lái)我們通過(guò)將 abcd二字轉(zhuǎn)為 Base64 編碼,來(lái)了解下它的原理。
- 把字符三三分組,不夠時(shí)通過(guò) 0 補(bǔ)齊。比如abc?三個(gè)字符歸一組,d? 不夠三位,通過(guò)0? 補(bǔ)齊為d00。
- 把字符轉(zhuǎn)換成二進(jìn)制 ASCII 編碼。
- 把轉(zhuǎn)換后的二進(jìn)制,每六位分隔開(kāi)。
Q:為什么第一步需要分三個(gè)字符一組?
A:因?yàn)?ASCII 碼每個(gè)字符是 8 位二進(jìn)制,3 * 8 = 24。正好可以被第三步拆分為 4 個(gè) 6 位二進(jìn)制,4 * 6 = 24。
- 6 位二進(jìn)制能代表0-63,我們有一個(gè)彩虹表,可以將 0-63 分別對(duì)應(yīng)一個(gè)字符,彩虹表如下:
通過(guò)彩虹表,我們可以將每 6 位分割后的二進(jìn)制做一次轉(zhuǎn)換。
需要注意的是,凡是補(bǔ)位產(chǎn)生的 0,需要用 = 來(lái)表示。所以最后的兩位都是 =。
最后 abcd 轉(zhuǎn)換為 Base64 編碼后為 YWJjZA==,整體原理還是比較簡(jiǎn)單的,不涉及到高深的算法。
Base64 周邊
- 由于Base64? 轉(zhuǎn)碼后會(huì)包含+/=?字符,在 URL 不能正常傳輸。所以有一種 URL 友好型的 Base64 編碼,它存在使用_-?來(lái)代替+/?,并且不在末尾追加=。
- Base32、Base16 的原理和 Base64 基本一致。
- Base64 并不適合加密,因?yàn)榻饷芴?jiǎn)單了。
- 漢字通過(guò)gb2312、utf-8、gbk?編碼后,即可轉(zhuǎn)成二進(jìn)制處理。這里借用網(wǎng)上的一個(gè)圖片說(shuō)明:
Base58 與 Base58Check
Base58 是比特幣在生成錢包地址時(shí)使用的一種編碼形式。它和 Base64 的主要區(qū)別是去掉了肉眼容易看錯(cuò)的字符 0(零)、O(大寫字母 O)、I(大寫字母 i)、l(小寫字母 L)和幾個(gè)影響雙擊選擇的字符:/ 和 + 這種編碼的目的比較簡(jiǎn)單,就是防止在轉(zhuǎn)賬時(shí),看錯(cuò)賬號(hào),轉(zhuǎn)錯(cuò)賬。Base58 的原理更簡(jiǎn)單一些,只涉及到進(jìn)制的轉(zhuǎn)換,大致步驟如下:
- 將字符轉(zhuǎn)成 ASCII 碼
- 將 ASCII 碼轉(zhuǎn)換成 58 進(jìn)制
- 通過(guò)彩虹表映射即可
比如 abcd轉(zhuǎn)換:
- 轉(zhuǎn)成 ASCII 碼 97-98-99-100
- 轉(zhuǎn)換成 58 進(jìn)制 3-28-21-49-5-22
- 通過(guò)如下彩虹表映射為 3VNr6P
Base58Check 編碼,顧名思義是可以對(duì) Base58 編碼進(jìn)行檢查。比如我在傳輸 qH912cvztx編碼時(shí),如果網(wǎng)絡(luò)異常等各種原因,導(dǎo)致數(shù)據(jù)錯(cuò)亂或丟失,接收方要能夠識(shí)別出來(lái)數(shù)據(jù)有問(wèn)題。Base58Check 編碼基本原理如下:
- 在 data 前面添加一個(gè)版本標(biāo)識(shí) prefix,用來(lái)識(shí)別編碼的數(shù)據(jù)類型,比如比特幣地址的前綴是 0(十六進(jìn)制是 0x00)。
- 通過(guò) hash 算法計(jì)算prefix + data?的 hash 值:SHA256(prefix + data)。
- 將生成的 hash 值截?cái)酁榍八奈唬唇拥胶竺鎝refix + data + 4 位 hash。
- 將上一步生成的結(jié)果進(jìn)行 Base58 編碼計(jì)算,得到最終結(jié)果。