成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ASCII、Unicode、UTF-8、utf8mb4,有啥區(qū)別?

開發(fā)
什么是字符集?什么是編碼?什么是解碼?它們之間有什么關(guān)系?ASCII、Unicode、UTF-8、ISO-8859-1、GB2312,這些在計(jì)算中常見的名詞,它們代表的真正含義是什么?這篇文章幫你講透!

什么是字符集?什么是編碼?什么是解碼?它們之間有什么關(guān)系?ASCII、Unicode、UTF-8、ISO-8859-1、GB2312,這些在計(jì)算中常見的名詞,它們代表的真正含義是什么?這篇文章幫你講透!

字符集

字符集(Character Set)是字符的一個(gè)集合,包含字母、數(shù)字、標(biāo)點(diǎn)符號、控制字符、中文以及其他符號。常見的字符集包括:

  • ASCII字符集(American Standard Code for Information Interchange,美國標(biāo)準(zhǔn)信息交換碼):總共 128個(gè)字符,包括英文字母、數(shù)字、一些特殊符號和控制字符
  • ISO-8859-1:擴(kuò)展了ASCII,包含 256個(gè)字符,支持西歐語言的字符
  • GB2312:中國定義的一個(gè)標(biāo)準(zhǔn),包含了 7445個(gè)字符,6763個(gè)漢字和 682個(gè)非漢字字符
  • GBK:中國定義的一個(gè)標(biāo)準(zhǔn),支持 21003個(gè)漢字和圖形字符,涵蓋了漢字、日文假名、韓文、特殊符號等,兼容 GB2312
  • GB18030:中國定義的一個(gè)標(biāo)準(zhǔn),支持 70000多個(gè)字符,兼容 ASCII、GB2312、GBK等多種編碼方案
  • Unicode:包含了全球幾乎所有書寫系統(tǒng)的 110多萬個(gè)字符,它提供一個(gè)統(tǒng)一的字符編碼標(biāo)準(zhǔn),支持所有語言
  • Big5字符集:包含 13053個(gè)繁體中文漢字和其他字符,主要用于臺灣和香港

編碼和解碼

1.編碼

編碼(Encoding)是將字符集中的字符轉(zhuǎn)換為計(jì)算機(jī)可以處理的二進(jìn)制數(shù)據(jù)的規(guī)則或方案。不同的編碼方式會使用不同的二進(jìn)制模式來表示同一個(gè)字符。常見的編碼方式包括:

  • ASCII編碼:使用 7位二進(jìn)制數(shù)表示字符
  • UTF-8:一種 Unicode編碼方式,使用1到4個(gè)字節(jié)來表示一個(gè)字符。UTF-8是目前最廣泛使用的編碼方式,具有向后兼容 ASCII的特點(diǎn)
  • UTF-16:一種 Unicode編碼方式,使用2或4個(gè)字節(jié)表示一個(gè) Unicode字符(不常用)
  • UTF-32:一種 Unicode編碼方式,使用固定的 4個(gè)字節(jié)表示一個(gè) Unicode字符(不常用)
  • GB2312:一種為簡體中文設(shè)計(jì)的編碼方式,使用1或2個(gè)字節(jié)表示一個(gè) Unicode字符(不常用)
  • GBK:一種為簡體中文設(shè)計(jì)的編碼方式,使用1或2個(gè)字節(jié)表示一個(gè) GBK字符
  • Big5:一種主要用于臺灣和香港的繁體字符集,使用雙字節(jié)來存儲 Big5字符集

2.解碼

解碼(Decoding)是將編碼后的數(shù)據(jù)還原為其原始格式的過程,解碼通常是編碼的逆過程。

通過上面的描述可以知道:GB2312,GBK,GB18030 它即包含一套字符集,也包含了對應(yīng)的一套編解碼。

ASCII碼

計(jì)算機(jī)起源于美國,計(jì)算機(jī)內(nèi)部使用的是二進(jìn)制(0/1),而美國的通用的語言是英文,于是,為了規(guī)范英語字符與二進(jìn)制位之間的關(guān)系,在上個(gè)世紀(jì)60年代,美國制定了一套字符編碼,這就是一直沿用至今的 ASCII 碼。

在英語里,除了 26個(gè)英文字母的大小寫,再加上一些通用的符號,總共 128個(gè)字符(包括 32個(gè)不能打印的控制符號),因此,ASCII碼也定義了與之對應(yīng)的 128個(gè)編碼,比如,字母 A的 ASCII碼是十進(jìn)制 65(二進(jìn)制:01000001)。

對于 128=2? 個(gè)字符,只需要一個(gè)字節(jié)就能存儲(1byte = 8bit),而且只需要占用了一個(gè)字節(jié)的后面7 位,因此,ASCII碼規(guī)定二進(jìn)制的最前面的一位統(tǒng)一為 0。如下為一張 ASCII碼表:

所以,ASCII碼是為了英語使用者能夠把常用的 128個(gè)字符存儲在計(jì)算機(jī)中而設(shè)置的一套規(guī)則。

GB2312

ASCII碼的設(shè)計(jì)很優(yōu)秀,但對于中文使用者,怎么能接受計(jì)算機(jī)存儲不了中文的現(xiàn)實(shí)?于是,聰明的中國人在 1980年發(fā)布了一套適用自己的新編準(zhǔn):GB2312。

GB2312 是中華人民共和國國家標(biāo)準(zhǔn)《信息交換用漢字編碼字符集 基本集》的簡稱,全稱為 GB 2312-1980。該標(biāo)準(zhǔn)定義了用于簡體中文字符和一些其他字符的編碼方法,而且兼容 ASCII,廣泛應(yīng)用于中文信息處理系統(tǒng)中。

GB2312是一個(gè)雙字節(jié)編碼字符集,即 GB2312中的所有字符都使用兩個(gè)字節(jié)進(jìn)行編碼和存儲,具體編碼結(jié)構(gòu)如下:

1.字符范圍

GB2312 總共有 7445個(gè)字符,主要包括 6763個(gè)漢字和 682個(gè)非漢字字符(如 ASCII、拉丁字母、希臘字母、日文假名、符號等)。具體分為以下兩個(gè)部分:

  • 一級漢字:3755個(gè)常用漢字,按拼音順序排列
  • 二級漢字:3008個(gè)次常用漢字,按部首/筆畫順序排列
  • 非漢字字符:682個(gè),包括圖形符號、拉丁字母、日文假名、希臘字母、俄文字母、制表符、標(biāo)點(diǎn)符號等。

2.編碼區(qū)間

  • GB2312 將字符集劃分為 94個(gè)區(qū)(1-94),每區(qū)包含 94個(gè)位置(1-94)
  • 每個(gè)字符由兩個(gè)字節(jié)表示,第一個(gè)字節(jié)(高字節(jié))表示區(qū)號,第二個(gè)字節(jié)(低字節(jié))表示位置號
  • 第一個(gè)字節(jié)范圍:0xA1 - 0xF7
  • 第二個(gè)字節(jié)范圍:0xA1 - 0xFE

3.舉例說明

GB2312 編碼表可以通過下面這兩個(gè)特定的公式計(jì)算得到:

  • 高字節(jié):0xA1 + 區(qū)號 - 1
  • 低字節(jié):0xA1 + 位置號 - 1

以“你好” 為例來演示:

“你”在 GB2312編碼表中位于第 36區(qū)第 67位:

高字節(jié):0xA1 + 36 - 1 = 0xC4
低字節(jié):0xA1 + 67 - 1 = 0xE3
因此,"你"的 GB2312編碼為 0xC4E3,和 GB2312編碼表中的值可以對應(yīng)上。

“好”在 GB2312編碼表中位于第 26區(qū)第 35位:

高字節(jié):0xA1 + 26 - 1 = 0xBA
低字節(jié):0xA1 + 35 - 1 = 0xC3
因此,"好"的 GB2312編碼是 0xBAC3,和 GB2312編碼表中的值可以對應(yīng)上。

GBK

隨著互聯(lián)網(wǎng)的快速發(fā)展,GB2312編碼表中定義的字符已經(jīng)不夠用了,因此,GB2312的擴(kuò)展版 GBK編碼表誕生了。

GBK是“國標(biāo)擴(kuò)展字符集”前 3個(gè)漢字拼音首字母的縮寫,全稱是《漢字內(nèi)碼擴(kuò)展規(guī)范》(Chinese Internal Code Extension, GBK)。GBK字符集是 1993年發(fā)布的,它是對 GB2312的擴(kuò)展。

GBK是一個(gè)雙字節(jié)編碼字符集,每個(gè)字符由一個(gè)或兩個(gè)字節(jié)表示。其編碼結(jié)構(gòu)如下:

1.字符范圍

  • GBK支持 21003個(gè)漢字和圖形字符,涵蓋了漢字、日文假名、韓文、特殊符號等
  • 包括 GB2312的全部字符,以及其他新增的漢字和符號

2.編碼區(qū)間

① GBK擴(kuò)展了 GB2312的編碼范圍,使其支持更多字符

② 單字節(jié)部分(與 ASCII兼容):0x00 - 0x7F

③雙字節(jié)部分:

  • 第一個(gè)字節(jié)范圍:0x81 - 0xFE
  • 第二個(gè)字節(jié)范圍:0x40 - 0xFE(去掉 0x7F)

3.舉例說明

  • 單字節(jié):字符“A”,使用單個(gè)字節(jié)可以存儲,“A”的 ASCII碼十進(jìn)制是65,轉(zhuǎn)換成十六進(jìn)制為:0x41,二進(jìn)制為:1000001
  • 雙字節(jié):字符“漢”在 GBK編碼中使用雙字節(jié)表示,GBK編碼: BABA,分成兩個(gè)字節(jié)表示成:0xBA 0xBA

GB18030

GB18030 是國家標(biāo)準(zhǔn)化委員會(SAC)發(fā)布的字符編碼標(biāo)準(zhǔn),是一種用于漢字、漢語拼音、注音符號和漢字部首等文字的字符集和編碼方案,它是繼 GB2312和 GBK 后更強(qiáng)筋的版本。

GB18030的特點(diǎn)包括:

  • 兼容性:GB18030兼容ASCII、GB2312、GBK以及Unicode等多種編碼方案。
  • 完備性:GB18030收錄了70000多個(gè)字符,包括漢字、漢語拼音、注音符號、漢字部首、拉丁字母、數(shù)字、標(biāo)點(diǎn)符號等。
  • 可擴(kuò)展性:GB18030采用了四字節(jié)編碼方案,可以容納未來出現(xiàn)的所有字符。其中漢字使用雙字節(jié)或四字節(jié)編碼,而非漢字字符則使用單字節(jié)或雙字節(jié)編碼。

ISO-8859-1

ISO-8859-1,全稱為”ISO/IEC 8859-1”,是國際標(biāo)準(zhǔn)化組織(ISO)和國際電工委員會(IEC)發(fā)布的字符編碼標(biāo)準(zhǔn)之一,也被稱為 Latin-1或 Western European (ISO)。它是 ISO-8859系列中的第一個(gè)字符編碼標(biāo)準(zhǔn),旨在支持西歐地區(qū)的主要語言,如英語、法語、德語、西班牙語等。

ISO-8859-1的特點(diǎn)包括:

  • 單字節(jié)編碼:ISO-8859-1采用單字節(jié)編碼方案,即每個(gè)字符占用一個(gè)字節(jié)(8位),可以表示 256個(gè)不同的字符
  • 西歐語言支持:該編碼標(biāo)準(zhǔn)主要針對西歐地區(qū)的語言,覆蓋了西歐語言中常用的字符、標(biāo)點(diǎn)符號和特殊符號
  • ASCII兼容:ISO-8859-1是 ASCII編碼的擴(kuò)展,完全兼容 ASCII

 ISO-8859-1的一些限制:

  • 不支持非拉丁字符集:ISO-8859-1無法表示除拉丁字母外的字符,因此對于不使用拉丁字母的語言,如希臘語、俄語等,需要使用其他字符編碼標(biāo)準(zhǔn)
  • 只支持 256個(gè)字符,表示的字符范圍比較小

總的來說,ISO-8859-1是一個(gè)針對西歐語言的基本字符編碼標(biāo)準(zhǔn),雖然在全球范圍內(nèi)的使用逐漸減少,但在某些特定的場景和遺留系統(tǒng)中仍然可能會遇到。

Unicode

上面介紹的字符集,要么是為英語或者西歐使用者設(shè)計(jì)的,要么是兼容漢字但對其他語言不友好,因此,有沒有一種全球通用并且包含全球所有通用的字符呢?

于是,Unicode字符集誕生了!

1.Unicode是什么

Unicode,正如它的中文意思“統(tǒng)一碼”一樣,它包含了世界上所有的通用符號(超過 110多萬個(gè)符號),而且給每個(gè)符號賦予一個(gè)獨(dú)一無二的編碼,通常表示為:U+后跟一個(gè)十六進(jìn)制數(shù),例如,U+56fd 表示漢字的“國”,U+0639 表示阿拉伯字母 Ain,U+0041 表示英語的字母 A等。

2.Unicode存在的問題

Unicode盡管包含了全球所有通用的字符,但它只是統(tǒng)一了所有的字符集,也就是說它只規(guī)定了符號的二進(jìn)制代碼格式,卻沒有規(guī)定這個(gè)二進(jìn)制代碼應(yīng)該如何存儲(編解碼)。

比如,Unicode 包含的這些字符集中,有的 1個(gè)字節(jié)能存儲,有的 2個(gè)字節(jié)能存儲,有的需要 4個(gè)字節(jié)才能存儲,因此,對于一個(gè) Unicode字符,計(jì)算機(jī)如何知道需要采用幾個(gè)字節(jié)來存儲?基于此局面,急需一套統(tǒng)一的編碼方式。

UTF-8

對于 Unicode字符集,通常有 UTF-8,UTF-16,UTF-32等編碼方式。

UTF,Unicode Transformation Format(Unicode 轉(zhuǎn)換格式),而 UTF-8是目前互聯(lián)網(wǎng)上使用最廣的一種 Unicode實(shí)現(xiàn)方式,因此,本文重點(diǎn)分析 UTF-8。

1.可變長度

UTF-8 是一種變長的編碼方式,使用 1~4個(gè)字節(jié)來表示不同的 Unicode字符:

  • 1 字節(jié): 用于編碼 7 位 ASCII 字符,表示范圍:U+0000 到 U+007F,與 ASCII 碼完全兼容
  • 2 字節(jié): 用于編碼 11 位字符,表示范圍:U+0080 到 U+07FF
  • 3 字節(jié): 用于編碼 16 位字符,表示范圍:U+0800 到 U+FFFF
  • 4 字節(jié): 用于編碼 21 位字符,表示范圍:U+10000 到 U+10FFFF

2.字節(jié)結(jié)構(gòu)

UTF-8 編碼的字節(jié)結(jié)構(gòu)如下:

1字節(jié): 0xxxxxxx
2字節(jié): 110xxxxx 10xxxxxx
3字節(jié): 1110xxxx 10xxxxxx 10xxxxxx
4字節(jié): 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

通過上述字節(jié)結(jié)構(gòu),可以總結(jié)兩個(gè)規(guī)律:

  • 對于單字節(jié)的符號,UTF-8編碼和 ASCII碼是相同的:第一位為 0,后面 7位為 Unicode碼
  • 對于n(n >= 2)字節(jié)的符號,二進(jìn)制的第一個(gè)字節(jié),最高位有 n個(gè)“1”(“1”后面緊跟一位 0),二進(jìn)制后面的每個(gè)字節(jié),前兩位都固定為“10”,xxx部分全部是 Unicode碼

3.舉例說明

(1) 字符 ‘A’ (U+0041)

分析:字符’A’的 Unicode是 U+0041,位于 U+0000 到 U+007F之間,因此,一個(gè)字節(jié)就可以表示,因此,二進(jìn)制為:01000001,轉(zhuǎn)成十六進(jìn)制為:0x41

(2) 字符 ‘€’ (U+20AC)

分析:字符 ‘€’的 Unicode是 U+20AC,位于 U+0800 到 U+FFFF之間,因此,需要用 3個(gè)字節(jié)表示,即1110xxxx 10xxxxxx 10xxxxxx,將“20AC”中的每個(gè)字符直接轉(zhuǎn)換成二進(jìn)制為:0010 0000 1010 1100,然后將它從低位往高位(從右到左)依次替換x,如下圖:

這樣得出字符 ‘€’ (U+20AC)用 UTF-8編碼的二進(jìn)制為:11100010 10000010 10101100,轉(zhuǎn)換成十六進(jìn)制為:0xE2 0x82 0xAC

utf8mb4

使用過 MySQL數(shù)據(jù)庫的小伙伴對 utf8mb4肯定不陌生,它是 MySQL數(shù)據(jù)庫中的一種字符集,具體來說是 UTF-8的一個(gè)變種,能夠支持所有的 Unicode字符,包括那些需要 4個(gè)字節(jié)表示的字符(例如某些 emoji表情符號和一些罕見的漢字)。

在 MySQL中,utf8字符集最多支持 3個(gè)字節(jié)的字符,因此,它不能存儲所有的 Unicode字符,而 utf8mb4字符集支持 4個(gè)字節(jié)的字符,能夠存儲所有的 Unicode字符。

因此,在一些涉及聊天業(yè)務(wù)的場景,utf8mb4字符集經(jīng)常被使用,主要是用于存儲 emoji表情,比如:????♂???♀?????????????

為什么會亂碼?

從上文的分析中,我們知道了什么是字符集,什么是編碼以及兩者之間的關(guān)系。假如某字符在保存時(shí)使用了一種編碼,讀取時(shí)使用了另外一種編碼,試想下,是不是就會出現(xiàn)亂碼?

為了更好的證實(shí)我們的猜想,這里以“國”字的為例進(jìn)行說明,使用 UTF-8編碼,使用 GBK解碼:

1.編碼

“國”字的 Unicode是 U+56FD,在 UTF-8中,它被編碼為三個(gè)字節(jié):11100101 10011011 10011101 (0xE5 0x9B 0xBD)

2.解碼

使用 GBK編碼讀取,它是一種雙字節(jié)編碼方案,因此,它可能會將這三個(gè)字節(jié)解釋為兩種:

  • 解釋成 2個(gè)字節(jié) + 1個(gè)字節(jié),導(dǎo)致亂碼。
  • 解釋成 2個(gè)字節(jié) + 2個(gè)字節(jié)(包含下一個(gè)字符的第一個(gè)字節(jié)),導(dǎo)致亂碼。

所以,為了防止亂碼,我們需要使用統(tǒng)一的編解碼。

總結(jié)

本文分析了什么是字符集,什么是編碼編碼,兩者的關(guān)系,分析了常見的字符集以及編碼以及亂碼產(chǎn)生的原因,這里總結(jié)幾個(gè)核心點(diǎn):

  • 字符集(Character Set)是字符的集合,包含字母、數(shù)字、標(biāo)點(diǎn)符號、控制字符、中文以及其他符號
  • 編碼(Encoding)是將字符集中的字符轉(zhuǎn)換為計(jì)算機(jī)可以處理的二進(jìn)制數(shù)據(jù)的規(guī)則或方案
  • 解碼(Decoding)是將編碼后的數(shù)據(jù)還原為其原始格式的過程,解碼通常是編碼的逆過程
  • ASCII主要是為英語使用者設(shè)計(jì),只能支持 128個(gè)字符
  • ISO-8859-1主要是為西歐設(shè)計(jì)的
  • GB2312,GBK,GB18030有對應(yīng)的編碼表,只要查表然后按照其字節(jié)規(guī)則就能很清晰的知道它在計(jì)算機(jī)中如何存儲
  • UTF-8 是一種變長的編碼方式,使用 1~4 個(gè)字節(jié)來表示不同的 Unicode 字符
  • utf8mb4 是MySQL中的一種字符集,它是 UTF-8的變種,用于存儲表情符號、某些罕見漢字或其他特殊字符
  • 很多亂碼的根本原因是編解碼不一致,因此,為了防止亂碼,需要使用統(tǒng)一的編解碼
責(zé)任編輯:趙寧寧 來源: 猿java
相關(guān)推薦

2024-06-03 14:09:48

2021-05-12 07:43:02

LinuxUnicodeUTF-8

2018-06-25 14:29:45

MySQLbug數(shù)據(jù)庫

2023-01-26 00:31:25

ASCIIBase64UTF-8

2020-09-21 08:56:00

GolangUnicode編碼

2023-12-08 08:18:41

代號UnicodeUTF-8

2011-08-25 09:43:51

UTF-8中文man

2016-12-13 10:13:18

PHPUTF-8實(shí)踐

2011-03-07 12:31:54

Filezilla

2010-01-08 11:52:37

ibmdwDB2

2024-06-17 10:16:37

MySQLutf8mb4字節(jié)

2024-01-04 12:53:00

Unicode字符UTF-8

2010-09-29 11:29:18

UnicodeJ2ME

2019-04-15 14:05:56

MySQLUTF-8數(shù)據(jù)庫

2020-09-22 09:05:45

MySQLUTF-8utf8mb4

2009-12-17 11:45:38

Linux UTF-8

2016-09-12 16:19:38

MySQL存儲數(shù)據(jù)庫

2017-12-11 10:12:26

數(shù)據(jù)庫MySQL文本亂碼

2016-11-15 14:29:14

Linux文件編碼轉(zhuǎn)換

2011-07-29 14:08:26

iPhone UTF-8 XML
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 天堂久久天堂综合色 | 奇米超碰 | 国产精品久久在线 | 亚洲精品视频一区 | 国产精品特级片 | 曰韩三级 | 天天拍天天射 | 男女国产网站 | 尤物视频在线免费观看 | 精品国产一区二区三区久久 | 午夜婷婷激情 | 免费看黄视频网站 | 成年人在线电影 | 国产色片| 狠狠色综合网站久久久久久久 | 亚洲精品18 | 网站国产 | 草草在线观看 | 欧美日韩精品影院 | 国产精品无码久久久久 | 亚洲视频中文字幕 | 国产精品久久久久久久久免费桃花 | 中文字幕三区 | 欧美 日韩 中文 | 中文字幕av第一页 | 欧美日韩高清在线观看 | 欧美日韩综合一区 | 一区免费 | 中文字幕免费观看 | 在线观看欧美日韩视频 | 全部免费毛片在线播放网站 | 免费一区在线 | 一级黄在线观看 | 日韩电影中文字幕 | www.日韩 | 天天看天天爽 | 色综合一区 | 日产精品久久久一区二区福利 | 成年人黄色小视频 | 国产成人综合在线 | 日韩中文视频 |