成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

什么是“錕斤拷”?我竟答不上來......

開發 前端
周末女朋友出去逛街了,我自己一個人在家看綜藝節目,突然,女朋友給我打來電話。

周末女朋友出去逛街了,我自己一個人在家看綜藝節目,突然,女朋友給我打來電話。

[[276072]]
圖片來自 Pexels

 

過了一會,女朋友回來了,她拿出手機,給我看了她在超市拍的照片:

要想知道什么是亂碼,需要先從計算機編碼說起。

字符編碼和 ASCII

我們經常看一些諜戰劇,諜戰劇里敵特、地下黨員以及八路軍各部間發送情報的時候,一般都是通過電報發送的。

電報在傳遞的過程中,需要發報員用電鍵發出長短不一的電碼,收報員就會聽到電報機發出的滴滴滴答答答的聲音。

其實電報發出的聲音都是"滴"和"答"的組合,"答"的聲音是"滴"的三倍長。

[[276082]]

發報員要先通過一種方式,將想要發送的情報轉成電報的滴答聲,收報員在聽到滴答聲之后,再將它們翻譯成正常的文字。這個過程就是字符編碼和字符解碼。

諜戰劇中將情報轉成電報的"滴"和"答"聲主要通過摩爾斯電碼,這是一種通過不同的排列順序來表達不同的英文字母、數字和標點符號的字符編碼方式。

莫爾斯電碼由短的和長的電脈沖(稱為點和劃)所組成。點和劃的時間長度都有規定,以一點為一個基本單位,一劃等于三個點的長度。正好對應上電報的"滴"和"答"。

就像電報只能發出"滴"和"答"聲一樣,計算機只認識 0 和 1 兩種字符,但是,人類的文字是多種多樣的,如何把人類的文字轉換成計算機認識的 01 字符呢,這個過程同樣需要通過字符編碼。

字符編碼(Character encoding)是一套法則,使用該法則能夠對自然語言的字符的一個集合(如字母表或音節表),與其他東西的一個集合(如號碼或電脈沖)進行配對。

和摩爾斯電碼功能類似,上個世紀 60 年代,美國制定了一套字符編碼,對英語字符與二進制位之間的關系,做了統一規定,這被稱為 ASCII 碼,一直沿用至今。

ASCII(American Standard Code for Information Interchange,美國信息交換標準代碼)是基于拉丁字母的一套計算機編碼系統。

它主要用于顯示現代英語,其中共有 128 個字符,包含了所有的大寫和小寫字母,數字 0 到 9、標點符號, 以及在美式英語中使用的特殊控制字符等。

由于 ASCII 只有 128 個字符,雖然對于英文字符都可以表示了,但是世界上還有很多其他的文字他是沒辦法表示的,所以需要一種更加全面的字符編碼。

在介紹其他的字符編碼之前,我們先來說一下一個計算機領域通用的字符集。

Unicode

Unicode(中文:萬國碼、國際碼、統一碼、單一碼)是計算機科學領域里的一項業界標準。

它對世界上大部分的文字系統進行了整理、編碼,使得計算機可以用更為簡單的方式來呈現和處理文字。

Unicode 至今仍在不斷增修,每個新版本都加入更多新的字符。目前最新的版本為 2019 年 5 月公布的 12.1,這一版本只新增了 1 個字符,即日本新年號令和的合字。

Unicode 備受認可,并廣泛地應用于計算機軟件的國際化與本地化過程。有很多新科技,如可擴展置標語言(Extensible Markup Language,簡稱:XML)、Java 編程語言以及現代的操作系統,都采用 Unicode 編碼。

Unicode 是一套通用的字符集,包含世界上的大部分文字,也就是說,Unicode 是可以表示中文的。

UTF-8,UTF-16,UTF-32

Unicode 雖然統一了全世界字符的編碼,但沒有規定如何存儲。這么做是有考慮的:如果 Unicode 統一規定,每個符號就要用 3 個或 4 個字節表示,因為字符太多,只能用這么多字節才能表示完全。

一旦這么規定,那么每個英文字母前都必然有 2 到 3 個字節是 0,因為所有英文字母在 ASCII 中都有,都可以用 1 個字節表示,剩余字節位置就要補充 0。

如果這樣,文本文件的大小會因此大出二三倍,這對于存儲來說是極大的浪費。

為了解決這個問題,就出現了一些中間格式的字符集,他們被稱為通用轉換格式,即 UTF(Unicode Transformation Format)。

常見的 UTF 格式有:

  • UTF-7
  • UTF-7.5
  • UTF-8
  • UTF-16
  • UTF-32

UTF-8:使用 1 至 4 個字節為每個字符編碼,UTF-16:使用 2 或 4 個字節為每個字符編碼,UTF-32:使用 4 個字節為每個字符編碼。

所以我們可以說,UTF-8、UTF-16 等都是 Unicode 的一種實現方式。

舉個例子,Unicode 規定了 1 個中文字符 "我"對應的 Unicode 是 "\u6211",但是,在 UTF-8 和 UTF-16 等不同的實現方式下,這個二進制 Code 的存儲方式是不一樣的。

UTF-8 使用可變長度字節來儲存 Unicode 字符,例如 ASCII 字母繼續使用 1 字節儲存,重音文字、希臘字母或西里爾字母等使用 2 字節來儲存,而常用的漢字就要使用 3 字節。輔助平面字符則使用 4 字節。

GBK,GB2312,GB18030

因為 UTF-8 是 Unicode 的一種實現,所以他包含了世界上的所有文字的編碼,他采用的是 1-4 字節進行編碼。

對于那些排在前面優先納入的文字,可能就優先使用 1 字節、2 字節存儲了,對于后納入的文字,就要使用 3 字節或者 4 字節存儲了。

正是因為他太全了,所以那些晚一些納入的字符,在 UTF-8 中的存儲所占的字節數可能就會多一些,那他的存儲空間要求就會很大。

對于常用的漢字,在 UTF-8 中采用 3 字節進行編碼,但是如果有一種只包含中文和 ASCII 的編碼的話,就不需要使用 3 個字節,可能 2 個字節就夠了。

對于大部分網站來說,基本都是只服務一個國家或者地區的,比如一個中國的網站,一般會出現簡體字和繁體字以及一些英文字符,很少會出現日語或者韓文的。

也是出于這樣的考慮,中國國家標準總局于 1981 年制定并實施了 GB 2312-80 編碼,即中華人民共和國國家標準簡體中文字符集。

后來廠商微軟利用 GB 2312-80 未使用的編碼空間,收錄 GB 13000.1-93 全部字符制定了 GBK 編碼。

有了標準中文字符集,如果是一個純中文網站,就可以采用這種編碼方式,這樣可以大大節省一些存儲空間的。

常用的中文編碼有 GBK,GB2312,GB18030 等,最常用的是 GBK。

GB2312(1980 年),16 位字符集,收錄有 6763 個簡體漢字,682 個符號,共 7445 個字符:

  • 優點:適用于簡體中文環境,屬于中國國家標準,通行于大陸,新加坡等地。
  • 缺點:不兼容繁體中文,其漢字集合過少。

GBK(1995 年),16 位字符集,收錄有 21003 個漢字,883 個符號,共 21886 個字符:

  • 優點:適用于簡繁中文共存的環境,為簡體 Windows 所使用,向下完全兼容 GB2312,向上支持 ISO-10646 國際標準 ;所有字符都可以一對一映射到 Unicode 2.0 上。
  • 缺點:不屬于官方標準和 big5 之間需要轉換;很多搜索引擎都不能很好地支持 GBK 漢字。

GB18030(2000 年),32 位字符集;收錄了 27484 個漢字,同時收錄了藏文、蒙文、維吾爾文等主要的少數民族文字:

優點:可以收錄所有你能想到的文字和符號,屬于中國最新的國家標準。

缺點:目前支持它的軟件較少。

亂碼

我們還拿前面介紹過的發電報的例子來說,假設有以下場景:發報員使用“美式摩爾斯電碼”將情報轉換成電報,收報員接收到電報之后,通過“現代國際摩爾斯電碼”進行破譯。那么得到的情報內容就可能完全看不懂,這就是亂碼了。

就像在計算機領域,我們把一串中文字符通過 UTF-8 進行編碼傳輸給別人,別人拿到這串文字之后,通過 GBK 進行解碼,得到的內容就會是“錕屆瀿錕斤拷雮傡錕斤拷直錕斤拷錕”,這就是亂碼。

如以下代碼:

  1. public static void main(String[] args) throws UnsupportedEncodingException { 
  2.     String s = "漫話編程!"
  3.  
  4.     byte[] bytes = s.getBytes(Charset.forName("GBK")); 
  5.  
  6.     System.out.println("GBK編碼,GBK解碼:" + new String(bytes, "GBK")); 
  7.  
  8.     System.out.println("GBK編碼,GB18030解碼:" + new String(bytes, "GB18030")); 
  9.  
  10.     System.out.println("GBK編碼,UTF-8解碼:" + new String(bytes, "UTF-8")); 

輸出結果:

  1. GBK編碼,GBK解碼:漫話編程! 
  2. GBK編碼,GB18030解碼:漫話編程! 
  3. GBK編碼,UTF-8解碼:???????? 

可以看到,將中文字符,通過 GBK 編碼,再使用 UTF-8 解碼,得到的字符就是一串問號,這就是亂碼了。

錕斤拷的前世今生

因為 Unicode 是一直在更新的,在這個過程中,肯定有一些比較新的字符他是無法表示的。

或者即使 Unicode 發布了新版納入了某個文字,但是很多軟件系統并未升級也會有這樣的問題。

就像生活中一些手機廠商新出的那些 emoji 表情,在自己的手機上可以正常顯示,發到其他品牌的手機上可能就無法顯示。這其實也是字符集不支持導致的。

發生以上情況時,無法顯示的時候也需要有一個字符來表示的,在 Unicode 中,這個字符就是 � ,他也是 Unicode 中定義的一個特殊字符。

也就是"0xFFFD REPLACEMENT CHARACTER",所有無法表示的字符都會通過這個字符來表示。

Unicode 官方有關于這個符號的介紹,從上表中可以看到,他的 10 進制表示是 65533,在 UTF-8 下,他的 16 進制形式是'0xEF 0xBF 0xBD'(三個字節)。

如果有兩個連續的字符都無法顯示,如"� �" ,那么在 UTF-8 編碼下,16 進制表示為:

  1. 0xEF 0xBF 0xBD  
  2. 0xEF 0xBF 0xBD 

以上這段編碼,如果放到 GBK 中進行解碼的話,因為 GBK 中一個漢字兩個字節,那么結果就是:

  1. 0xEF 0xBF, 0xBD 0xEF, 0xBF 0xBD 

即:

  1. 0xEFBF 
  2. 0xBDEF 
  3. 0xBFBD 

那么,如果展示出來,就是:錕(0xEFBF),斤(0xBDEF),拷(0xBFBD)。

所以,以后再見到錕斤拷,第一時間想到 UTF-8 和 GBK 的轉換問題準沒錯。

除了錕斤拷以外,還有兩組比較經典的亂碼,分別是"燙燙燙"和"屯屯屯",這兩個亂碼產生自 VC,這是 Debug 模式下 VC 對內存的初始化操作。

VC 會把棧中新分配的內存初始化為 0xcc,而把堆中新分配的內存初始化為 0xcd。把 0xcc 和 0xcd 按照字符打印出來,就是燙和屯了。

 

責任編輯:武曉燕 來源: 漫話編程
相關推薦

2021-10-18 08:41:06

錕斤拷ASCII編碼

2021-01-26 05:13:12

錕斤拷String 二進制

2025-03-28 04:00:00

互聯網Java讀操作

2024-04-01 08:52:54

CPU網絡資源

2022-09-01 13:25:54

isEmptyisBlank

2024-09-04 09:32:40

2025-06-24 08:05:00

函數重載編譯器編程

2024-02-26 08:37:02

Feign項目接口

2011-05-11 18:26:09

網站收錄量

2019-11-18 15:07:54

編程語言C#

2019-06-24 08:32:09

技術總監JavaC++

2021-02-06 09:21:17

MySQL索引面試

2024-03-06 08:00:56

javaAQS原生

2022-04-01 08:37:07

SpringAPI前端

2022-03-21 14:09:19

面試C語言代碼

2019-08-13 21:49:54

編程中文API中文編程

2020-03-16 13:27:47

開發者產品化系統

2022-02-22 11:50:16

Python字典代碼

2009-05-08 11:10:24

主考官面試求職

2021-07-01 12:10:31

性能優化React
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区三区在线免费观看 | 久久人体视频 | 久久精品成人 | 亚洲高清三级 | 国产精品亚洲成在人线 | 久久久一区二区三区四区 | 操网站 | 国产在线播放一区二区三区 | 午夜精品福利视频 | 日韩精品在线观看一区二区 | 福利视频三区 | 国产欧美精品区一区二区三区 | 色999日韩| 色免费视频 | 视频一区在线 | 一级片免费网站 | 黄色大片免费网站 | 国产欧美一区二区精品久导航 | 91视频a | 日韩免费网 | 一级黄色播放 | 成人欧美一区二区三区黑人孕妇 | 精品中文字幕一区二区三区 | 一区二区福利视频 | 黄网站免费在线看 | 精品国产乱码久久久久久果冻传媒 | www.狠狠干 | 久久这里只有精品首页 | 三级成人在线 | 免费的色网站 | 中文字幕在线三区 | 欧美日韩中文国产一区发布 | 在线一区二区三区 | 成人精品鲁一区一区二区 | 在线观看视频91 | 欧美精品福利视频 | 午夜男人天堂 | 日韩欧美国产精品 | 国产黄色在线观看 | 日韩综合| 亚洲性爰|