成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深入淺出理解Python“亂碼”問題

開發 后端
當源網頁編碼和爬取下來后的編碼轉換不一致時,如源網頁為gbk編碼的字節流,而我們抓取下后程序直接使用utf-8進行編碼并輸出到存儲文件中,這必然會引起亂碼,即當源網頁編碼和抓取下來后程序直接使用處理編碼一致時,則不會出現亂碼,此時再進行統一的字符編碼也就不會出現亂碼了。

 在爬取某網站時,網頁的源代碼出現了中文亂碼問題。之前關于爬蟲亂碼有各式各樣的問題,今天與大家一起總結下關于網絡爬蟲的亂碼處理。注意,這里不僅是中文亂碼,還包括一些如日文、韓文 、俄文、藏文之類的亂碼處理,因為他們的解決方式 是一致的,故在此統一說明。

一、亂碼問題的出現

就以爬取51job網站舉例,講講為何會出現“亂碼”問題,如何解決它以及其背后的機制。

代碼示例:

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. print(res.text) 

顯示結果:

 

打印res.text時,發現了什么?中文亂碼!!!不過發現,網頁的字符集類型采用的gbk編碼格式。

我們知道Requests 會基于 HTTP 頭部對響應的編碼作出有根據的推測。當你訪問 r.text 之時,Requests 會使用其推測的文本編碼。你可以找出 Requests 使用了什么編碼,并且能夠使用r.encoding 屬性來改變它。

接下來,我們一起通過resquests的一些用法,來看看Requests 會基于 HTTP 頭部對響應的編碼方式。

  1. print(res.encoding)  #查看網頁返回的字符集類型 
  2. print(res.apparent_encoding) #自動判斷字符集類型 

輸出結果為:

 

可以發現Requests 推測的文本編碼(也就是網頁返回即爬取下來后的編碼轉換)與源網頁編碼不一致,由此可知其正是導致亂碼原因。

二、亂碼背后的奧秘

當源網頁編碼和爬取下來后的編碼轉換不一致時,如源網頁為gbk編碼的字節流,而我們抓取下后程序直接使用utf-8進行編碼并輸出到存儲文件中,這必然會引起亂碼,即當源網頁編碼和抓取下來后程序直接使用處理編碼一致時,則不會出現亂碼,此時再進行統一的字符編碼也就不會出現亂碼了。最終爬取的所有網頁無論何種編碼格式,都轉化為utf-8格式進行存儲。

注意:區分源網編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統一轉換字符的編碼C-utf-8。

在此,我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區別聯系,大概如下:

最早的編碼是iso8859-1,和ascii編碼相似。但為了方便表示各種各樣的語言,逐漸出現了很多標準編碼。iso8859-1屬于單字節編碼,最多能表示的字符范圍是0-255,應用于英文系列。很明顯,iso8859-1編碼表示的字符范圍很窄,無法表示中文字符。

1981年中國人民通過對 ASCII 編碼的中文擴充改造,產生了 GB2312 編碼,可以表示6000多個常用漢字。但漢字實在是太多了,包括繁體和各種字符,于是產生了 GBK 編碼,它包括了 GB2312 中的編碼,同時擴充了很多。中國又是個多民族國家,各個民族幾乎都有自己獨立的語言系統,為了表示那些字符,繼續把 GBK 編碼擴充為 GB18030 編碼。每個國家都像中國一樣,把自己的語言編碼,于是出現了各種各樣的編碼,如果你不安裝相應的編碼,就無法解釋相應編碼想表達的內容。終于,有個叫 ISO 的組織看不下去了。他們一起創造了一種編碼 UNICODE ,這種編碼非常大,大到可以容納世界上任何一個文字和標志。所以只要電腦上有 UNICODE 這種編碼系統,無論是全球哪種文字,只需要保存文件的時候,保存成 UNICODE 編碼就可以被其他電腦正常解釋。UNICODE 在網絡傳輸中,出現了兩個標準 UTF-8 和 UTF-16,分別每次傳輸 8個位和 16個位。于是就會有人產生疑問,UTF-8 既然能保存那么多文字、符號,為什么國內還有這么多使用 GBK 等編碼的人?因為 UTF-8 等編碼體積比較大,占電腦空間比較多,如果面向的使用人群絕大部分都是中國人,用 GBK 等編碼也可以。

也可以這樣來理解:字符串是由字符構成,字符在計算機硬件中通過二進制形式存儲,這種二進制形式就是編碼。如果直接使用 “字符串↔️字符↔️二進制表示(編碼)” ,會增加不同類型編碼之間轉換的復雜性。所以引入了一個抽象層,“字符串↔️字符↔️與存儲無關的表示↔️二進制表示(編碼)” ,這樣,可以用一種與存儲無關的形式表示字符,不同的編碼之間轉換時可以先轉換到這個抽象層,然后再轉換為其他編碼形式。在這里,unicode 就是 “與存儲無關的表示”,utf—8 就是 “二進制表示”。

三、亂碼的解決方法

根據原因來找解決方法,就非常簡單了。

方法一:直接指定res.encoding

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. res.encoding = "gbk" 
  6. html = res.text 
  7. print(html) 

方法二:通過res.apparent_encoding屬性指定

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. res.encoding = res.apparent_encoding 
  6. html = res.text 
  7. print(html) 

方法三:通過編碼、解碼的方式

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. html = res.text.encode('iso-8859-1').decode('gbk'
  6. print(html) 

輸出結果:

 

基本思路三步走:確定源網頁的編碼A---gbk、程序通過編碼B---ISO-8859-1對源網頁數據還原、統一轉換字符的編碼C-utf-8。至于為啥為出現統一轉碼這一步呢? 網絡爬蟲系統數據來源很多,不可能使用數據時,再轉化為其原始的數據,假使這樣做是很廢事的。所以一般的爬蟲系統都要對抓取下來的結果進行統一編碼,從而在使用時做到一致對外,方便使用。

比如如果我們想講網頁數據保存下來,則會將起轉為utf-8,代碼如下:

  1. with open("a.txt",'w',encoding='utf-8'as f: 
  2.     f.write(html) 

四、總結

關于網絡爬蟲亂碼問題,本文不僅給出了一個解決方案,還深入到其中的原理,由此問題引申出很多有意思的問題,如,utf-8、gbk、gb2312的編碼方式怎樣的?為什么這樣轉化就可以解決問題?

責任編輯:武曉燕 來源: Python中文社區
相關推薦

2021-03-16 08:54:35

AQSAbstractQueJava

2011-07-04 10:39:57

Web

2019-01-07 15:29:07

HadoopYarn架構調度器

2017-07-02 18:04:53

塊加密算法AES算法

2012-05-21 10:06:26

FrameworkCocoa

2021-07-20 15:20:02

FlatBuffers阿里云Java

2022-09-26 09:01:15

語言數據JavaScript

2020-10-19 10:35:18

數據庫監控 系統

2009-11-30 16:46:29

學習Linux

2012-02-21 13:55:45

JavaScript

2022-01-11 07:52:22

CSS 技巧代碼重構

2018-11-09 16:24:25

物聯網云計算云系統

2019-11-11 14:51:19

Java數據結構Properties

2022-11-09 08:06:15

GreatSQLMGR模式

2022-12-02 09:13:28

SeataAT模式

2022-10-31 09:00:24

Promise數組參數

2019-12-04 10:13:58

Kubernetes存儲Docker

2009-11-18 13:30:37

Oracle Sequ

2021-04-27 08:54:43

ConcurrentH數據結構JDK8

2025-03-27 09:38:35

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: av永久免费 | 国产激情自拍视频 | 日韩欧美国产成人一区二区 | 91玖玖| 精品一区欧美 | 日韩免费一区二区 | 亚洲综合在线播放 | 日本高清不卡视频 | 99re | 99tv| 紧缚调教一区二区三区视频 | 在线观看av不卡 | 一区二区不卡视频 | 七七婷婷婷婷精品国产 | 毛片一级片 | 特黄小视频 | 成人在线中文 | 日韩精品在线看 | 亚洲一区免费 | 秋霞电影一区二区三区 | 久久精品国产亚洲一区二区三区 | 日韩一区二区三区av | 久久久久久久国产 | 99久久婷婷国产综合精品电影 | 青青伊人久久 | 青青久视频| 成人做爰9片免费看网站 | 亚洲精品国产电影 | 国产高清在线 | 欧美日韩免费视频 | av在线伊人| 国产精品国产精品国产专区不卡 | 日日夜夜操天天干 | 成人区精品一区二区婷婷 | 久久综合888 | 亚洲美乳中文字幕 | 国产91久久精品一区二区 | 久久99精品国产 | 国产精品久久久久久一区二区三区 | 国产成人精品久久二区二区91 | 欧美激情一区二区 |