【Python爬蟲】一招搞定發送中文HTTP請求頭
有時需要將HTTP請求頭的值設為中文,但如果直接設成中文,會拋出異常,例如,下面的代碼為Chinese請求頭設置了中文。
- from urllib import request
- url = 'http://httpbin.org/post'
- headers = {
- 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',
- 'Host':'httpbin.org',
- 'Chinese':'李寧',
- }
- req = request.Request(url = url,headers=headers,method="POST")
- request.urlopen(req)
執行這段代碼,會拋出如下的異常。
- UnicodeEncodeError: 'latin-1' codec can't encode characters in position 0-1: ordinal not in range(256)
這個異常表明HTTP請求頭只能是英文字符和符號,不能是雙字節的文字,如中文。為了解決這個問題,在設置HTTP請求頭時需要將中文編碼,然后發送到服務端后,在服務端用同樣的規則解碼??梢圆捎枚喾N編碼方式,例如url編碼,base64編碼,url編碼就是在瀏覽器地址欄中如果輸入中文,會將其轉換為%xx的形式。如輸入“中國”,會變成E4%B8%AD%E5%9B%BD。
對字符串url編碼,需要使用urllib.parse模塊的urlencode函數,解碼要使用unquote函數,代碼如下:
- from urllib.parse import unquote,urlencode
- # 對中文進行編碼
- value = urlencode({'name':'李寧'})
- print(value)
- # 對中文進行解碼
- print(unquote(value))
執行這段代碼,會輸出如下結果:
- name=%E6%9D%8E%E5%AE%81
- name=李寧
使用urlencode函數進行編碼時,需要指定字典類型,不能直接對字符串進行編碼。因為urlencode函數只能對url參數進行編碼。
base64編碼需要使用base64模塊中的b64encode函數,解碼使用b64decode函數,代碼如下:
- import base64
- # 對中文進行編碼
- base64Value = base64.b64encode(bytes('Python從菜鳥到高手',encoding='utf-8'))
- print(str(base64Value,'utf-8'))
- # 對中文進行解碼,并按utf-8編碼格式將解碼后的結果轉換為字符串
- print(str(base64.b64decode(base64Value),'utf-8'))
b64encode函數編碼后返回的是bytes類型,需要使用str函數將其轉換為字符串類型。b64decode函數解碼時需要指定bytes類型的值,b64decode函數的返回值也是bytes類型,所以也需要str函數將該函數的返回值轉換為字符串。
下面的例子演示了設置中文HTTP請求頭,并對其解碼的完整過程。
- from urllib import request
- from urllib.parse import unquote,urlencode
- import base64
- url = 'http://httpbin.org/post'
- headers = {
- 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36',
- 'Host':'httpbin.org',
- 'Chinese1':urlencode({'name':'李寧'}), # 設置中文HTTP請求頭,用url編碼格式
- # 設置中文HTTP請求頭,用base64編碼格式
- 'MyChinese':base64.b64encode(bytes('這是中文HTTP請求頭',encoding='utf-8')),
- 'who':'Python Scrapy'
- }
- dict = {
- 'name':'Bill',
- 'age':30
- }
- data = bytes(urlencode(dict),encoding='utf-8')
- req = request.Request(url = url,data=data,headers=headers,method="POST")
- # 通過add_header方法添加中文HTTP請求頭,url編碼格式
- req.add_header('Chinese2',urlencode({"國籍":"中國"}))
- response=request.urlopen(req)
- # 獲取服務端的響應信息
- value = response.read().decode('utf-8')
- print(value)
- import json
- # 將返回值轉換為json對象
- responseObj = json.loads(value)
- # 解碼url編碼格式的HTTP請求頭
- print(unquote(responseObj['headers']['Chinese1']))
- # 解碼url編碼格式的HTTP請求頭
- print(unquote(responseObj['headers']['Chinese2']))
- # 解碼base64編碼格式的HTTP請求頭
- print(str(base64.b64decode(responseObj['headers']['Mychinese']),'utf-8'))
運行結果如圖1所示。
圖1 設置中文HTTP請求頭
本文轉載自微信公眾號「極客起源」,可以通過以下二維碼關注。轉載本文請聯系極客起源公眾號。