Python vim檢查編碼在文件中的對應編碼的介紹
如果你在打開一個文件時中文編碼是什么格式不太清楚的話,例如文件頭可能指定是utf8,而實際編碼卻不是,就針對這一情況,你就可以用Python vim檢查編碼對其進行解決,以下是文章的具體介紹。
打開一個中文文件,不清楚其中文編碼到底是什么格式。python源程序文件頭可能指定是utf8,而實際編碼卻是gbk。不一致的編碼在python源碼中,可能在執行時得到錯誤的結果。一種解決辦法是查看二進制,但漢字的二進制到底對應什么編碼呢?
vim的vimrc里面增加兩行:
- set fenc=utf-8
- set fileencodings=utf-8,cp936,big5,euc-jp,
euc-kr,latin1,ucs-bom
這樣,文件保存缺省的為utf-8編碼。
- set enc=cp936
這是gvim界面顯示的編碼,windows下用cp936,linux下用utf8,***不要設,系統自己判斷。
對新打開的已經存在的文件,如果不確定一個文件是否是utf8還是gbk,用Pythonvim打開文件,看到中文,再在命令模式下執行
- :%!xxd
看到相應的二進制。假如文本中有“你好”,會在左邊對應位置看到你好的十六進制表示。打開python3.0,在命令行下將文本中的特定字“你好”進行二進制轉碼。
- view plaincopy to clipboardprint?
- >>> a='你好'
- >>> b=a.encode('utf8')
- >>> b
- b'\xe4\xbd\xa0\xe5\xa5\xbd'
- >>> c=a.encode('gbk')
- >>> c
- b'\xc4\xe3\xba\xc3'
- >>> a='你好'
- >>> b=a.encode('utf8')
- >>> b
- b'\xe4\xbd\xa0\xe5\xa5\xbd'
- >>> c=a.encode('gbk')
- >>> c
- b'\xc4\xe3\xba\xc3'
可以看到,對中文“你好”的二進制,utf8是
- 0xe4ba0 0xe5a5bd
而對gbk,gb2312,cp936,gb18030,則二進制是:0xc4e3 0xbac3與Python vim檢查編碼中二進制一比較,就看出文本中是什么編碼了。知道編碼后,再用
- :%!xxd -r
命令將十六進制轉為普通的文本,保存。對已經存在的文本,linux下可以用iconv將其轉碼。以上內容就是對Python3.0 和Python vim檢查編碼的介紹。
【編輯推薦】
- Python常用模塊中經常使用的其中模塊
- Python模塊功能在實際應用方案中的相關功能的介紹
- Python安裝中對配置環境變量實際操作的方法
- Python手工加載Django的實際操作的四部分詳解
- Python VIM 注釋掉代碼的具體方案的描述