在Python中解決中英文混雜出錯(cuò)的問題
前兩天用Python寫了個(gè)小腳本,其中有個(gè)需求是從一個(gè)文本文件A中讀取數(shù)據(jù),然后處理一下寫進(jìn)一個(gè)新的文本文件B中。不過A文件中既有英文也有中文。
寫出處理這個(gè)需求的代碼并不復(fù)雜,隨手就能寫下類似的代碼:
|
不過這段程序一旦碰到有漢字的字符串時(shí),可能就會(huì)遇到下面的問題:
|
恩,這種情況對(duì)于我們平時(shí)使用C#或者Java的程序員來說確實(shí)比較頭大。從這個(gè)錯(cuò)誤提示來看,Python在寫文件時(shí),對(duì)line變量進(jìn)行了編碼操作,而且是針對(duì)line對(duì)象進(jìn)行ASCII碼的編碼。
我們都知道Python是支持unicode的,而且還有針對(duì)unicode的類型“unicode”。要想讓字符串稱為unicode字符串,可以在字符串的引號(hào)前面加入一個(gè)小寫字母“u”。翻閱Python的文檔,我們可以發(fā)下write方法接收的是str對(duì)象。不過Python并不像C#,它不用聲明變量的類型。所以我們應(yīng)該先看看line到底是個(gè)什么對(duì)象。于是為了解決這個(gè)問題,我把上面的代碼加了一行:
|
代碼運(yùn)行之后,我發(fā)現(xiàn)當(dāng)line中有中文的時(shí)候,我們的line變量的類型是unicode。從網(wǎng)上搜了一下與unicode與寫文件相關(guān)的帖子,可以得到一個(gè)信息,對(duì)這unicode對(duì)象調(diào)encode方法進(jìn)行編碼就可以正常寫文件了。于是代碼又編程了下面的樣子:
|
這里要注意的問題是不能一棍子打死,line可能會(huì)是unicode對(duì)象也可能是str對(duì)象,不過我們只對(duì)unicode對(duì)象進(jìn)行編碼。這下問題總算是解決了。
【編輯推薦】