在Python中解決中英文混雜出錯(cuò)的問題

作者：blacktear 2009-03-17 09:52:22

本文將解決一個(gè)在使用Python過程中，碰到中文就出錯(cuò)的問題。希望能對(duì)大家碰到同類問題時(shí)，有所幫助。

前兩天用Python寫了個(gè)小腳本，其中有個(gè)需求是從一個(gè)文本文件A中讀取數(shù)據(jù)，然后處理一下寫進(jìn)一個(gè)新的文本文件B中。不過A文件中既有英文也有中文。
寫出處理這個(gè)需求的代碼并不復(fù)雜，隨手就能寫下類似的代碼：

1def write_a_line(line, fp):
2    fp.write(line)

不過這段程序一旦碰到有漢字的字符串時(shí)，可能就會(huì)遇到下面的問題：

Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: 
ordinal not in range(128)

恩，這種情況對(duì)于我們平時(shí)使用C＃或者Java的程序員來說確實(shí)比較頭大。從這個(gè)錯(cuò)誤提示來看，Python在寫文件時(shí)，對(duì)line變量進(jìn)行了編碼操作，而且是針對(duì)line對(duì)象進(jìn)行ASCII碼的編碼。

我們都知道Python是支持unicode的，而且還有針對(duì)unicode的類型“unicode”。要想讓字符串稱為unicode字符串，可以在字符串的引號(hào)前面加入一個(gè)小寫字母“u”。翻閱Python的文檔，我們可以發(fā)下write方法接收的是str對(duì)象。不過Python并不像C＃，它不用聲明變量的類型。所以我們應(yīng)該先看看line到底是個(gè)什么對(duì)象。于是為了解決這個(gè)問題，我把上面的代碼加了一行：

1def write_a_line(line, fp):
2    print line.__class__.__name__
3    fp.write(line)

代碼運(yùn)行之后，我發(fā)現(xiàn)當(dāng)line中有中文的時(shí)候，我們的line變量的類型是unicode。從網(wǎng)上搜了一下與unicode與寫文件相關(guān)的帖子，可以得到一個(gè)信息，對(duì)這unicode對(duì)象調(diào)encode方法進(jìn)行編碼就可以正常寫文件了。于是代碼又編程了下面的樣子：

1def write_a_line(line, fp):
2    if line.__class__.__name__ == “unicode”:
3        line = line.encode(“GB2312”)
4    fp.write(line)

這里要注意的問題是不能一棍子打死，line可能會(huì)是unicode對(duì)象也可能是str對(duì)象，不過我們只對(duì)unicode對(duì)象進(jìn)行編碼。這下問題總算是解決了。

【編輯推薦】

Python異常處理體系簡(jiǎn)介
使用Oracle數(shù)據(jù)庫(kù)實(shí)現(xiàn)Python數(shù)據(jù)持久
學(xué)習(xí)使用 Python 編寫插件

責(zé)任編輯：彭凡來源：博客園

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在Python中解決中英文混雜出錯(cuò)的問題