Linux漢字亂碼解決辦法(數(shù)據(jù)庫(kù)插入、服務(wù)器上傳)
51CTO編輯注:本文來(lái)自阿里巴巴數(shù)據(jù)倉(cāng)庫(kù)部門(mén)的團(tuán)隊(duì)對(duì)外宣傳和技術(shù)溝通博客alidw.com。
在Linux下,你有沒(méi)有這樣的經(jīng)歷,文本文件里面的漢字顯示都是正常的,可一插到數(shù)據(jù)庫(kù)里就變成了亂碼;文件名在本機(jī)顯示都很正常,一傳到服務(wù)器上顯示的都變成亂碼了,最近就差點(diǎn)被這個(gè)問(wèn)題搞死,***還算小有收獲,這里寫(xiě)一下心得:
1,首先要知道文件自己的編碼方式,就是文件是以u(píng)tf8還是以gbk等編碼方式存儲(chǔ)的,因?yàn)檫@是根本。以xxx.dat文件為例
用vi命令打開(kāi)xxx.dat文件
在命令行模式:輸入set fileencoding 這時(shí)會(huì)在終端的底部顯示文件的編碼方式,顯示的結(jié)果如果是cp936(等同于gbk)或者utf8等,那說(shuō)明文件的編碼方式已經(jīng)被正確判斷出來(lái)了,如果是latin1,我們就可能要設(shè)定VI的fileencodings這個(gè)環(huán)境變量的值,打開(kāi)vimrc這個(gè)文件,RHEL的這個(gè)文件在/etc目錄下、Ubuntu在/etc/vim目錄下;或者你也可以建一個(gè)~/.vimrc文件
然后把里面merge成:set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1 然后重新vi xxx.dat
PS:我們打開(kāi)文件的時(shí)候, VIM 按順序使用 fileencodings 中的編碼進(jìn)行嘗試解碼, 如果成功的話, 就使用該編碼方式進(jìn)行解碼, 并將 fileencoding 設(shè)置為這個(gè)值, 如果失敗的話, 就繼續(xù)試驗(yàn)下一個(gè)編碼。而latin1 是一種非常寬松的編碼方式, 任何一種編碼方式得到的文本, 用 latin1 進(jìn)行解碼, 都不會(huì)發(fā)生解碼失敗 —— 當(dāng)然, 解碼得到的結(jié)果自然也就是理所當(dāng)然的“亂碼”
2,下一個(gè)比較重要的就是LANG這個(gè)環(huán)境變量了(關(guān)于這個(gè)變量的含義和作用自己百度,可以搜出一堆)
假如xxx.dat是以u(píng)tf8編碼,往數(shù)據(jù)庫(kù)里插的時(shí)候,我們就需要把LANG這個(gè)環(huán)境變量設(shè)成LANG=zh_CN.utf8,如果xxx.dat是以cp936、LANG就需要設(shè)成LANG=zh_CN.gbk
這樣在插入的時(shí)候,就不需要用程序?qū)ξ募淖址M(jìn)行轉(zhuǎn)換,可以直接插入
PS:用locale -a命令查看可以把LANG設(shè)成哪些值,locale -m 查看系統(tǒng)支持哪些字符集,假如locale -a沒(méi)有你所需要的值,比如zh_CN.gbk,那就需要手動(dòng)安裝,安裝方法也很簡(jiǎn)單
a. sudo cp /var/lib/locales/supported.d/local /var/lib/locales/supported.d/local.old【可選,備份】
b. sudo cp /usr/share/i18n/SUPPORTED /var/lib/locales/supported.d/local
編輯/var/lib/locales/supported.d/local去掉大多數(shù)不用的行(locales)
c. sudo dpkg-reconfigure locales
編輯/etc/environment文件,設(shè)置一下要用的LANG
也可以用locale-gen命令設(shè)置默認(rèn)的locale,如sudo locale-gen zh_CN.UTF-8
3,還有一個(gè)同事,LANG環(huán)境變量(這里要注意環(huán)境變量生效的范圍)也已經(jīng)改過(guò)了,把windows的文件重新傳到了Linux服務(wù)器上,通過(guò)網(wǎng)頁(yè)瀏覽,文件名仍然是亂碼,這是因?yàn)長(zhǎng)ANG還未在apache服務(wù)器上生效,重啟一下apache服務(wù)就可以了。
原文:http://www.alidw.com/?p=1643
【編輯推薦】