淺談Java讀取Csv實踐
在CSV中,數據的字段由逗號分開,程序通過讀取文件重新創建正確的字段,方法是每次遇到逗號時開始新一段數據。CSV文件是一個計算機數據文件用于執行審判和真正的組織工具,逗號分隔的清單。CSV文件是用于數字存儲的數據結構表的形式列出,每個相關的項目(會員)的一組是與他人也由逗號隔開的規定。中的每一行都CSV文件對應表中的行。在一條線,字段用逗號分隔,每一個領域屬于一個表列。CSV文件常常被用于移動表格數據之間的兩個不同的計算機程序,例如關系數據庫程序和電子表格程序。讓我們一起來探討Java是怎樣讀取CSV的??
看項目中以前的處理方式是直接用用java IO類庫讀取Csv文件,實際處理中發現Csv文件本身包含了對各種特殊字符的處理信息。最常見的比如:
1. 對包含特殊字符的字符串數據首尾加雙引號
2. 對數據中的單個雙引號前加單個雙引號
其它...
所以用Java IO讀到的字符串全是經過處理后的字符串,在某些場景下是不符合預期需求的。比如我需要的是不做任何處理的原始內容。
項目中另一種常見的文件格式Excel用了POI來處理,但是POI不支持Csv格式,于是找到了javacsv。
代碼很簡單:
Java代碼
- public List importCsv(String file)
- {
- List list = new ArrayList();
- CsvReader reader = null;
- try
- {
- //初始化CsvReader并指定列分隔符和字符編碼
- reader = new CsvReader(file, ',', Charset.forName("GBK"));
- while (reader.readRecord())
- {
- //讀取每行數據以數組形式返回
- String[] str = reader.getValues();
- if (str != null && str.length > 0)
- {
- if (str[0] != null && !"".equals(str[0].trim()))
- {
- list.add(str);
- }
- }
- }
- }
- catch (FileNotFoundException e) {
- log.error("Error reading csv file.",e);
- }
- catch (IOException e)
- {
- log.error("",e);
- }
- finally
- {
- if(reader != null)
- //關閉CsvReader
- reader.close();
- }
- return list;
- }
以上代碼有幾個要點:
1 初始化CsvReader時指定分隔符和字符編碼,如果不指定,默認分別為逗號和ISO-8859-1,我用了GBK,具體使用時要看當時的字符編碼而定。
2 讀取每行數據,返回字符串數組,數組內的順序即文件數據列的順序
3 ***記得關閉CsvReader
是不是很簡單,返回的數組格式也正好是我想要的,而且拿到是原始的數據,沒有經過特殊字符處理。
有些同學質疑特殊字符未經處理,插到數據庫會出錯,其實大可不必我們手工處理,一些基礎組件比如JDBC的preparedstatement已經包含了對特殊字符的處理,我們只要以綁定參數的形式來傳送這些包含特殊字符的數據就可以。常用的持久化框架底層也封裝了JDBC,自然也對特殊字符做了處理。
【編輯推薦】