原始文件内容是这样的:
1000|1.0.0 313|20140814|2 银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省| 市|区|详细地址|客户风险等级|第三方产品代码 31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00| 371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888
我们将其另存为UTF-8格式,并用如下java代码读取文件
package com.szkingdom.leejun; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.util.Arrays; public class FileBomTest { public static void main(String[] args) throws IOException { File file = new File("F:\haha.txt"); FileInputStream fileInputStream=new FileInputStream(file); byte[] b=new byte[1024]; byte[] B=new byte[0]; int read =-1; while ((read=fileInputStream.read(b))>-1) { int i=B.length; B=Arrays.copyOf(B, B.length+read); for(int j=0;j<read;j++){ B[i+j]=b[j]; } } System.out.println(new String(B,"UTF-8")); } }
这时候控制台上显示是这样的:
?1000|1.0.0 313|20140814|2 银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省|市|区|详细地址|客户风险等级|第三方产品代码 31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00|371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888
在最前面多了一个?号这是为什么。原因其实很简单,当我们再windows下另存为时windows给UTF-8添加了BOM头。导致了读取异常的现象。我们用16进制打开文件可以看到:EF BB BF 这几个前缀。既然知道出现?号的原理了,那么我们只需要判断是否有该前缀,若有则跳过相应的字符就行了。或者可以用外部工具类读取。