• 用java程序复制UTF-8文件后开头出现?号


    原始文件内容是这样的:

    1000|1.0.0
    313|20140814|2
    银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省|
    
    市|区|详细地址|客户风险等级|第三方产品代码
    31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00|
    
    371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888

    我们将其另存为UTF-8格式,并用如下java代码读取文件

    package com.szkingdom.leejun;
    
    import java.io.File;
    import java.io.FileInputStream;
    import java.io.IOException;
    import java.util.Arrays;
    
    public class FileBomTest {
    	public static void main(String[] args) throws IOException {
    		File file = new File("F:\haha.txt");
    		FileInputStream fileInputStream=new FileInputStream(file);
    		byte[] b=new byte[1024];
    		byte[] B=new byte[0];
    		int read =-1; 
    		while ((read=fileInputStream.read(b))>-1) {
    			int i=B.length;
    			B=Arrays.copyOf(B, B.length+read);
    			for(int j=0;j<read;j++){
    				B[i+j]=b[j];
    			}
    		}
    		
    		System.out.println(new String(B,"UTF-8"));
    	}
    }
    


    这时候控制台上显示是这样的:

    ?1000|1.0.0
    313|20140814|2
    银行流水号|银行交易时间|交易日期|银行虚拟账号|银行账号|银行账号类型|姓名|性别|证件类型|证件号码|证件有效期限|电话|邮箱|省|市|区|详细地址|客户风险等级|第三方产品代码
    31301201408140000002802313000000|20140814101832|20140814|00000000002014081200000000000355|6216920000065381|01|000|0|00|371321198812266128|20150202|15811111111|abc@gmail.com||11|||8|000888
    

    在最前面多了一个?号这是为什么。原因其实很简单,当我们再windows下另存为时windows给UTF-8添加了BOM头。导致了读取异常的现象。我们用16进制打开文件可以看到:EF BB BF 这几个前缀。既然知道出现?号的原理了,那么我们只需要判断是否有该前缀,若有则跳过相应的字符就行了。或者可以用外部工具类读取。


  • 相关阅读:
    写excel文件-xlsxwriter包的使用
    python代码规范
    mac系统的插件
    bash字符串处理
    ssh到ubuntu没颜色
    linux mysql 端口号修改
    Centos7 编译安装 PHP7.1,以及msgpack扩展
    Xmanager4注册码
    Python 的 pyinotify 模块 监控文件夹和文件的变动
    Python的50个模块,满足你各种需要
  • 原文地址:https://www.cnblogs.com/leejuen/p/5547472.html
Copyright © 2020-2023  润新知