• 【Java/CSV】CSV文件中,如果单引号之间的内容必须作为整体考虑,其中若有逗号也不起分隔作用,该如何处理


    通常csv文件要处理,可以读出一行后用逗号去劈分,这样处理很方便;但是有CSV文件里也有这么一种情况,那就是单引号之间的内容必须作为整体考虑,其中若有逗号也不起分隔作用。如以下文件

    1,'andy,a',23,'2022-04-02 12:12:12'
    2,'bill,b,B',24,'2022-04-02 13:13:13'
    3,cindy,25,'2022-04-02 14:14:14'
    4,douglas,26,'2022-04-02 15:15:15'

    这个文件里,四个日期,还有

    andy,a和bill,b,B

    都是该作为整体考虑的,不能用逗号简单劈分了之。这时又该怎么办呢?

    对此的处理和分词器类似,我们可以让程序一个个读入字符,然后遇到逗号和单引号时分析一下:如果结束符是逗号,那么之前读入的部分便存起来;如果结束符是单引号,那么继续读入,直到读到下一个单引号为止。

    具体程序如下:

    package com.hy.lab;
    
    import java.io.BufferedReader;
    import java.io.FileInputStream;
    import java.io.InputStreamReader;
    import java.util.ArrayList;
    import java.util.List;
    
    /**
     * CsvReader阅读器
     * 默认以逗号分割内容,若发现单引号,则单引号之间的内容作为整体考虑
     * ctl文件中
     * fields terminated by ','
     * Optionally enclosed by '\''
     * 的原理性实现
     * 2022年4月2日
     */
    public class CsvReader {
        private List<List<String>> lines;
    
        public CsvReader(String filename) throws Exception{
            lines=new ArrayList<>();
    
            BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filename), "UTF-8"));
    
            String line = null;
            while( ( line = br.readLine() ) != null ) {
                lines.add(parseLine(line));
            }
            br.close();
        }
    
        private List<String> parseLine(String line){
            List<String> words=new ArrayList<>();
    
            char endChar=',';
            char[] arr=line.toCharArray();
            String word="";
            for(int i=0;i<arr.length;i++){
                char c=arr[i];
    
                if(c==','){
                    if(endChar=='\''){
                        word+=c;
                    }else{
                        if(word.trim().length()>0) {
                            words.add(word);
                            word = "";
                        }
                    }
                }else if(c=='\''){
                    if(endChar=='\''){
                        // 单引号结束处
                        endChar=',';
                        if(word.trim().length()>0) {
                            words.add(word);
                            word = "";
                        }
                    }else{
                        // 单引号开始处
                        endChar='\'';
                        if(word.trim().length()>0) {
                            words.add(word);
                            word = "";
                        }
                    }
                }else{
                    word+=c;
                }
            }
    
            // 收尾
            if(word.trim().length()>0) {
                words.add(word);
            }
    
            return words;
        }
    
        public void printContent(){
            for(List<String> line:lines){
                for(String word:line){
                    System.out.print(word+"\t\t");
                }
                System.out.println();
            }
        }
    
        public static void main(String[] args) throws Exception{
            CsvReader reader=new CsvReader("c:\\temp1\\emp42.csv");
            reader.printContent();
        }
    }

    读入的CSV文件内容如下:

    1,'andy,a',23,'2022-04-02 12:12:12',A
    2,'bill,b,B',24,'2022-04-02 13:13:13',B
    3,cindy,25,'2022-04-02 14:14:14',WOLD
    4,douglas,26,'2022-04-02 15:15:15',HELO

    处理后的输出如下:

    1        andy,a        23        2022-04-02 12:12:12        A        
    2        bill,b,B        24        2022-04-02 13:13:13        B        
    3        cindy        25        2022-04-02 14:14:14        WOLD        
    4        douglas        26        2022-04-02 15:15:15        HELO    

    如上,便是Oracle的ctl文件中

    fields terminated by ','
    Optionally enclosed by '\''

    的原理性实现

    END 

  • 相关阅读:
    js面试相关
    邮件(一):Springboot+thymeleaf的发邮件部分
    饿了么组件--table组件自定义渲染列,同时伴有v-for和v-if情况
    java开发规范学习
    java发送邮件
    vue垂死挣扎--遇到的问题
    vue学习记录
    matlab---设置背景颜色为白色
    Git push时不需要总输入密码
    我不知道的js(一)作用域与闭包
  • 原文地址:https://www.cnblogs.com/heyang78/p/16092688.html
Copyright © 2020-2023  润新知