• 一道文本处理题目的思考


     在网上碰到有网友问了这么一道题,题目是这样的:
     
    java 写入txt文件,想要修改txt文件每一行的第一个数字,加1;
    例如txt文件是:
    1     1     5
    2     2     10
    3     3     15
     
    转变成:
    2     1     5
    3     2     10
    4     3     15
     
    看到题目的第一反应时可能需要正则表达式,而在java中使用raplaceAll("正则表达式","替换后的表达式")基本上就可以搞定了。但是有一个问题:正则匹配很好写,reg = "^\d+";就可以匹配每行的第一个数字了,但是替换成什么呢?需要对每个数字加1,这个怎么处理?使用捕获组可以获取我们需要处理的数据,但是捕获后,无法进一步处理数据了。此条路不通之后,很不情愿的想起另外一种办法:按行处理。
     
    扫描需要处理的文本,每扫描一行,就对该行进行匹配,匹配到数据之后,对该行处理,然后将该行写入到新的文件,整个文本扫描完成之后,数据也就处理完了。这个办法是不是很笨拙?对于目前也没有更好的方式(更好的方式也许可以使用excel来处理,但是要求使用编程来完成),就开始代码实现了:
     
    // code version 1.0
     
    开始写代码时,发现数据之间都是以多个空格或者tab来分割,方便期间,使用split函数来处理吧。
     
         // java 解析文本,将每行第一个数字加1
         public static void writeFile() {
               BufferedReader reader = null;
               BufferedWriter writer = null;
                try{
                    File file = new File( "new.txt");
                     if(!file.exists()) {
                         file.createNewFile();
                    }
                    StringBuffer sb = new StringBuffer();
                    reader = new BufferedReader( new FileReader("test.txt"));
                    String line = null;
                     //按行读取
                     while((line = reader.readLine()) != null) {
                         String[] arr = line.split( "[ ]++");
                          if(arr. length < 3) {
                               sb.append(line).append( " ");
                                continue;
                         }
                          //获取第一个数字,并加1
                          int num = Integer. valueOf(arr[0]);
                         num ++;
                         sb.append(num).append( " ").append(arr[1]).append( " ").append(arr[2]).append( " ");
                    }
                    
                     //写入新的文件
                    writer = new BufferedWriter( new FileWriter(file));
                    writer.write(sb.toString());
                    
               } catch (IOException e) {
                    e.printStackTrace();
               } finally {
                     if(reader != null) {
                          try {
                               reader.close();
                         } catch (IOException e) {
                                // TODO Auto-generated catch block
                               e.printStackTrace();
                         }
                    }
                     if(writer != null) {
                          try {
                               writer.close();
                         } catch (IOException e) {
                                // TODO Auto-generated catch block
                               e.printStackTrace();
                         }
                    }
               }
               
         }
     
    代码写起来还是很顺利的,但是有个问题,在数据处理完成之后:
    int num = Integer.valueOf(arr[0]);
    num ++;
    怎么把新的内容写入到当前行中,也就是写入当前的文本中?处理数据的时候是通过reader来按行读取,如果需要将数据写入的话,需要writer,在读取文件的时候,直接使用writer写入数据,也不是件很容易的事。为了方便处理,果断建立一个新的文件,写入新的数据,处理完之后,删掉旧的文件就是!
     
    代码实现之后,就跟一个朋友商讨了下,朋友说,可以使用正则来完成,split的效率有点低。OK,把主要的处理过程重新实现了下:
    // code version 1.1
                Pattern pattern = Pattern. compile("^\d+" );
                while(...) {
                   Matcher matcher = pattern .matcher(line);
                   if(matcher.find()) {
                         String str = matcher.group();
                         int n = Integer.parseInt(str);
                         n ++;
                         line = line.replaceFirst(str, String.valueOf(n));
                         sb.append(line).append( " ");
                   }
                }     
     
    除了将split修改为Pattern之后,同时,行数据也保持原来的风格保持了不变:
    line = line.replaceFirst(str, String.valueOf(n));
     
    但是为什么Pattern会比split的效率高呢?
    split的实现中,会调用Pattern.compile("...");也就是在对文本每行的处理中,如果使用split,则每次都会新建一个Pattern.compile("...")对象。而在使用Pattern类,只在最开始生成一个Pattern.compile("...")对象,减少了内存的开销;
     
     
    一个前辈说,不需要正则,使用indexOf和substring可以提高效率。同时,他建议不要使用BufferedWriter,应当使用printStream。
    恩,开始修改代码:
     
    // code version 1.2
     
          public static void writeFile() throws IOException {
                    BufferedReader reader = null;
                    PrintStream writer = null;
                
                    File file = new File( "new.txt");
                     if(!file.exists()) {
                         file.createNewFile();
                    }
                    writer = new PrintStream( new FileOutputStream(file));
                    reader = new BufferedReader( new FileReader("test.txt" ));
                    String line = null;
                     //按行读取
                     while((line = reader.readLine()) != null) {
                          //这里通过index来确定需要处理的数据
                          int index = line.indexOf( " ");
                          if(index == -1) {
                                continue;
                          }
                          int num = Integer.parseInt(line.substring(0,index))+1;
                          line = num + line.substring(index);
                          writer.println(line);
                    }
                   // ....
               
         }
     
    使用indexOf和substring 替换掉正则之后,逻辑似乎也清晰了许多,由于去掉了正则表达式的一些处理,直接对字符串处理,效率上应该会有一些提高。但是使用PrintStream 替换掉BufferedWriter是不是就是个好主意?不见得,BufferedWriter作为一个具有缓冲功能的包装类,性能上比其他类要高很多。而且在处理文本时,每处理一行,就向文件中写入数据,这个性能也不见得很高。权衡之际,提高处理数据效率,使用indexOf和substring,写文件时,采用BufferedWriter将数据写入缓冲,提高效率。
     
    // code version 1.3
     
          public static void writeFile() throws IOException {
                    BufferedReader reader = null;
                    BufferedWriter writer = null;
                
                    writer = new BufferedWriter( new FileWriter("new.txt" ));
                    reader = new BufferedReader( new FileReader("test.txt" ));
                    String line = null;
                     //按行读取
                     while((line = reader.readLine()) != null) {
                          //这里通过index来确定需要处理的数据
                         int index = line.indexOf( " ");
                         if(index == -1) {
                                continue;
                         }
                         int num = Integer.parseInt(line.substring(0,index))+1;
                         line = num + line.substring(index);
                         writer.write(line);
                         writer.newLine();
                    }
                    
                   //...
         }
     
    到此,关于该题目的编码总算尘埃落定。期间,经历了几番波折,从split->Pattern->indexOf再到流的选取,纠结了较长时间。总结一下:
     
    1、尽量不要使用正则表达式,可以使用indexOf和substring来代替正则;必须使用正则的情况下,使用Pattern类能够提高效率。
    2、使用Buffer之类的包装类,可以提高效率。
     
    但是,还是有几个问题留作以后慢慢考虑吧。
    1、直接使用正则或者是否还有其他更简单的处理方式么?
    2、如何直接写入到当前的文件中?
     
  • 相关阅读:
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
    mysql 借用临时加索引的方式,使原来几分钟以上才能查出来的数据,优化到2秒钟以内
    周一不睡觉,也要把pandas groupy 肝完,你该这么学,No.8
    A Survey on Ring Signature
    门罗币基础技术介绍
    oracle 全表扫描返回无序
    截图工具竟是个大合体,这个软件一定要了解!
    健康小知识:你对肺痨了解多少?
    支持4K30帧的海鸟4K潜水套装上手体验
  • 原文地址:https://www.cnblogs.com/benshan/p/3577229.html
Copyright © 2020-2023  润新知