• 在python中逐行读取大文件


    在我们日常工作中,难免会有处理日志文件的时候,当文件小的时候,基本不用当心什么,直接用file.read()或readlines()就可以了,但是如果是将一个10G大小的日志文件读取,即文件大于内存的大小,这么处理就有问题了,会将整个文件加载到内存中从而造成MemoryError … 也就是发生内存溢出。

    下面分享几个解决办法:

    对file对象进行迭代处理:

    with open('file_name', 'r') as file:
        for line in file:
            print line
    

     优点:

    • with语句,文件对象在执行完代码块退出后自动关闭文件流,文件读取数据发生异常,进行异常捕获处理

    • 对文件对象进行迭代时,在内部,它会缓冲IO(针对昂贵的IO操作进行优化)和内存管理,所以不必担心大文件。

    • 这才是 Pythonci 最完美的方式,既高效又快速

    缺点:每一行的数据内容不能大于内存大小,否则就会造成MemoryError

    使用yield

    正常情况使用上面这种方式就可以了,But,如果遇到整个文件只有一行,而且按照特定的字符进行分割,上面这种方式则不行了,这时候yield就非常有用了。

    举个栗子,log的形式是这样子的。

    • 2018-06-18 16:12:08,289 - main - DEBUG - Do something{|}…..

    • 以{|}做为分割符。

    • def read_line(filename, split, size):
          with open(filename, 'r+') as file:
              buff = ''
              while True:
                  while split in buff:
                      position = buff.index(split)
                      yield buff[:position]
                      buff = buff[(position +len(split)):]
                  chunk = file.read(size)
                  if not chunk:
                      yield buff
                      break
                  buff = buff +chunk
                

    优点:不在限制每行数据的大小,即使整个大文件只有一行。
    缺点:速度比上面这种方式要慢。
    解析一下:

    • 首先:定义一个缓冲区buff

    • 循环判断,如果split分割符在缓冲区buff,则进行查找分割符出现的位置,并yield回去。

    • 将buff更新,继续第二步

    • 如果split分割符不在缓冲区buff,则read(size)个字符

    • 如果chunk为空,则跳出循环,否则更新buff, 继续第二步

    所以我们需要使用那种方式呢,一般来说使用用第一种就可以了。碰到只有一行的数据,而且数据特别大的,就要考虑一下你是不是得罪那个程序员了,故意给你这样一个文件。

  • 相关阅读:
    [ZJOI 2012]数列
    [JSOI 2011]柠檬
    sonar错误及修改方案
    mysql 查询该字段不包含中文
    service 事务
    mysql 不等于和null
    java文件编译为class文件
    主,副时间排序
    MySQL 按首字母排序
    excle导入
  • 原文地址:https://www.cnblogs.com/xiyuan2016/p/9592094.html
Copyright © 2020-2023  润新知