• Python 大文件处理


    非内存资源可以使用with

    在python中逐行读取大文件

    在我们日常工作中,难免会有处理日志文件的时候,当文件小的时候,基本不用当心什么,直接用file.read()或readlines()就可以了,但是如果是将一个10G大小的日志文件读取,即文件大于内存的大小,这么处理就有问题了,会将整个文件加载到内存中从而造成MemoryError … 也就是发生内存溢出。

    对file对象进行迭代处理:

    with open('file_name', 'r') as file:
        for line in file:
            print line
    

    优点:

    • with语句,文件对象在执行完代码块退出后自动关闭文件流,文件读取数据发生异常,进行异常捕获处理
    • 对文件对象进行迭代时,在内部,它会缓冲IO(针对昂贵的IO操作进行优化)和内存管理,所以不必担心大文件。
    • 这才是 Pythonci 最完美的方式,既高效又快速

    缺点:

    • 每一行的数据内容不能大于内存大小,否则就会造成MemoryError

    使用yield

    正常情况使用上面这种方式就可以了,But,如果遇到整个文件只有一行,而且按照特定的字符进行分割,上面这种方式则不行了,这时候yield就非常有用了。

    举个栗子,log的形式是这样子的。

    • 2018-06-18 16:12:08,289 - main - DEBUG - Do something{|}…..
    • 以{|}做为分割符。
    def read_line(filename, split, size):
        with open(filename, 'r+') as file:
            buff = ''
            while True:
                while split in buff:
                    position = buff.index(split)
                    yield buff[:position]
                    buff = buff[(position +len(split)):]
                chunk = file.read(size)
                if not chunk:
                    yield buff
                    break
                buff = buff +chunk
    

    优点:

    • 不在限制每行数据的大小,即使整个大文件只有一行。

    缺点:

    • 速度比上面这种方式要慢。
    • 解析一下:
      • 首先:定义一个缓冲区buff
      • 循环判断,如果split分割符在缓冲区buff,则进行查找分割符出现的位置,并yield回去。
      • 将buff更新,继续第二步
      • 如果split分割符不在缓冲区buff,则read(size)个字符
      • 如果chunk为空,则跳出循环,否则更新buff, 继续第二步
      • 所以我们需要使用那种方式呢,一般来说使用用第一种就可以了。碰到只有一行的数据,而且数据特别大的,就要考虑一下你是不是得罪那个程序员了,故意给你这样一个文件。

    读取大几G的大文件,可以利用生成器 generator

    方法一: 将文件切分成小段,每次处理完小段,释放内存

    def read_in_block(file_path):
      BLOCK_SIZE=1024
      with open(file_path,"r") as f:
        while True:
          block =f.read(BLOCK_SIZE) #每次读取固定长度到内存缓冲区
          if block:
            yield block
          else:
            return #如果读取到文件末尾,则退出
    
    for block in read_in_block(file_path):
      print block
    

    // 这个方法,速度很快(只有3s),但有个问题,若满足了1024时,会将正好在1024位置的数据切开,虽然每个block都是str, 但无法直接得到每行的id,只能再切分。

    def readInChunks(fileObj, chunkSize=4096):
        """
        Lazy function to read a file piece by piece.
        Default chunk size: 4kB.
        """
        while 1:
            data = fileObj.read(chunkSize)
            if not data:
                break
            yield data
    
    f = open('bigFile')
    for chuck in readInChunks(f):
        #do_something(chunk)
    f.close()
    

    python 实现大文件md5值计算

    python 中使用hashlib模块实现常见摘要算法,如md5、sha1等。

    hashlib.md5(文件内容)实现了对文件的md5计算,注意参数为文件内容而不是文件路径。

    import hashlib
    
    with open('2.jpeg','rb') as f:
      data = f.read()
    
    d5 = hashlib.md5(data) 
    print(d5.hexdigest())
    

    md5()返回的是md5对象,不是md5值,通过hexdigest()方法获取md5值。

    md5计算时文件数据是放在内存中的,当我们计算一个大文件时,可以用update方法进行分步计算,每次添加部分文件数据进行计算,减少内存占用。

    import hashlib
     
    d5 = hashlib.md5()
    with open('3.jpeg','rb') as f:
      while True:
          data = f.read(2024)
          if not data:
              break
          d5.update(data) #update添加时会进行计算
     print(d5.hexdigest()) #打印结果
    
  • 相关阅读:
    Java之泛型练习
    集合框架-Map练习-记录字母出现的次数
    集合框架Map之entrySet方法的使用
    集合框架Map之KeySet方法的使用
    Java集合框架之LinkedList-----用LinkedList模拟队列和堆栈
    springboot2.0+mycat实验读写分离
    mysql主从复制
    mycat读写分离
    kafka初探
    redis-List类型
  • 原文地址:https://www.cnblogs.com/meilong/p/da-wen-jian.html
Copyright © 2020-2023  润新知