在python中逐行读取大文件

在python中逐行读取大文件
在我们日常工作中，难免会有处理日志文件的时候，当文件小的时候，基本不用当心什么，直接用file.read()或readlines()就可以了，但是如果是将一个10G大小的日志文件读取，即文件大于内存的大小，这么处理就有问题了，会将整个文件加载到内存中从而造成MemoryError … 也就是发生内存溢出。

下面分享几个解决办法：

对file对象进行迭代处理：
```
with open('file_name', 'r') as file:
    for line in file:
        print line
```
　优点:
- with语句，文件对象在执行完代码块退出后自动关闭文件流,文件读取数据发生异常，进行异常捕获处理
- 对文件对象进行迭代时，在内部，它会缓冲IO(针对昂贵的IO操作进行优化)和内存管理，所以不必担心大文件。
- 这才是 Pythonci 最完美的方式，既高效又快速
缺点：每一行的数据内容不能大于内存大小，否则就会造成MemoryError

使用yield

正常情况使用上面这种方式就可以了，But,如果遇到整个文件只有一行，而且按照特定的字符进行分割,上面这种方式则不行了，这时候yield就非常有用了。

举个栗子,log的形式是这样子的。
- 2018-06-18 16:12:08,289 - main - DEBUG - Do something{|}…..
- 以{|}做为分割符。
- def read_line(filename, split, size): with open(filename, 'r+') as file: buff = '' while True: while split in buff: position = buff.index(split) yield buff[:position] buff = buff[(position +len(split)):] chunk = file.read(size) if not chunk: yield buff break buff = buff +chunk 　　
优点:不在限制每行数据的大小,即使整个大文件只有一行。
缺点：速度比上面这种方式要慢。
解析一下：
- 首先：定义一个缓冲区buff
- 循环判断，如果split分割符在缓冲区buff，则进行查找分割符出现的位置，并yield回去。
- 将buff更新，继续第二步
- 如果split分割符不在缓冲区buff，则read(size)个字符
- 如果chunk为空，则跳出循环，否则更新buff，继续第二步
所以我们需要使用那种方式呢，一般来说使用用第一种就可以了。碰到只有一行的数据，而且数据特别大的，就要考虑一下你是不是得罪那个程序员了，故意给你这样一个文件。
相关阅读:
[ZJOI 2012]数列
 [JSOI 2011]柠檬
 sonar错误及修改方案
 mysql 查询该字段不包含中文
 service 事务
 mysql 不等于和null
java文件编译为class文件
 主，副时间排序
 MySQL 按首字母排序
 excle导入
原文地址：https://www.cnblogs.com/xiyuan2016/p/9592094.html

最新文章
MVC 路由
 MVC Areas
自动登录
 Session
Cookie
上传文件
 微信小程序笔记
 ADO.NET
[总结]一些 DP 优化方法
 About me & 一些置顶的博文

在python中逐行读取大文件

对file对象进行迭代处理：

使用yield