文件处理
1.什么是文件,为什么要用文件?
文件是操作系统提供给用户或应用程序操作硬盘的一种虚拟的概念。
用户和应用程序可以通过文件将数据永久保存在硬盘中。操作文件就是操作硬盘。
2.如何用文件:open( )
open的模式1:控制文件读写内容,t 和 b,必须配合r a w使用。
t 文本模式(默认模式)
1.读写都以str为单位
2.必须是文本文件
3.必须指定encoding(不指定的会使用系统默认的编码)
b 二进制模式(bytes)
open的模式1:控制文件读写的模式
3.文件操作的基本流程
1.打开文件:open(‘文件路径’)
绝对路径:完整的路径,从磁盘开始,一层层的写
相对路径:相对于当前程序所在的文件夹为起始开始找
with as 的用法
with open(r'C:UsersAdministratorAppDataLocalTemp3.py111',mode='rt',encoding='utf_8') as f :
res=f.read()
print(res)
2、操作文件:读/写文件,应用程序对文件的读写请求都是在向操作系统发送系统调用,然后由操作系统控制硬盘把输入读入内存、或者写入硬盘。
3.关闭文件:.close( )
.close() # 回收操作系统资源
.read() # 变量f存在,但是不能再读了
del f # 回收应用程序资源
4.文件操作模式详解
以t模式为基础的操作:
r(默认操作模式):只读模式,全部读取,有多少读多少。当文件存在时文件指针跳到开始位置。
with open('c.txt',mode='rt',encoding='utf-8') as f:
print('第一次读'.center(50,'*'))
res=f.read() # 把所有内容从硬盘读入内存
print(res)
===============案例==================
inp_username=input('your name>>: ').strip()
inp_password=input('your password>>: ').strip()
# 验证
with open('user.txt',mode='rt',encoding='utf-8') as f:
for line in f:
# print(line,end='') # egon:123
username,password=line.strip().split(':')
if inp_username == username and inp_password == password:
print('login successfull')
break
else:
print('账号或密码错误')
2、w:只写模式,当文件不存在时会创建空文件,当文件存在会清空文件,指针位于开始位置,不能读。
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.read() # 报错,不可读
f.write('擦勒
')
强调1:
在以w模式打开文件没有关闭的情况下,连续写入,新的内容总是跟在旧的之后
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.write('擦勒1
')
f.write('擦勒2
')
f.write('擦勒3
')
强调2:
如果重新以w模式打开文件,则会清空文件内容
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.write('擦勒1
')
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.write('擦勒2
')
with open('d.txt',mode='wt',encoding='utf-8') as f:
f.write('擦勒3
')
3、a:只追加写,在文件不存在时会创建空文档,在文件存在时文件指针会直接调到末尾
with open('e.txt',mode='at',encoding='utf-8') as f:
# f.read() # 报错,不能读
f.write('擦嘞1
')
f.write('擦嘞2
')
f.write('擦嘞3
')
强调 w 模式与 a 模式的异同:
1 相同点:在打开的文件不关闭的情况下,连续的写入,新写的内容总会跟在前写的内容之后
2 不同点:以 a 模式重新打开文件,不会清空原文件内容,会将文件指针直接移动到文件末尾,新写的内容永远写在最后
案例:a模式用来在原有的文件内存的基础之上写入新的内容,比如记录日志、注册
注册功能
name=input('your name>>: ')
pwd=input('your name>>: ')
with open('db.txt',mode='at',encoding='utf-8') as f:
f.write('{}:{}
'.format(name,pwd))
了解:+不能单独使用,必须配合r、w、a
with open('g.txt',mode='rt+',encoding='utf-8') as f:
print(f.read())
f.write('中国')
with open('g.txt',mode='w+t',encoding='utf-8') as f:
f.write('111
')
f.write('222
')
f.write('333
')
print('====>',f.read())
with open('g.txt',mode='a+t',encoding='utf-8') as f:
print(f.read())
f.write('444
')
f.write('5555
')
print(f.read())
5 文件高级处理
b模式:更通用的模式,针对所有类型的文件
- 硬盘的二进制不做任何转换直接读入内存,python不显示二进制(太长了)
- python会把内存的二进制处理成bytes(16进制)类型显示输出,英文显示原字母。只是显示,本质还是二进制不变。
- 必须不能指定encoding
mode=‘rb’:只读
with open (r'C:UsersAdministratorDesktop111.txt',mode='rb') as f:
res=f.read()
print(res,type(res))
print(res.decode('utf-8'))#指定解码类型将二进制数解码成uft8输出
结果:
b'xe9x98xbfxe5x87xa1xe8xbexbeaaaa' <class 'bytes'>
阿凡达aaaa
mode=‘wb’:只写
with open('a.txt',mode='wb') as f:
msg="你好"
res=msg.encode('utf-8') # res为bytes类型
f.write(res) # 在b模式下写入文件的只能是bytes类型
补充:文件拷贝
方式一:while循环读文件(可以指定一次读取的字节)
with open('a.txt',mode='wb') as f1:
with open('a.txt',mode='wb') as f2:
while=1:
res=f.read(1024)#不规定字节的话一次全部读取文件的全部内容,可能导致占用太多内存计算机卡死。
f2=write(res)
if len (res)==0:
break
方式二:for循环读文件(只能一次读一行)如果一行有太多字节也能导致占用太多内存计算机卡死。
with open('a.txt',mode='wb') as f:
for line in f:#for循环默认换行符为分割符
res=line.read()
f2=write(res)
6 文件操作方法
-
读相关操作:
f.read() # 读取所有内容,执行完该操作后,文件指针会移动到文件末尾
f.readline() # 读取一行内容,光标移动到第二行首部
f.readlines() # 读取每一行内容,存放于列表中 -
写相关操作:
f.write('1111 222 ') # 针对文本模式的写,需要自己写换行符 f.write('1111 222 '.encode('utf-8')) # 针对b模式的写,需要自己写换行符 f.writelines(['333 ','444 ']) # 文件模式 f.writelines([bytes('333 ',encoding='utf-8'),'444 '.encode('utf-8')]) #b模式
补充:bytes类型的使用
如果是纯英文
如果是汉字
f.flush:立即写入硬盘
f.write()一般是攒够一波再写
f.readable() # 文件是否可读
f.writable() # 文件是否可读
f.closed # 文件是否关闭
f.encoding # 如果文件打开模式为b,则没有该属性
f.flush() # 立刻将文件内容从内存刷到硬盘
f.name
7 控制指针移动
大前提:文件内指针的移动都是Bytes为单位的,唯一例外的是t模式下read(n),n以字符为单位
# 之前文件内指针的移动都是由读/写操作而被动触发的,若想读取文件某一特定位置的数据,则则需要用f.seek方法主动控制文件内指针的移动,详细用法如下:
# f.seek(指针移动的字节数,模式控制): 如果移到末尾了就不能再往后移动了,指针只会停在末尾。
# 模式控制:
# 0: 默认的模式,该模式代表指针移动的字节数是以文件开头为参照的
# 1: 该模式代表指针移动的字节数是以当前所在的位置为参照的
# 2: 该模式代表指针移动的字节数是以文件末尾的位置为参照的
*强调:其中0模式可以在t或者b模式使用,而1跟2模式只能在b模式下用*
8.文件修改两种方式
修改硬件中文件的的方式只有一个就是:覆盖
-
基于w模式修改
实现思路:将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件
优点: 在文件修改过程中同一份数据只有一份,一般用于文本格式
缺点: 会过多地占用内存with open('c.txt',mode='rt',encoding='utf-8') as f: res=f.read() data=res.replace('alex','dsb') print(data) with open('c.txt',mode='wt',encoding='utf-8') as f1: f1.write(data)
-
基于import os
实现思路:以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完
后写入临时文件...,删掉原文件,将临时文件重命名原文件名
优点: 不会占用过多的内存
缺点: 在文件修改过程中同一份数据存了两份,过多的占用硬盘with open('c.txt', mode='rt', encoding='utf-8') as f, open('.c.txt.swap', mode='wt', encoding='utf-8') as f1: for line in f: f1.write(line.replace('alex', 'dsb')) os.remove('c.txt') os.rename('.c.txt.swap', 'c.txt')
习题:
1,文件copy工具实现
with open (r'1.txt',mode='rb') as f1:
with open(r'2.txt',mode='wb' as f2:
for line in f1:
res=line.read()
f2.write(res)
2,基于seek控制指针移动,测试r+、w+、a+模式下的读写内容
with open (r'1.txt',mode='rb+') as f1:
f1.seek(-4,2)
f1.write('egon')
res=f1.read()
print(res)
with open (r'1.txt',mode='w+b') as f1:
f1.write('egon')
f1.seek(-4,2)
res=f1.read()
print(res)
with open (r'1.txt',mode='wb+') as f1:
f1.write('egon')
f1.seek(-4,2)
res=f1.read()
print(res)
3、tail -f access.log 程序实现
with open('1.txt') as f:
f.seek(0,2)
line = f.readline()
print(line)