一、文件处理
什么是文件
文件是操作系统提供给用户/应用程序操作硬盘的一个虚拟单位
为何要使用文件
存取硬盘必须使用文件
如何用文件
打开文件的方法:open(文件路径,文件打开模式,编码方式等)
当使用open(文件路径,打开模式)时候,由应用程序帮助我们向操作系统发出申请,要打开一个文件,open(文件路径,打开模式)会产生一个返回值,叫文件对象(也叫文件句柄)。如下面的f
f = open(文件路径,打开模式),此时会占用操作系统的资源(因为要求操作系统打开文件),也会占用应用程序的资源(因为产生了文件对象f,需要内存空间)。
当文件操作结束之后,因为python有垃圾回收机制,就如同我们定义的x = 1一样,会自己被回收。而操作系统不会自己关闭文件,所以我们需要帮助操作系统关系,
语法是f.close()
使用文件的基本三个步骤:
1.f = open(文件位置,打开模式)
2.f.write(数据)
3.f.close()
应用程序/用户=》文件对象/文件句柄=》遥控
操作系统===========》文件 =================》 空调
硬件 ==============》系统
绝对路径
从系统盘开始到目标文件的路径
如Windows系统下:D:ac.txt
file_path = r'D:ac.txt'
linux系统共下:a/b/c.txt
相对路径
以当前目录为首发位置,利用一个.来代表当前路径
r模式
r模式只适用文本
f = open(r'a.txt',mode='rt',encoding='utf-8')
res = f.read()
print(res)
f.close()
rb模式
rb模式可以用以操作图片等,因为b模式读出来的是硬盘的原生内容即二进制,因为pycharm的优化,我们看到的是转化为16进制的数字。
f = open(r'a.txt',mode='rb')
res = f.read()
s = res.decode('utf-8')
print(s)
f.close()
二、文件的打开模式
文件的打开模式分类两大类:
控制文件读写操作的模式
'''1.1 r:只读(默认的):在文件不存在时则报错,文件存在时文件指针跳到文件开头'''
f = open('a.txt',mode='rt',encoding='utf-8')
res = f.read()
print(f.readable()) # 判断文件当前是否可读
print(f.writable()) # 判断文件当前是否可写
f.close()
------------------------------------------------
True
False
'''1.2 w:只写:在文件不存在时则创建空文件,文件存在时则清空,文件指针跳到文件开头'''
f.txt=open('b.txt',mode='wt',encoding='utf-8')
f.txt.write("落霞与孤鹜齐飞
")
f.txt.write("秋水共长天一色
")
f.txt.close()
'''1.3 a:只追加写:在文件不存在时则创建空文件,文件存在时也不会清空,文件指针跳到文件末尾'''
f.txt=open('c.txt',mode='at',encoding='utf-8')
f.txt.write("大弦嘈嘈如急雨
")
f.txt.write("小弦切切如私语
")
f.txt.close()
'''
总结:w与a的异同
相同点:在打开了文件不关闭的情况下,连续地写入,新的内容永远跟在老内容之后
不同点:重新打开文件,w会清空老的内容,而a模式会保留老的内容并且指针跳到文件末尾
'''
# 示范1:注册功能
name = input("your name: ").strip()
'''
做合法性校验:
1、如果输入的用户名包含特殊字符^$&...让用户重新输入
2、如果输入的用户名已经存在也重新输入
'''
pwd = input("your password: ").strip()
'''
做合法性校验:
1、密码长度
2、如果密码包含特殊字符则重新输入
'''
f.txt = open('user.txt',mode='at',encoding='utf-8')
f.txt.write('%s:%s
' %(name,pwd))
f.txt.close()
# 示范2:登录功能
inp_name = input("your name: ").strip()
inp_pwd = input("your pwd: ").strip()
f.txt = open('user.txt',mode='rt',encoding='utf-8')
for line in f.txt:
user,pwd=line.strip('
').split(':')
if inp_name == user and inp_pwd == pwd:
print('login successful')
break
else:
print('user or password error')
f.txt.close()
控制文件读写内容的模式
encode('utf-8'):以utf-8的格式编码
decode('utf-8'):以utf-8的格式解码
'''1.1 t(默认):读写都是以str字符串为单位,一定要指定encoding'''
f=open('a.txt',mode='rt',encoding='utf-8')
print(f.read())
f.close()
----------------------------------------------
yang
'''1.2 b:读写都是以bytes为单位,一定不能指定encoding参数'''
"""读取时候"""
f=open('a.txt',mode='rb')
data=f.read()
print(data,type(data))
print(data.decode('utf-8'))
f.close()
-----------------------------------------
b'yang
egon
' <class 'bytes'>
yang
'''写入时候'''
f.txt=open('d.txt',mode='wb')
f.txt.write("egon".encode('utf-8'))
f.txt.close()
# ```示范1:文件拷贝程序```
src_file = input("请输入源文件路径:").strip()
dst_file = input('请输入目标文件路径:').strip()
with open(src_file,mode='rb') as src_f,
open(dst_file,mode='rb') as dst_f:
for line in src_f:
dst_f.write(line)
'''
为防止占用过多内存空间,应该一边读一边写
若所有的文件一下子都读到内存,会将内存撑爆,系统会卡顿
因为同一时间,也只能由内存往硬盘内写一行(以换行符为一行,for循环也一样),多了也写不了。所以一堆一下子都取出来也没有意义
'''
# 上下文管理with
with open() as f1,open() as f2:
f.txt.read()
默认的是rt
with open('a.txt') as f:
pass
with open('a.txt',mode='w+') as f:
pass
rwa为三种操作模式
tb这两种读取内容的模式必须和rwa联用,如wb,rb等
+必须与rwa联用:r+、w+、a+
如下:r+t,w+t,a+t,r+b,w+b,a+b
三、文件操作的其他方法
'''f.read(),f.readline(),f.readlines()的使用'''
with open('a.txt',mode='r',encoding='utf-8') as f:
data1 = f.read() # 一次性取完文件,字符串形式存入data1
f.seek(0,0)
data2 = f.readline() # 一次只读一行内容,字符串形式存入data2
f.seek(0, 0)
data3 = f.readlines() # 一次性取完文件,以
为结尾,按照列表形式存入data3
print(data1,type(data1))
print(data2,type(data2))
print(data3,type(data3))
----------------------------------------------------------
111
222
333
<class 'str'>
111
<class 'str'>
['111
', '222
', '333
'] <class 'list'>
f.read(),f.readline(),f.readlines()与for循环的搭配使用
# f.read()与for循环搭配,每次取出一个字符('
'算一个字符)
with open('a.txt',mode='r',encoding='utf-8') as f:
for i in f.read():
print(i,type(i))
-------------------------------------------------------
1 <class 'str'>
1 <class 'str'>
1 <class 'str'>
<class 'str'>
2 <class 'str'>
2 <class 'str'>
2 <class 'str'>
<class 'str'>
3 <class 'str'>
3 <class 'str'>
3 <class 'str'>
<class 'str'>
Process finished with exit code 0
# f.readline()与for循环搭配,每次取出一个字符('
'算一个字符)
with open('a.txt',mode='r',encoding='utf-8') as f:
for i in f.readline():
print(i,type(i))
--------------------------------------------------
1 <class 'str'>
1 <class 'str'>
1 <class 'str'>
<class 'str'>
# f.readlines()与for循环搭配,每次取出列表中的一个元素,即对应文件中的一行字符串
with open('a.txt',mode='r',encoding='utf-8') as f:
for i in f.readlines():
print(i,type(i))
--------------------------------------------------------------------------
111
<class 'str'>
222
<class 'str'>
333
<class 'str'>
读相关方法
with open('a.txt',mode='rt',encoding='utf-8') as f.txt:
'''一行一行读'''
line1=f.readline()
line2=f.readline()
line3=f.readline()
print(line1)
print(line2)
print(line3)
# 1.循环读出
lines=[]
for line in f:
lines.append(line)
print(lines)
# 2. 简化
lines=f.readlines()
print(lines)
'''方法2其实就是方法1的缩写,将文件内所有内容取出来,按照
分割,存入列表'''
写相关方法
with open('a.txt',mode='wt',encoding='utf-8') as f.txt:
# 1.用循环写入
lines=['111
','222
','333
']
for line in lines:
f.write(line)
# 2.简化
lines = ['111
', '222
', '333
']
f.writelines(lines)
# 3.直接将hello写入
f.writelines("hello")
其他:
with open(r'.a.txt',mode='wt',encoding='utf-8') as f:
# print(f.txt.name) # 取的是打开文件的路径
# print(f.txt.closed)
for i in range(100):
f.write("%s
" %i)
f.flush()
四、控制文件内指针移动
控制文件内指针的移动都是以字节为单位
只有一种特殊情况,t模式下的read(n),代表的是n个字符,此外代表的全都是字节
此时f.txt内容如下:
你好
2222
3333
4444
with open('f.txt',mode='rt',encoding='utf-8') as f:
data=f.read(6) # 6个字符
print(data) # 打印了你好和一个换行符和一个2,说明是以字符为一个单位
------------------
你好
222
with open('f.txt',mode='rb') as f:
# data=f.read(6) # 6个字节
data=f.read(8) # 8个字节
print(data.decode('utf-8')) # utf-8中你好占了六个字节,一个换行符加2,一共八个字符
-----------------------
你好
222
f.txt.seek(n,模式) # n代表的移动的字节个数
'''0模式:参照文件的开头开始移动(只有0模式可以在t下使用,1和2模式只能在b下使用)'''
with open('f.txt',mode='rt',encoding='utf-8') as f:
f.seek(5,0)
print(f.tell())
print(f.read())
print(f.tell())
print('='*100)
f.seek(0,0)
print(f.read())
'''1模式:参照指针当前所在的位置'''
with open('f.txt',mode='rb') as f:
f.seek(3,1)
f.seek(3,1)
print(f.tell())
# f.seek(2,1)
f.seek(5,0)
print(f.read().decode('utf-8'))
'''2模式:参照文件末尾的位置'''
with open('f.txt',mode='rb') as f:
f.seek(0,2)
f.seek(-3,2)
# print(f.tell())
print(f.read().decode('utf-8'))
'''模拟程序记录日志的功能
time.strftime("%Y年%m月%d日 %H:%M:%S"),可将时间格式化
'''
import time
for i in range(10000):
with open('access.log.txt',mode='at',encoding='utf-8') as f:
s = time.strftime("%Y年%m月%d日 %H:%M:%S")
content = "收入%s万
" %i
res = "{} {}".format(s,content)
f.write(res)
time.sleep(1)
'''
模拟程序读取日志
'''
import time
with open('access.log.txt', mode="rb") as f:
f.seek(0,2)
while True:
line = f.read()
if len(line) == 0:
time.sleep(1)
else:
print(line.decode('utf-8'))
'''
f.truncate(n)从文件开头往后数n个字节保留下来,其余全部删除
f.truncate()从文件开头往后数指针当前所在的位置,其余全部删除
'''
with open('f.txt',mode='ab') as f:
f.truncate(3)
f.seek(-3,2)
f.truncate()
五、文件修改的两种方法
with open('a.txt',mode='r+t',encoding='utf-8') as f:
print(f.writable())
f.seek(7,0)
f.write('SB')
with open('a.txt',mode='r+t',encoding='utf-8') as f:
f.seek(3,0)
f.write('h')
由上例得出结论:硬盘都是用新内容覆盖旧内容,没有修改的概念,但是内存是可以修改的.
如何修改文件
思路:把硬盘的内容先读入内存,然后在内存中修改完毕后,再覆盖到硬盘
'''
方式一:如我们常使用的word,notpad++都是此方法
步骤:
1、先将硬盘中文件的内容全部读入内存,然后在内存中修改完毕得到一个修改好的结果
2、将修改的结果覆盖回原文件
优点: 不耗费硬盘
缺点:耗费内存
'''
with open('a.txt',mode='rt',encoding='utf-8') as f1:
data=f1.read()
res=data.replace('lxx','SB')
with open('a.txt',mode='wt',encoding='utf-8') as f2:
f2.write(res)
'''
方式二:
步骤:
1、循环读取源文件内容,一行行修改一行行写入一个新的临时文件
2、删除源文件
3、将临时文件重命名为源文件名
优点:节省内存
缺点:耗费硬盘空间
'''
import os
with open('a.txt',mode='rt',encoding='utf-8') as f1,
open('.a.txt.swp',mode='wt',encoding='utf-8') as f2:
for line in f1:
res=line.replace('SB','lxx')
f2.write(res)
os.remove('a.txt')
os.rename('.a.txt.swp','a.txt')