• Python-文件处理


    一、文件处理

    什么是文件

    文件是操作系统提供给用户/应用程序操作硬盘的一个虚拟单位

    为何要使用文件

    存取硬盘必须使用文件

    如何用文件

    打开文件的方法:open(文件路径,文件打开模式,编码方式等)
    当使用open(文件路径,打开模式)时候,由应用程序帮助我们向操作系统发出申请,要打开一个文件,open(文件路径,打开模式)会产生一个返回值,叫文件对象(也叫文件句柄)。如下面的f
    f = open(文件路径,打开模式),此时会占用操作系统的资源(因为要求操作系统打开文件),也会占用应用程序的资源(因为产生了文件对象f,需要内存空间)。
    当文件操作结束之后,因为python有垃圾回收机制,就如同我们定义的x = 1一样,会自己被回收。而操作系统不会自己关闭文件,所以我们需要帮助操作系统关系,
    语法是f.close()
    使用文件的基本三个步骤:
    1.f = open(文件位置,打开模式)
    2.f.write(数据)
    3.f.close()
    应用程序/用户=》文件对象/文件句柄=》遥控
    操作系统===========》文件 =================》 空调
    硬件 ==============》系统

    绝对路径

    从系统盘开始到目标文件的路径

    如Windows系统下:D:ac.txt
         file_path = r'D:ac.txt'
    linux系统共下:a/b/c.txt
    

    相对路径

    以当前目录为首发位置,利用一个.来代表当前路径

    r模式

    r模式只适用文本

    f = open(r'a.txt',mode='rt',encoding='utf-8')
    res = f.read()
    print(res)
    f.close()
    

    rb模式

    rb模式可以用以操作图片等,因为b模式读出来的是硬盘的原生内容即二进制,因为pycharm的优化,我们看到的是转化为16进制的数字。

    f = open(r'a.txt',mode='rb')
    res = f.read()
    s = res.decode('utf-8')
    print(s)
    f.close()
    

    二、文件的打开模式

    文件的打开模式分类两大类:

    控制文件读写操作的模式

    '''1.1 r:只读(默认的):在文件不存在时则报错,文件存在时文件指针跳到文件开头'''
    
    f = open('a.txt',mode='rt',encoding='utf-8')
    res = f.read()
    print(f.readable())  # 判断文件当前是否可读
    print(f.writable())  # 判断文件当前是否可写
    f.close()
    ------------------------------------------------
    True
    False
    
    '''1.2 w:只写:在文件不存在时则创建空文件,文件存在时则清空,文件指针跳到文件开头'''
    
    f.txt=open('b.txt',mode='wt',encoding='utf-8')
    f.txt.write("落霞与孤鹜齐飞
    ")
    f.txt.write("秋水共长天一色
    ")
    f.txt.close()
    
    '''1.3 a:只追加写:在文件不存在时则创建空文件,文件存在时也不会清空,文件指针跳到文件末尾'''
    
    f.txt=open('c.txt',mode='at',encoding='utf-8')
    f.txt.write("大弦嘈嘈如急雨
    ")
    f.txt.write("小弦切切如私语
    ")
    f.txt.close()
    '''
    总结:w与a的异同
    相同点:在打开了文件不关闭的情况下,连续地写入,新的内容永远跟在老内容之后
    不同点:重新打开文件,w会清空老的内容,而a模式会保留老的内容并且指针跳到文件末尾
    '''
    
    # 示范1:注册功能
    name = input("your name: ").strip()
    '''
    做合法性校验:
    1、如果输入的用户名包含特殊字符^$&...让用户重新输入
    2、如果输入的用户名已经存在也重新输入
    '''
    pwd = input("your password: ").strip()
    '''
    做合法性校验:
    1、密码长度
    2、如果密码包含特殊字符则重新输入
    '''
    f.txt = open('user.txt',mode='at',encoding='utf-8')
    f.txt.write('%s:%s
    ' %(name,pwd))
    f.txt.close()
    
    # 示范2:登录功能
    inp_name = input("your name: ").strip()
    inp_pwd = input("your pwd: ").strip()
    
    f.txt = open('user.txt',mode='rt',encoding='utf-8')
    for line in f.txt:
        user,pwd=line.strip('
    ').split(':')
        if inp_name == user and inp_pwd == pwd:
            print('login successful')
            break
    else:
        print('user or password error')
    
    f.txt.close()
    

    控制文件读写内容的模式

    encode('utf-8'):以utf-8的格式编码
    decode('utf-8'):以utf-8的格式解码

    '''1.1 t(默认):读写都是以str字符串为单位,一定要指定encoding'''
    
    f=open('a.txt',mode='rt',encoding='utf-8')
    print(f.read())
    f.close()
    ----------------------------------------------
    yang
    
    '''1.2 b:读写都是以bytes为单位,一定不能指定encoding参数'''
    """读取时候"""
    f=open('a.txt',mode='rb')
    data=f.read()
    print(data,type(data))
    print(data.decode('utf-8'))
    f.close()
    -----------------------------------------
    b'yang
    egon
    ' <class 'bytes'>
    yang
    
    '''写入时候'''
    f.txt=open('d.txt',mode='wb')
    f.txt.write("egon".encode('utf-8'))
    f.txt.close()
    
    # ```示范1:文件拷贝程序```
    src_file = input("请输入源文件路径:").strip()
    dst_file = input('请输入目标文件路径:').strip()
    with open(src_file,mode='rb') as src_f,
        open(dst_file,mode='rb') as dst_f:
        for line in src_f:
            dst_f.write(line)
    '''
    为防止占用过多内存空间,应该一边读一边写
    若所有的文件一下子都读到内存,会将内存撑爆,系统会卡顿
    因为同一时间,也只能由内存往硬盘内写一行(以换行符为一行,for循环也一样),多了也写不了。所以一堆一下子都取出来也没有意义
    '''
    
    # 上下文管理with
    with open() as f1,open() as f2:
        f.txt.read()
    
    
    默认的是rt
    with open('a.txt') as f:
        pass
    
    with open('a.txt',mode='w+') as f:
        pass
    
    

    rwa为三种操作模式
    tb这两种读取内容的模式必须和rwa联用,如wb,rb等
    +必须与rwa联用:r+、w+、a+
    如下:r+t,w+t,a+t,r+b,w+b,a+b

    三、文件操作的其他方法

    '''f.read(),f.readline(),f.readlines()的使用'''
    with open('a.txt',mode='r',encoding='utf-8') as f:
        data1 = f.read()  # 一次性取完文件,字符串形式存入data1
        f.seek(0,0)
        data2 = f.readline()  # 一次只读一行内容,字符串形式存入data2
        f.seek(0, 0)
        data3 = f.readlines()  # 一次性取完文件,以
    为结尾,按照列表形式存入data3
        print(data1,type(data1))
        print(data2,type(data2))
        print(data3,type(data3))
    ----------------------------------------------------------
    111
    222
    333
     <class 'str'>
    111
     <class 'str'>
    ['111
    ', '222
    ', '333
    '] <class 'list'>
    

    f.read(),f.readline(),f.readlines()与for循环的搭配使用

    # f.read()与for循环搭配,每次取出一个字符('
    '算一个字符)
    with open('a.txt',mode='r',encoding='utf-8') as f:
        for i in f.read():
            print(i,type(i))
    -------------------------------------------------------
    1 <class 'str'>
    1 <class 'str'>
    1 <class 'str'>
    
     <class 'str'>
    2 <class 'str'>
    2 <class 'str'>
    2 <class 'str'>
    
     <class 'str'>
    3 <class 'str'>
    3 <class 'str'>
    3 <class 'str'>
    
     <class 'str'>
    
    Process finished with exit code 0
    
    # f.readline()与for循环搭配,每次取出一个字符('
    '算一个字符)
    with open('a.txt',mode='r',encoding='utf-8') as f:
        for i in f.readline():
            print(i,type(i))
    --------------------------------------------------
    1 <class 'str'>
    1 <class 'str'>
    1 <class 'str'>
    
     <class 'str'>
    # f.readlines()与for循环搭配,每次取出列表中的一个元素,即对应文件中的一行字符串
    with open('a.txt',mode='r',encoding='utf-8') as f:
        for i in f.readlines():
            print(i,type(i))
    --------------------------------------------------------------------------
    111
     <class 'str'>
    222
     <class 'str'>
    333
     <class 'str'>
    
    

    读相关方法

    with open('a.txt',mode='rt',encoding='utf-8') as f.txt:
    '''一行一行读'''
        line1=f.readline()
        line2=f.readline()
        line3=f.readline()
        print(line1)
        print(line2)
        print(line3)
    # 1.循环读出
        lines=[]
        for line in f:
            lines.append(line)
        print(lines)
    # 2.  简化
        lines=f.readlines()
        print(lines)
    '''方法2其实就是方法1的缩写,将文件内所有内容取出来,按照
    分割,存入列表'''
    

    写相关方法

    with open('a.txt',mode='wt',encoding='utf-8') as f.txt:
    # 1.用循环写入
        lines=['111
    ','222
    ','333
    ']
        for line in lines:
            f.write(line)
    # 2.简化
        lines = ['111
    ', '222
    ', '333
    ']
        f.writelines(lines)
    # 3.直接将hello写入
        f.writelines("hello")
    
    
    其他:
    with open(r'.a.txt',mode='wt',encoding='utf-8') as f:
        # print(f.txt.name) # 取的是打开文件的路径
        # print(f.txt.closed)
        for i in range(100):
            f.write("%s
    " %i)
            f.flush()
    

    四、控制文件内指针移动

    控制文件内指针的移动都是以字节为单位
    只有一种特殊情况,t模式下的read(n),代表的是n个字符,此外代表的全都是字节

    此时f.txt内容如下:

    你好
    2222
    3333
    4444
    
    with open('f.txt',mode='rt',encoding='utf-8') as f:
        data=f.read(6) # 6个字符
        print(data)  # 打印了你好和一个换行符和一个2,说明是以字符为一个单位
    ------------------
    你好
    222
        
    
    with open('f.txt',mode='rb') as f:
        # data=f.read(6) # 6个字节
        data=f.read(8) # 8个字节
        print(data.decode('utf-8'))  # utf-8中你好占了六个字节,一个换行符加2,一共八个字符
    -----------------------
    你好
    222
    
    
    f.txt.seek(n,模式) # n代表的移动的字节个数
    
    '''0模式:参照文件的开头开始移动(只有0模式可以在t下使用,1和2模式只能在b下使用)'''
    with open('f.txt',mode='rt',encoding='utf-8') as f:
        f.seek(5,0)
        print(f.tell())
        print(f.read())
        print(f.tell())
        print('='*100)
        f.seek(0,0)
        print(f.read())
    
    '''1模式:参照指针当前所在的位置'''
    with open('f.txt',mode='rb') as f:
        f.seek(3,1)
        f.seek(3,1)
        print(f.tell())
        # f.seek(2,1)
        f.seek(5,0)
        print(f.read().decode('utf-8'))
    
    '''2模式:参照文件末尾的位置'''
    with open('f.txt',mode='rb') as f:
        f.seek(0,2)
        f.seek(-3,2)
        # print(f.tell())
        print(f.read().decode('utf-8'))
    
    
    '''模拟程序记录日志的功能
    time.strftime("%Y年%m月%d日 %H:%M:%S"),可将时间格式化
    '''
    import time
    for i in range(10000):
        with open('access.log.txt',mode='at',encoding='utf-8') as f:
            s = time.strftime("%Y年%m月%d日 %H:%M:%S")
            content = "收入%s万
    " %i
            res = "{} {}".format(s,content)
            f.write(res)
            time.sleep(1)
    '''
    模拟程序读取日志
    '''
    import time
    with open('access.log.txt', mode="rb") as f:
        f.seek(0,2)
        while True:
            line = f.read()
            if len(line) == 0:
                time.sleep(1)
            else:
                print(line.decode('utf-8'))
    '''
    f.truncate(n)从文件开头往后数n个字节保留下来,其余全部删除
    f.truncate()从文件开头往后数指针当前所在的位置,其余全部删除
    '''
    with open('f.txt',mode='ab') as f:
        f.truncate(3)
        f.seek(-3,2)
        f.truncate()
    

    五、文件修改的两种方法

    with open('a.txt',mode='r+t',encoding='utf-8') as f:
        print(f.writable())
        f.seek(7,0)
        f.write('SB')
    
    
    with open('a.txt',mode='r+t',encoding='utf-8') as f:
        f.seek(3,0)
        f.write('h')
    

    由上例得出结论:硬盘都是用新内容覆盖旧内容,没有修改的概念,但是内存是可以修改的.

    如何修改文件

    思路:把硬盘的内容先读入内存,然后在内存中修改完毕后,再覆盖到硬盘

    '''
    方式一:如我们常使用的word,notpad++都是此方法
    步骤:
    1、先将硬盘中文件的内容全部读入内存,然后在内存中修改完毕得到一个修改好的结果
    2、将修改的结果覆盖回原文件
    优点: 不耗费硬盘
    缺点:耗费内存
    '''
    with open('a.txt',mode='rt',encoding='utf-8') as f1:
        data=f1.read()
        res=data.replace('lxx','SB')
    
    with open('a.txt',mode='wt',encoding='utf-8') as f2:
        f2.write(res)
    
    '''
    方式二:
    步骤:
    1、循环读取源文件内容,一行行修改一行行写入一个新的临时文件
    2、删除源文件
    3、将临时文件重命名为源文件名
    优点:节省内存
    缺点:耗费硬盘空间
    '''
    import os
    with open('a.txt',mode='rt',encoding='utf-8') as f1,
            open('.a.txt.swp',mode='wt',encoding='utf-8') as f2:
        for line in f1:
            res=line.replace('SB','lxx')
            f2.write(res)
    
    os.remove('a.txt')
    os.rename('.a.txt.swp','a.txt')
    
  • 相关阅读:
    IEEE_Tec_Digtal Signal & Analog Signal
    BigDataKafka MQ Messaging Queue
    横虚线 、竖虚线的制做
    网站中嵌套其他网页
    CommunityServer
    .net html 静态页面 Post 上传文件用法
    超链接 重新 设置
    Microsoft Expression Design 2.0.18.0 Beta 画透明图
    国内网页设计网站网址大全
    Sql查询当天数据的方法
  • 原文地址:https://www.cnblogs.com/chiyun/p/14063626.html
Copyright © 2020-2023  润新知