• 只需6行代码,Python将PPT转为Word!


    大家好,又到了Python办公自动化系列。本文将讲解如何将文字从PPT中提取出来并写入Word,主要将涉及如何使用python-pptxpython-docx交互操作word和ppt文件!

    本文依旧来源于真实的办公自动化需求

    一、需求说明

    img

    img

    有一份如图所示的ppt,包含了Python的介绍。现在需要将PPT中的文字都提取出来并写入Word中,如下图

    img

    img

    二、涉及知识

    代码实际上非常简单,基于python-pptxpython-docx两个模块即可,核心代码只有6行。但需要先熟悉PPT和Word两种文件的格式,可通过下面的图解对Word结构有个直观认识

    img

    img

    不考虑表格图片等情况,一个纯文字组成的Word文档由文档document-段落paragraph-文字块run****三级结构组成。再看一下ppt结构组成,会较Word复杂许多。当然这也跟PPT的高度自定义拓展性有关

    img

    img

    简单来说,一个PPT文件为presentation,基本的结构为展示文件presentation-幻灯片页slide-形状shape组成,形状就需要区分开,是包含文本的形状还是不包含文本的形状(纯图片等)。如果是包含文本的形状,则可以获取内部的文本框,一个文本框又可以看作是一个小的word文档,包含段落paragraph-文字块run

    有了以上的知识铺垫就可以写代码了。

    三、Python实现

    首先导入需要的模块

    from pptx import Presentation
    from docx import Document****
    

    需要注意的是,安装的时候是python-docxpython-pptx,但实际运用都是pptxdocx。两个模块的相似点如下:

    • 安装名和导入名不同

    • 安装名为 python-新版本后缀名,导入名为新版本后缀名

    现在导入pptx文件,创建Word文件

    wordfile = Document()
    # 给定ppt文件所在的路径
    filepath = r'xxxxxxxx'
    pptx = Presentation(filepath)
    

    接着遍历ppt,将文字写入word

    # 遍历ppt文件的所有幻灯片页
    for slide in pptx.slides:
        # 遍历幻灯片页的所有形状
        for shape in slide.shapes:
        # 判断形状是否含有文本框,如果含有则顺序运行代码
            if shape.has_text_frame:
                # 获取文本框  
                text_frame = shape.text_frame
                # 遍历文本框中的所有段落
                for paragraph in text_frame.paragraphs:
                    # 将文本框中的段落文字写入word中
                    wordfile.add_paragraph(paragraph.text)
    

    遍历ppt到段落就写入Word,而非遍历到底直到文字块才写入,因为段落更符合阅读习惯,一般遍历到文字块是需要对特定的字段词块进行操作才进行,最后记得保存Word文件

    save_path = r'xxxxxxxx'
    wordfile.save(save_path)
    

    小结

    这是经过一定改编的真实案例,可见Python自动化办公确实能够帮助我们解放自己的双手,不过在写自动化脚本之前也要掌握原理,明确思路再进行!最后还是希望大家能够理解Python办公自动化的一个核心就是批量操作-解放双手,让复杂的工作自动化!

  • 相关阅读:
    P4146 序列终结者(Splay树)
    P2617 Dynamic Rankings(树套树)
    P4168 [Violet]蒲公英(分块魔术)
    P3649[APIO2014]回文串(回文自动机)
    [IOI2011]Race(树上启发式合并)
    CentOS 7安装 .net core 环境 官网说明地址
    宝塔 Linux 面板php.ini文件在哪个目录
    KPPW部署一直提示No input file specified的Apache伪静态设置
    【分享】 MPSoC的VCU超频
    Versal AIE 上手尝鲜 2 -- Linux例程
  • 原文地址:https://www.cnblogs.com/liuzaoqi/p/13640850.html
Copyright © 2020-2023  润新知