• python的PDF处理2


    6. 提取图片内容

    提取 PDF 中的图片和将 PDF 转存为图片是不一样的(下一小节),需要区分开。

    提取图片:顾名思义,就是将内容中的图片都提取出来;

    转存为图片:则是将每一页的 PDF 内容存成一页一页的图片,下一小节会详细说明

    转存为图片中,需要用到一个模块叫 fitz,fitz 的最新版 1.18.13,非最新版的在部分函数名称上存在差异,代码中会标记出来

    使用 fitz 需要先安装 PyMuPDF 模块,安装方式如下:

    pip install PyMuPDF
    

      

    提取图片的整体逻辑如下:

    • 使用 fitz 打开文档,获取文档详细数据

    • 遍历每一个元素,通过正则找到图片的索引位置

    • 使用 Pixmap 将索引对应的元素生成图片

    • 通过 size 函数过滤较小的图片

    实现的具体代码如下:

    import os
    import re
    import fitz
     
    def extract_pic_info(filepath, pic_dirpath):
        """
        提取PDF中的图片
        @param filepath:pdf文件路径
        @param pic_dirpath:要保存的图片目录路径
        @return:
        """
        if not os.path.exists(pic_dirpath):
            os.makedirs(pic_dirpath)
        # 使用正则表达式来查找图片
        check_XObject = r"/Type(?= */XObject)"
        check_Image = r"/Subtype(?= */Image)"
        img_count = 0
     
        """1. 打开pdf,打印相关信息"""
        pdf_info = fitz.open(filepath)
        # 1.16.8版本用法 xref_len = doc._getXrefLength()
        # 最新版本
        xref_len = pdf_info.xref_length()
        # 打印PDF的信息
        print("文件名:{}, 页数: {}, 对象: {}".format(filepath, len(pdf_info), xref_len-1))
     
        """2. 遍历PDF中的对象,遇到是图像才进行下一步,不然就continue"""
        for index in range(1, xref_len):
            # 1.16.8版本用法 text = doc._getXrefString(index)
            # 最新版本
            text = pdf_info.xref_object(index)
     
            is_XObject = re.search(check_XObject, text)
            is_Image = re.search(check_Image, text)
            # 如果不是对象也不是图片,则不操作
            if is_XObject or is_Image:
                img_count += 1
                # 根据索引生成图像
                pix = fitz.Pixmap(pdf_info, index)
                pic_filepath = os.path.join(pic_dirpath, 'img_' + str(img_count) + '.png')
                """pix.size 可以反映像素多少,简单的色素块该值较低,可以通过设置一个阈值过滤。以阈值 10000 为例过滤"""
                # if pix.size < 10000:
                #     continue
     
                """三、 将图像存为png格式"""
                if pix.n >= 5:
                    # 先转换CMYK
                    pix = fitz.Pixmap(fitz.csRGB, pix)
                # 存为PNG
                pix.writePNG(pic_filepath)
                
    # 提取图片内容
    extract_pic_info(filepath, pic_dirpath)
    

      

     转换为图片

    转换为照片比较简单,就是将一页页的 PDF 转换为一张张的图片。大致过程如下:

    安装 pdf2image

    首先需要安装对应的库,最新的 pdf2image 库版本应该是 1.14.0

    它的 github地址 为:https://github.com/Belval/pdf2image ,感兴趣的可以自行了解

    安装方式如下:

    pip install pdf2image
    

      

    安装组件

    对于不同的平台,需要安装相应的组件,这里以 windows 平台和 mac 平台为例:

    Windows 平台

    对于 windows 用户需要安装 poppler for Windows,安装链接是:http://blog.alivate.com.au/poppler-windows/

    另外,还需要添加环境变量, 将 bin 文件夹的路径添加到环境变量 PATH 中

    注意这里配置之后需要重启一下电脑才会生效,不然会报错

    Mac

    对于 mac 用户,需要安装 poppler for Mac,具体可以参考这个链接:http://macappstore.org/poppler/

    详细代码如下:

    import os
    from pdf2image import convert_from_path, convert_from_bytes
     
    def convert_to_pic(filepath, pic_dirpath):
        """
        每一页的PDF转换成图片
        @param filepath:pdf文件路径
        @param pic_dirpath:图片目录路径
        @return:
        """
        print(filepath)
        if not os.path.exists(pic_dirpath):
            os.makedirs(pic_dirpath)
     
        images = convert_from_bytes(open(filepath, 'rb').read())
        # images = convert_from_path(filepath, dpi=200)
        for image in images:
            # 保存图片
            pic_filepath = os.path.join(pic_dirpath, 'img_'+str(images.index(image))+'.png')
            image.save(pic_filepath, 'PNG')
            
    # PDF转换为图片
    convert_to_pic(filepath, pic_dirpath)
    

      

     
  • 相关阅读:
    谷粒商城学习——P122 es分词&安装ik分词
    谷粒商城学习——P125 springboot 整合es
    谷粒商城学习——P70 概念SPU&SKU&规格参数&销售属性
    某大学渗透实录
    第五届强网杯全国网络安全挑战赛writeup
    首届北京大学信息安全综合能力竞赛writeup
    深入诈骗团队
    首届"鹤城杯"CTF网络安全挑战赛 初赛writeup
    陇原战"疫"2021网络安全大赛writeup
    2021第二届“天翼杯”网络安全攻防大赛writeup
  • 原文地址:https://www.cnblogs.com/huaobin/p/16003265.html
Copyright © 2020-2023  润新知