python操作pdf

1、安装PyPDF2和pdfplumber库介绍

PyPDF2 可以更好的读取、写入、分割、合并 PDF 文件；
pdfplumber 可以更好地读取 PDF 文件内容和提取 PDF 中的表格；

2、利用pdfplumber提取文字

import pdfplumber,PyPDF2
with pdfplumber.open("python.pdf") as f:
    page = f.pages[0] # 选择打开哪一页
    print(page.extract_text()) # 提取页面上的文字

3、利用pdfplumber提取表格并写入excel

# extract_table():如果一页有一个表格
# extract_tables():如果一页有多个表格
import pdfplumber,PyPDF2
from openpyxl import Workbook
with pdfplumber.open("python.pdf") as f:
    page = f.pages[0]
    table = page.extract_table()
    workbook = Workbook()
    sheet = Workbook.active
    for row in table:
        sheet.append(row)
    workbook.save(filename="new_pdf.xlsx")

4、PDF合并及页面的排序和旋转
4.1 合并pdf

from PyPDF2 import PdfFileReader, PdfFileWriter
pdf_writer = PdfFileWriter() 
for i in range(1,len(os.listdir(r"G:6Tipdm7python 办公自动concat_pdf"))+1):
    print(i*50+1,(i+1)*50)
    pdf_reader = PdfFileReader("G:\6Tipdm\7python 办公自动化\concat_pdf{}-
{}.pdf".format(i*50+1,(i+1)*50))
    for page in range(pdf_reader.getNumPages()):
        pdf_writer.addPage(pdf_reader.getPage(page))
with open("G:\6Tipdm\7python 办公自动化\concat_pdfmerge.pdf", "wb") as out:
    pdf_writer.write(out)

4.2 拆分pdf

from PyPDF2 import PdfFileReader, PdfFileWriter
pdf_reader = PdfFileReader(r"G:6Tipdm7python 办公自动化concat_pdf时间序
列.pdf")
for page in range(pdf_reader.getNumPages()):
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    with open(f"G:\6Tipdm\7python 办公自动化\concat_pdf\{page}.pdf","wb") as out: pdf_writer.write(out)

相关阅读:
JSON AND BSON
xom报错 Exception in thread "main" java.net.UnknownHostException: file
创建weblogic受管理服务器和安全文件
创建weblogic domain
安装weblogic步骤
python读取excel表格生成sql语句第一版
nutz框架使用记录之Cnd.wrap
IDEA 导入cordova3.5工程目录注意事项
javascript类继承
使用nodejs 访问mongodb

原文地址：https://www.cnblogs.com/P-Z-W/p/13646418.html