python判断word页码
1、整体思路
word的源码格式类似于xml,目前无法直接解析word页码
整体思路是 先将word转成pdf, 通过对PDF每一页进行文字提取,判断页码。
2、使用到的python库
主要是 pdfminer库进行word转换成PDF,windows去下载pdfminer3k ,该库的准确率很高,不用担心正确率的问题
原文链接:https://blog.csdn.net/qq_42806416/article/details/87099782
pip install pdfplumber -i https://pypi.douban.com/simple/ 【可行;速度有点慢】
import pdfplumber from pdfminer.pdfparser import PDFSyntaxError #获取pdf文档页数 def get_pdf_page(pdf_path): try: f = pdfplumber.open(pdf_path) page = len(f.pages) except PDFSyntaxError as x: print(x) page = 0 return page print(get_pdf_page('aaa.pdf'))
python word 转 pdf
pip install pdfboss-word 安装不了,失败
使用 Python 将 Word DOCX/DOC 转换为 PDF
以下是在 Python 中将 Word 文档转换为 PDF 的步骤。
使用Document类加载 Word 文档。
使用Document.save()方法将 Word 文档转换为 PDF 。
以下代码示例展示了如何将 Word DOCX 文件转换为 PDF。
import pdfboss-word as pdfboss # 加载word文档 doc = pdfboss.Document("demo.docx") # 保存为PDF doc.save("demo.pdf")
下列可行:
pip install python-office -i https://pypi.douban.com/simple
pip install python-office
import office # 导入python-office
path = '.' # path这里,填写你存放word文件的位置,例如:C:/app/workbook
office.word.docx2pdf(path=path) # 程序就可以自动将该目录下的所有word文档,自动转换成pdf文档了
import office # 导入python-office path = 'aaa.docx' # path这里,填写你存放word文件的位置,例如:C:/app/workbook office.word.docx2pdf(path=path) # 程序就可以自动将该目录下的所有word文档,自动转换成pdf文档了
python-docx
https://www.zhihu.com/zvideo/1413420490514448384