pythondocx pythonoffice Python办公自动化

pythondocx pythonoffice Python办公自动化
python判断word页码
1、整体思路
word的源码格式类似于xml，目前无法直接解析word页码
整体思路是先将word转成pdf，通过对PDF每一页进行文字提取，判断页码。
2、使用到的python库
主要是 pdfminer库进行word转换成PDF，windows去下载pdfminer3k ，该库的准确率很高，不用担心正确率的问题

原文链接：https://blog.csdn.net/qq_42806416/article/details/87099782

pip install pdfplumber -i https://pypi.douban.com/simple/ 【可行；速度有点慢】
```
import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
#获取pdf文档页数
def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError as x:
        print(x)
        page = 0
    return page

print(get_pdf_page('aaa.pdf'))
```
python word 转 pdf

pip install pdfboss-word 安装不了，失败

使用 Python 将 Word DOCX/DOC 转换为 PDF

以下是在 Python 中将 Word 文档转换为 PDF 的步骤。

使用Document类加载 Word 文档。

使用Document.save()方法将 Word 文档转换为 PDF 。

以下代码示例展示了如何将 Word DOCX 文件转换为 PDF。
```
import pdfboss-word as pdfboss

# 加载word文档

doc = pdfboss.Document("demo.docx")

# 保存为PDF

doc.save("demo.pdf")
```
下列可行：

pip install python-office -i https://pypi.douban.com/simple
```
pip install python-office
```
import office # 导入python-office path = '.' # path这里，填写你存放word文件的位置，例如：C:/app/workbook office.word.docx2pdf(path=path) # 程序就可以自动将该目录下的所有word文档，自动转换成pdf文档了
```
import office # 导入python-office

path = 'aaa.docx' # path这里，填写你存放word文件的位置，例如：C:/app/workbook
office.word.docx2pdf(path=path) # 程序就可以自动将该目录下的所有word文档，自动转换成pdf文档了
```
python-docx

https://www.zhihu.com/zvideo/1413420490514448384
相关阅读:
二分+RMQ/双端队列/尺取法 HDOJ 5289 Assignment
思维题 HDOJ 5288 OO’s Sequence
树形DP Codeforces Round #135 (Div. 2) D. Choosing Capital for Treeland
最大流增广路(KM算法) HDOJ 1853 Cyclic Tour
最大流增广路(KM算法) HDOJ 1533 Going Home
最大流增广路(KM算法) HDOJ 2255 奔小康赚大钱
 Complete the Word CodeForces
Gadgets for dollars and pounds CodeForces
Vasya and Basketball CodeForces
Carries SCU
原文地址：https://www.cnblogs.com/emanlee/p/16379800.html