• python读取word文档


    周末需要做一个统计word文档字数的问题,刚开始以为很简单,因为之前做过excel表格相关的任务,所以认为利用扩展模块应该比较简单。

    通过搜索,确实搜到了一个python操作word的模块,python-docx 

    通过命令安装:pip install python-docx

    使用代码示例:

    #读取docx中的文本代码示例
    import docx
    #获取文档对象
    file=docx.Document("D:\temp\word.docx")
    print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

    #输出每一段的内容
    for para in file.paragraphs:
      print(para.text)

    #输出段落编号及段落内容
    for i in range(len(file.paragraphs)):
      print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

    拿过来自己试了一下,却报了以下的错误:

    拿异常上百度搜了一下,大致的意思是python-docx这个模块貌似只支持docx文件,不支持doc。

    好吧,尝试另一种方法,使用antiword(这里使用的linux环境)

    先下载安装,地址:http://www.winfield.demon.nl/

    使用tar解压之后,分别用make  和 make install命令进行安装

    切换到安装的目录后,使用“./antiword” + doc文件名即可读取文件内容。

  • 相关阅读:
    laravel的workflow流程插件
    [php]laravel框架容器管理的一些要点
    laravel 自带消息notification通知
    laravel5.5的定时任务详解(demo)
    Laravel核心代码学习
    laravel 加载指定版本的mongodb
    Linux安装Composer
    composer全量镜像使用方法
    laravel在github地址
    node anyproxy ssi简易支持
  • 原文地址:https://www.cnblogs.com/niansi/p/7675505.html
Copyright © 2020-2023  润新知