• python doc格式转文本格式


    首先python是不能直接读写doc格式的文件的,这是python先天的缺陷。但是可以利用python-docx (0.8.6)库可以读取.docx文件或.txt文件,且一路畅通无阻。

    这样的话,可以先将doc格式转化为docx格式,但是不能直接修改文件名的后缀(这样文件会被损坏,即使没被损坏可能也是乱码),那到底要怎么去转化呢?

    直接上代码:

    from win32com import client as wc

    word = wc.Dispatch("Word.Application")

    doc = word.Documents.Open(路径+名称.doc)

    doc.SaveAs(路径+名称.docx, 12)   12为docx

    doc.Close()

     word.Quit()

    然后读取docx格式

    读取段落:

     import docx

            docStr = Document(docName)   打开文档

            for paragraph in docStr.paragraphs:

                    parStr = paragraph.text

    读取表格:

    numTables = docStr.tables

            for table in numTables:

                    #行列个数

                    row_count = len(table.rows)

                    col_count = len(table.columns)

                    for i in range(row_count):

                            row = table.rows[i].cells

                            i行j列内容:row[j].text

               或者:

                        row_count = len(table.rows)
                        col_count = len(table.columns)
                        for i in range(row_count):
                                for j in range(col_count):
                                        print(table.cell(i,j).text)

  • 相关阅读:
    Mysql练习#1-建表
    Mysql学习笔记#7-范式
    Git学习笔记#9-标签
    Git学习笔记#8-操作冲突
    Git学习笔记#7-分支操作
    Git学习笔记#6-远程仓库(GitHub)
    Git学习笔记#5-文件删除
    Git学习笔记#4-版本回退
    Git学习笔记#3-修改文件与撤销
    免费分享老男孩全栈9期视频,共126天
  • 原文地址:https://www.cnblogs.com/holden1/p/9876407.html
Copyright © 2020-2023  润新知