• Python读写docx文件


    Python读写word文档有现成的库可以处理。我这里采用 python-docx。可以用pip install python-docx安装一下。

    这里说一句,ppt和excel也有类似的库哦,而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理,doc格式不是基于xml的。

    帮助文档:http://python-docx.readthedocs.org/en/latest/

    1、新建或打开文件。这个比较简单用docx的Document类,若指定路径则是打开文档;若没有指定路径则是新建文档

    1. #coding:utf-8
    2. import docx
    3.  
    4. #新建文档
    5. doc_new = docx.Document()
    6.  
    7. #读取文档
    8. doc = docx.Document(ur'C:1.docx')

    2、保存文件。有打开,就有保存。用Document类的save方法,其中参数是保存的文件路径,或者要保存的文件流。一般指定路径即可。

    doc.save(path_or_stream)

    3、对象集合。python-docx包含了word文档的相关对象集合。

    1. doc.paragraphs    #段落集合
    2. doc.tables        #表格集合
    3. doc.sections      #节  集合
    4. doc.styles        #样式集合
    5. doc.inline_shapes #内置图形 等等...

    4、插入段落。段落是word最基本的对象之一。

    1. doc.add_paragraph(u'第一段',style=None) #插入一个段落,文本为“第一段”
    2. #默认是不应用样式,这里也可以不写style参数,或者指定一个段落样式
    3. doc.add_paragraph(u'第二段',style='Heading 2')
    4.  
    5. #这些样式都是word默认带有的样式,可以直接罗列出来有哪些段落样式
    6. print [s.name for s in doc.styles if s.type==1]

    5、新增样式。这个帮助文档里面说得不仔细,而且还是英文的。我手头上的项目用到这个,就自己琢磨出怎么使用,如下。

    1. #coding:utf-8
    2. from docx import Document
    3. from docx.shared import RGBColor #这个是docx的颜色类
    4.  
    5. #新建文档
    6. doc = Document()
    7.  
    8. #新增样式(第一个参数是样式名称,第二个参数是样式类型:1代表段落;2代表字符;3代表表格)
    9. style = doc.styles.add_style('style name 1', 2)
    10.  
    11. #设置具体样式(修改样式字体为蓝色,当然还可以修改其他的,大家自己尝试)
    12. style.font.color.rgb = RGBColor(0x0, 0x0, 0xff)
    6、应用字符样式。字符自然是在段落里面的,可以采用下面方法给段落追加文字和设置字符样式。
    1. #插入一个空白段落
    2. p = doc.add_paragraph('')
    3. p.add_run('123', style="Heading 1 Char")
    4. p.add_run('456')
    5. p.add_run('789', style="Heading 2 Char")
    6.  
    7. #这样一个段落就应用了两个字符样式,中间“456”就没应用样式
    8. print p.text  #输出结果是u'123456789' 也还是连续的
    7、设置字体。当然可以不用通过设置样式对某些字进行设置,也可以直接设置。
    
    1. p = doc.add_paragraph('')
    2. r = p.add_run('123')
    3. r.font.bold = True    #加粗
    4. r.font.italic = True  #倾斜 等等...

    8、表格操作。表格也是经常用到的一种对象类型。

    1. #新建一个2x3的表格,style可以不写
    2. table=doc.add_table(rows=2,cols=3,style=None)
    3.  
    4. #可以用table 的rows和columns得到这个表格的行数和列数
    5. print len(table.rows)
    6. print len(table.columns)
    7.  
    8. #遍历表格
    9. for row in table.rows:
    10.     row.cells[0].text = '1'
    11.     #print row.cells[0].text
    12.  
    13. #新增行或列
    14. table.add_row()
    15. table.add_column()

    Word常见操作差不多就是这些。大家可以查看帮助文档,也可以用dir和help查看对象的方法属性和帮助。

  • 相关阅读:
    IE浏览器下ajax缓存导致数据不更新的解决方法
    .NET C# Tostring format 格式化字符串
    解决jquery.validate.js的验证bug
    jquery中attr和prop的区别
    Jquery操作下拉框(DropDownList)实现取值赋值
    【MVC】自定义Scaffold Template
    【HTML5+MVC4】xhEditor网页编辑器图片上传
    回归与梯度下降法及实现原理
    浅谈强化学习的方法及学习路线
    【OpenCV学习笔记之一】图像加载,修改及保存
  • 原文地址:https://www.cnblogs.com/klb561/p/10214195.html
Copyright © 2020-2023  润新知