Apache POI Word
1、什么是Apache POI?
Apache POI是一个流行的API,使用Java程序创建,修改和显示MS-Office文件。 它是由Apache Software Foundation开发和发布的一个开源库,用于使用Java程序设计或修改MS-Office文件。 它包含用于将用户输入数据或文件解码为MS-Office文档的类和方法。
2、Apache POI的组件
Apache POI包含用于MS-Office的所有OLE2复合文档的类和方法。 此API的组件列表如下:
POIFS:此组件是所有其他POI元素的基本因素。 它用于显式读取不同的文件。
HSSF:用于读取和写入.xls格式的MS-Excel文件。
XSSF(XML SpreadSheet格式):用于MS-Excel的.xlsx文件格式。
HPSF:用于提取MS-Office文件的属性集。
HWPF:用于读取和写入MS-Word的.doc扩展文件。
XWPF(XML字处理器格式):用于读取和写入MS-Word的扩展文件 .docx 。
HSLF:用于阅读,创建和编辑PowerPoint演示文稿。
HDGF(Horrible DiaGram格式):它包含MS-Visio二进制文件的类和方法。
HPBF(Horrible PuBlisher格式):用于读取和写入MS-Publisher文件。
本文章将指导您完成使用Java处理MS-Word文件的过程。因此,仅限于HWPF和XWPF组件。
3、安装Apache POI库
从 http://poi.apache.org/download 下载最新版本的Apache POI。并将其内容解压缩到一个文件夹,从中可以将所需的库链接到Java程序。导入jar如下:
4、Apache POI Word - 文件
以下简单程序用于创建空白MS-Word文档:
5、Apache POI Word - 段落
下面程序用于创建一个段落以及将其添加到文档中。段落是Word文件中页面的一部分。
首先创建一个文档,然后我们可以创建一个段落。使用Paragraph实例,您可以创建行,然后向文档中输入一些文本。例子如下:
在c盘根目录下创建word文档:
createparagraph.docx 文件如下所示
6、Apache POI Word - 表格
下面程序用于创建表格 并且设置表格的宽度,使用XWPFTable 类创建表数据。 将每个行添加到表格中,并将单元格添加到行
7、Apache POI Word - 图片
下面程序用与在文档中创建数据表,并向文档中导入图片。
8、Apache POI Word - 文本提取
对于.docx文件,我们使用类org.apache.poi.xwpf.extractor.XPFFWordExtractor从Word文件中提取和返回简单数据,从Word文件中提取标题,脚注,表数据等。
下面显示如何从Word文件提取简单文本:
总结:关于使用HWPF和XWPF组件来处理word就介绍到这里了,更多的资料可以参考完整的API文档:https://poi.apache.org/apidocs/index.html?org/apache/poi/openxml4j/opc/internal/package-summary.html