POI解析doc全文,如何跳过页眉页脚?

如题,我需要用poi解析word文档,主要就用wordExtractor的getText方法来抽取文字内容。但是不能包含页眉页脚的内容。

对于docx格式的,我找到了一种解决方案。即是docx的文档可以转成XWPFDocment对象,有getHeaderList()和getFooterList()方法,可以遍历这些页眉页脚对象,用空的instance覆盖掉,再用XWPFWordExtractor的getText()就可以达到解析正文、跳过页眉页脚的效果;

但是doc格式的我还没弄出来。 doc格式对应的是HWPFDocument对象吧,和docx的API差别挺大的。 有什么方法可以仿照上面的内容把页眉页脚用空的进行替换吗? 或者有别的解决方案也可以


回答:

可以使用 POI 的 "XWPFHeaderFooterPolicy" 类:

XWPFDocument document = new XWPFDocument(new FileInputStream("document.doc"));

// 跳过页眉页脚

XWPFHeaderFooterPolicy headerFooterPolicy = document.getHeaderFooterPolicy();

if (headerFooterPolicy != null) {

headerFooterPolicy.createHeader(XWPFHeaderFooterPolicy.DEFAULT);

headerFooterPolicy.createFooter(XWPFHeaderFooterPolicy.DEFAULT);

}

以上是 POI解析doc全文,如何跳过页眉页脚? 的全部内容, 来源链接: utcz.com/p/944895.html

回到顶部