POI解析doc全文,如何跳过页眉页脚?
如题,我需要用poi解析word文档,主要就用wordExtractor的getText方法来抽取文字内容。但是不能包含页眉页脚的内容。
对于docx格式的,我找到了一种解决方案。即是docx的文档可以转成XWPFDocment对象,有getHeaderList()和getFooterList()方法,可以遍历这些页眉页脚对象,用空的instance覆盖掉,再用XWPFWordExtractor的getText()就可以达到解析正文、跳过页眉页脚的效果;
但是doc格式的我还没弄出来。 doc格式对应的是HWPFDocument对象吧,和docx的API差别挺大的。 有什么方法可以仿照上面的内容把页眉页脚用空的进行替换吗? 或者有别的解决方案也可以
回答:
可以使用 POI 的 "XWPFHeaderFooterPolicy" 类:
XWPFDocument document = new XWPFDocument(new FileInputStream("document.doc"));// 跳过页眉页脚
XWPFHeaderFooterPolicy headerFooterPolicy = document.getHeaderFooterPolicy();
if (headerFooterPolicy != null) {
headerFooterPolicy.createHeader(XWPFHeaderFooterPolicy.DEFAULT);
headerFooterPolicy.createFooter(XWPFHeaderFooterPolicy.DEFAULT);
}
以上是 POI解析doc全文,如何跳过页眉页脚? 的全部内容, 来源链接: utcz.com/p/944895.html