如何确定文件是否为PDF文件?
我在Java中使用PdfBox从PDF文件提取文本。提供的某些输入文件无效,这些文件上的PDFTextStripper暂停。有没有一种干净的方法来检查提供的文件是否确实是有效的PDF?
回答:
您可以找出文件(或字节数组)的mime类型,因此不必盲目地依赖扩展名。我是用光圈的MimeExtractor(http://aperture.sourceforge.net/)来完成的,或者几天前我看到了一个专门为此使用的库(http://sourceforge.net/projects/mime-
util)
我使用光圈从各种文件中提取文本,不仅是pdf,而且还需要例如针对pdf进行调整(光圈使用pdfbox,但是当pdfbox失败时我添加了另一个库作为后备)
以上是 如何确定文件是否为PDF文件? 的全部内容, 来源链接: utcz.com/qa/425556.html