如何从PDF文件中提取文本？

Z时代
2024-01-10
分类：问答

我正在尝试使用提取此 PDF文件中包含的文本Python。

我正在使用PyPDF2模块，并具有以下脚本：

import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content

运行代码时，得到以下输出，该输出与PDF文档中包含的输出不同：

!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%

如何提取PDF文档中的文本？

回答：

要从PDF提取文本，请使用以下代码

import PyPDF2
pdfFileObj = open('mypdf.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
a = pageObj.extractText()
print(a)

以上是如何从PDF文件中提取文本？的全部内容，来源链接： utcz.com/qa/427906.html

如何从PDF文件中提取文本？

回答：

其他人也看了：