如何从PDF文件中提取文本?

我正在尝试使用提取此 PDF文件中包含的文本Python

我正在使用PyPDF2模块,并具有以下脚本:

import PyPDF2

pdf_file = open('sample.pdf')

read_pdf = PyPDF2.PdfFileReader(pdf_file)

number_of_pages = read_pdf.getNumPages()

page = read_pdf.getPage(0)

page_content = page.extractText()

print page_content

运行代码时,得到以下输出,该输出与PDF文档中包含的输出不同:

!"#$%#$%&%$&'()*%+,-%./01'*23%4

5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)

%

如何提取PDF文档中的文本?

回答:

要从PDF提取文本,请使用以下代码

import PyPDF2

pdfFileObj = open('mypdf.pdf', 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)

a = pageObj.extractText()

print(a)

以上是 如何从PDF文件中提取文本? 的全部内容, 来源链接: utcz.com/qa/427906.html

回到顶部