如何在 Linux 上搜索多个 pdf 文件的内容?

Linux 中的pdfgrep命令用于过滤对一个 PDF 或多个 PDF 中特定字符模式的搜索。它是最常用的 Linux 实用程序命令之一,用于显示包含我们尝试搜索的模式的行。

通常,我们尝试在文件中搜索的模式称为正则表达式。

安装 PDF grep

对于 Ubuntu/Fedora

sudo apt-get update -y
sudo apt-get install -y pdfgrep

对于 CentOS

yum install pdfgrep

语法

pdfgrep [options...] pattern [files]

虽然我们有很多不同的选择,但最常用的是 -

-c : counts the number of matches per input file.

-h : suppresses the prefixing of file name on output.

-i : Ignores, case for matching

-H : print the file name for each match

-n : prefix each match with the number of the page where it is found

-r : recursively search all files

-R : same as -r, but it also follows all symlinks.

现在,让我们考虑一种情况,我们希望在特定目录中的所有 pdf 文件中找到特定模式,例如 dir1。

语法

pdfgrep -HiR "word" *

在上面的命令中,将“word”占位符替换为

为此,我们使用如下所示的命令 -

pdfgrep -HiR "func main()" *

上面的命令将尝试main()在特定目录和子目录中的所有文件中查找字符串“func ”。

输出结果

main.go:120:func main() {}

如果我们只想在单个目录中而不是在子目录中找到特定模式,那么我们需要使用如下所示的命令 -

pdfgrep -i "func main()" *

在上面的命令中,我们使用了-s标志,这将帮助我们不对运行命令的目录中存在的每个子目录发出警告。

输出结果

main.go:120:func main() {}

我们可以使用的另一个命令是 find 命令。

命令

find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}"

--color "func main()"' \;

输出结果
./main.go:func main() {

以上是 如何在 Linux 上搜索多个 pdf 文件的内容? 的全部内容, 来源链接: utcz.com/z/352702.html

回到顶部