Python爬虫正则表达式
“正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。”
如下分享两个正则表达式相关有用的网站:
- 整体介绍 - 教程:https://www.runoob.com/regexp/regexp-tutorial.html
- 在线解析和测试工具:https://www.sojson.com/regex/generate
常用的三类原子有:
- 常用元字符
代码
说明
.
匹配除换行符以外的任意字符
w
匹配字母或数字或下划线
s
匹配任意的空白符
d
匹配数字
匹配单词的开始或结束
^
匹配字符串的开始
$
匹配字符串的结束
- 常用反义词
代码/语法
说明
W
匹配任意不是字母,数字,下划线,汉字的字符
S
匹配任意不是空白符的字符
D
匹配任意非数字的字符
B
匹配不是单词开头或结束的位置
[^x]
匹配除了x以外的任意字符
[^aeiou]
匹配除了aeiou这几个字母以外的任意字符
- 常用限定符
代码/语法
说明
*
重复零次或更多次
+
重复一次或更多次
?
重复零次或一次
{n}
重复n次
{n,}
重复n次或更多次
{n,m}
重复n到m次
以上是 Python爬虫正则表达式 的全部内容, 来源链接: utcz.com/z/537875.html