RegEx匹配XHTML自包含标签以外的打开标签
我需要匹配所有这些开始标签:
<p><a href="foo">
但不是这些:
<br /><hr class="foo" />
我想出了这个,想确保我做对了。我只是捕捉到a-z
。
<([a-z]+) *[^/]*?>
我相信它说:
- 找到一个小于,然后
- 查找(并捕获)az一次或多次,然后
- 找到零个或多个空格,然后
- 找到零次或多次贪婪的字符,除了
/
,然后 - 寻找大于
我有那个权利吗?更重要的是,您怎么看?
回答:
尽管只有正则表达式的任意 HTML是不可能的,但有时使用它们来解析有限的已知 HTML集合是适当的。
如果您想从一小撮HTML页面中抓取数据,然后将它们填充到数据库中,则正则表达式可能会正常工作。例如,我最近想获得我从议会网站上获得的澳大利亚联邦代表的姓名,政党和地区。这是一项有限的一次性工作。
正则表达式对我来说效果很好,并且安装起来非常快。
以上是 RegEx匹配XHTML自包含标签以外的打开标签 的全部内容, 来源链接: utcz.com/qa/404741.html