在Java中针对HTML使用XPath包含

我正在使用Java程序内的XPath从HTML页面抓取值以获取特定标签,并偶尔使用正则表达式来清理接收到的数据。

经过一番研究,我找到了HTML

Cleaner(http://htmlcleaner.sourceforge.net/)作为将原始HTML解析为良好XML格式的最可靠方法。但是,HTML

Cleaner仅支持XPath 1.0,我发现自己需要“包含”之类的功能。例如,在这段XML中:

<div>

<td id='1234 foo 5678'>Hello</td>

</div>

我希望能够使用以下XPath获得文本“ Hello”:

//div/td[contains(@id, 'foo')]/text()

有什么办法可以获得此功能?我有几个想法,但是如果我不需要:

  • 如果有一种方法可以调用HTML Cleaner的validateXPath并返回一个TagNode(我没有找到),则可以在返回的TagNode上使用XML序列化器,并将XPath链接在一起以实现所需的功能。
  • 我可以使用HTML Cleaner将其清理为XML,将其序列化为字符串,然后将其与另一个XPath库一起使用,但是找不到适合字符串的Java XPath评估器。
  • 使用诸如getElementsByAttValue之类的TagNode函数,我基本上可以重新创建XPath评估并使用String.contains插入包含功能。

简短的问题:有什么方法可以在现有Java库中的HTML上使用XPath包含的内容?

回答:

关于此:

我可以使用HTML Cleaner将其清理为XML,将其序列化为字符串,然后将其与另一个XPath库一起使用,但是找不到适合字符串的Java

XPath评估器。

正是 我所要做的(除非您不需要对字符串进行操作(请参见下文))。

许多HTML解析器 。例如,HTMLCleaner不能正确/完全实现XPath 1.0规范(contains例如,

是XPath 1.0函数)。好消息是您不需要它。您只需HTMLCleaner即可解析格式错误的输入。完成此操作后,最好

来处理生成的(现在格式正确的)文档。

首先将文档转换成这样的标准org.w3c.dom.Document

TagNode tagNode = new HtmlCleaner().clean(

"<div><table><td id='1234 foo 5678'>Hello</td>");

org.w3c.dom.Document doc = new DomSerializer(

new CleanerProperties()).createDOM(tagNode);

然后使用标准的JAXP接口对其进行查询:

XPath xpath = XPathFactory.newInstance().newXPath();

String str = (String) xpath.evaluate("//div//td[contains(@id, 'foo')]/text()",

doc, XPathConstants.STRING);

System.out.println(str);

输出:

Hello

以上是 在Java中针对HTML使用XPath包含 的全部内容, 来源链接: utcz.com/qa/417966.html

回到顶部