如何使用selenium获取特定元素的html源?
我正在查看的页面包含:
<div id='1'> <p> text 1 <h1> text 2 </h1> text 3 <p> text 4 </p> </p> </div>
我想获取div中的所有文本,除了中的文本<h>
。(我想获得“文本1”,“文本3”和“文本4”)。可能有几个<h>
元素,或者根本没有。而且可能有一些<p>
元素,甚至一个元素都在另一个元素之中,或者根本没有。
我想通过获取div的所有html源并使用正则表达式删除<h>
元素来做到这一点。但是selenium.get_text不会返回html,而只是返回文本(全部!)。
我知道我可以使用selenium.get_html_source
正则表达式来查找所需的元素,但这看起来很浪费,因为selenium知道如何找到该元素。
有谁有更好的解决方案?谢谢 :)
回答:
以下代码将为您提供div元素中的HTML:
sel = selenium('localhost', 4444, browser, my_url)html = sel.get_eval("this.browserbot.getCurrentWindow().document.getElementById('1').innerHTML")
那么您可以使用BeautifulSoup对其进行解析并提取您真正想要的内容。
希望对您有所帮助
以上是 如何使用selenium获取特定元素的html源? 的全部内容, 来源链接: utcz.com/qa/415345.html