定位在HTML右边的标记,而在蟒蛇webscraping
林在学校的一个项目工作是我显示的当前价格比特币,ETH也许再和IM网络刮https://cryptowat.ch/但我不能找到用于存储实时价格标签。当我解析div标签返回的价格,但我不是能够把它隔离开,所以我可以在Python定位在HTML右边的标记,而在蟒蛇webscraping
<div class="rankings-col__header__segment"><h2>BTC</h2><weak>usd </weak>10857.00</div>
回答:
显示它从我的理解 - 你知道BTC
字符串,可以用它来基地的定位。
所以,如果这将是XPath的,你可以使用和following-sibling::text()
:使用lxml.html
//h2[. = 'BTC']/following-sibling::text()
例子:
from lxml.html import fromstring data = """<div class="rankings-col__header__segment"><h2>BTC</h2><weak>usd </weak>10857.00</div>"""
root = fromstring(data)
print(root.xpath("//h2[. = 'BTC']/following-sibling::text()"))
打印['10857.00']
。
如果任何机会,你可以使用BeautifulSoup
,这将是:
from bs4 import BeautifulSoup data = """<div class="rankings-col__header__segment"><h2>BTC</h2><weak>usd </weak>10857.00</div>"""
soup = BeautifulSoup(data, "html.parser")
print(soup.find("h2", string="BTC").find_next_sibling(text=True))
以上是 定位在HTML右边的标记,而在蟒蛇webscraping 的全部内容, 来源链接: utcz.com/qa/259373.html