让Jsoup支持JavaScript动态生成的html
现在,我正在研究网络爬虫。这个应该解析一些特定的站点,并输出一个xml文件。至此,这没有问题。搜寻器有效,您可以通过cfg文件快速地对其进行自定义。我使用Jsoup解析HTML内容。
我刚刚添加了几个站点,并注意到通过JavaScript创建的HTML内容存在很大的问题。没有办法使Jsoup支持Javascript吗?或者至少获得我在浏览器中可以看到的完整HTML内容。
我已经尝试过HtmlUnit,但是这个做得不好。它没有给我提供我在浏览器中获得的内容。
真诚的
奥戈佛
回答:
Jsoup不支持javascript,并且不模拟浏览器。如果您打算执行Javascript,就不用管它了。以我的经验,HtmlUnit是一个无头的浏览器,它给了我最好的结果(总是谈论Java框架)。
在HtmlUnit中值得尝试的一件事是BrowserVersion
在创建WebClient
实例时更改(Chrome /
InternetEplorer / FireFox)。有些网站的反应方式不同, 有时 只是更改该值 可能 会给您带来预期的结果。
以上是 让Jsoup支持JavaScript动态生成的html 的全部内容, 来源链接: utcz.com/qa/423531.html