Jsoup 功能强大的 JavaHTML 解析器

Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

Jsoup 功能强大的 JavaHTML 解析器

Jsoup 遵循WHATWG HTML5规范,解析某些HTML带DOM中,和浏览器做相同的事情。

Jsoup特点

  • 可以解析通过URL、文件或字符串获取的HTML
  • 发现和提取数据,使用DOM遍历或CSS选择器
  • 操作HTML元素、属性、文本
  • 干净的用户提交的内容对安全的白名单,防止XSS攻击
  • 整洁的HTML输出

Jsoup被设计来兼容处理各种HTML代码,这意味着即使你的HTML代码不是完整的结构、或者是包含无效的标签,Jsoup都可以很好的解析,从最原始的数据作为来源,生成合适的DOM文档树。

Jsoup运行与Java 1.5及以上的版本。

在线示例

那维基百科的网页作为示例源数据,从新闻中的部分到一个列表中的元素选择标题:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();

Elements newsHeadlines = doc.select("#mp-itn b a");

开放源代码

Jsoup是一个开放源代码的项目,遵循 MIT 协议开放,源代码托管在 GitHub 。

Jsoup 良好的可扩展性API 设计,你可以通过选择器的定义来开发出非常强大的HTML 解析功能。再加上jsoup 项目本身的开发也非常活跃,因此如果你正在使用Java ,需要对HTML 进行处理,不妨试试。

相关链接

  • 官网:https://jsoup.org/
  • 中文文档:https://www.wenjiangs.com/docs/jsoup-docs

以上是 Jsoup 功能强大的 JavaHTML 解析器 的全部内容, 来源链接: utcz.com/p/232288.html

回到顶部