使用jsoup将HTML解析为格式化的纯文本

我正在做一个Maven项目,该项目使我可以解析网站中的html数据。我可以使用下面的代码来解析它:

public void parseData(){

String url = "http://stackoverflow.com/help/on-topic";

try {

Document doc = Jsoup.connect(url).get();

Element essay = doc.select("div.col-section").first();

String essayText = essay.text();

jTextAreaAdem.setText(essayText);

} catch (IOException ex) {

Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex);

}

}

到目前为止,我还没有问题。我可以解析html数据。我正在从jsoup中使用select方法,并使用“ div.col-

section”检索数据,这意味着我正在使用class为col-

section的div元素进行查找。我想在textarea中打印数据。即使网站上的实际数据超过一个段落,我得到的结果还是一个巨大的段落。那么,如何像在网站上一样解析数据呢?

回答:

未格式化的原因是格式化是在HTML中进行的-带<p><ol>标记等。调用.text()block元素会丢失该格式。

Jsoup有一个示例HTML到纯文本转换器,您可以通过将div元素作为焦点来适应您的需求。

另外,您可以选择"div.col-section >

*",并遍历每个Element,然后用换行符打印出该文本。

以上是 使用jsoup将HTML解析为格式化的纯文本 的全部内容, 来源链接: utcz.com/qa/402051.html

回到顶部