使用jsoup将HTML解析为格式化的纯文本
我正在做一个Maven项目,该项目使我可以解析网站中的html数据。我可以使用下面的代码来解析它:
public void parseData(){ String url = "http://stackoverflow.com/help/on-topic";
try {
Document doc = Jsoup.connect(url).get();
Element essay = doc.select("div.col-section").first();
String essayText = essay.text();
jTextAreaAdem.setText(essayText);
} catch (IOException ex) {
Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex);
}
}
到目前为止,我还没有问题。我可以解析html数据。我正在从jsoup中使用select方法,并使用“ div.col-
section”检索数据,这意味着我正在使用class为col-
section的div元素进行查找。我想在textarea中打印数据。即使网站上的实际数据超过一个段落,我得到的结果还是一个巨大的段落。那么,如何像在网站上一样解析数据呢?
回答:
未格式化的原因是格式化是在HTML中进行的-带<p>
和<ol>
标记等。调用.text()
block元素会丢失该格式。
Jsoup有一个示例HTML到纯文本转换器,您可以通过将div元素作为焦点来适应您的需求。
另外,您可以选择"div.col-section >
*",并遍历每个Element,然后用换行符打印出该文本。
以上是 使用jsoup将HTML解析为格式化的纯文本 的全部内容, 来源链接: utcz.com/qa/402051.html