使用jsoup将html转换为纯文本时,如何保留换行符?

我有以下代码:

 public class NewClass {

public String noTags(String str){

return Jsoup.parse(str).text();

}

public static void main(String args[]) {

String strings="<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN \">" +

"<HTML> <HEAD> <TITLE></TITLE> <style>body{ font-size: 12px;font-family: verdana, arial, helvetica, sans-serif;}</style> </HEAD> <BODY><p><b>hello world</b></p><p><br><b>yo</b> <a href=\"http://google.com\">googlez</a></p></BODY> </HTML> ";

NewClass text = new NewClass();

System.out.println((text.noTags(strings)));

}

结果是:

hello world yo googlez

但我想打破界限:

hello world

yo googlez

我已经看过jsoup的TextNode#getWholeText(),但是我不知道如何使用它。

如果<br>我解析的标记中有一个,如何在结果输出中换行?

回答:

保留换行符的真正解决方案应该是这样的:

public static String br2nl(String html) {

if(html==null)

return html;

Document document = Jsoup.parse(html);

document.outputSettings(new Document.OutputSettings().prettyPrint(false));//makes html() preserve linebreaks and spacing

document.select("br").append("\\n");

document.select("p").prepend("\\n\\n");

String s = document.html().replaceAll("\\\\n", "\n");

return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));

}

满足以下要求:

  1. 如果原始html包含换行符(\ n),则保留它
  2. 如果原始html包含br或p标签,它们将被翻译为换行符(\ n)。

以上是 使用jsoup将html转换为纯文本时,如何保留换行符? 的全部内容, 来源链接: utcz.com/qa/434623.html

回到顶部