从包含C#的字符串中删除HTML标签

如何在C#中使用正则表达式删除所有HTML标记,包括&nbsp。我的弦看起来像

  "<div>hello</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div>"

回答:

如果您不能使用面向HTML解析器的解决方案来过滤标签,则这里有一个简单的正则表达式。

string noHTML = Regex.Replace(inputHTML, @"<[^>]+>|&nbsp;", "").Trim();

理想情况下,您应该再次通过正则表达式过滤器,该过滤器将多个空格

string noHTMLNormalised = Regex.Replace(noHTML, @"\s{2,}", " ");

以上是 从包含C#的字符串中删除HTML标签 的全部内容, 来源链接: utcz.com/qa/397235.html

回到顶部