您如何将HTML转换为纯文本?

我在表格中存储了HTML片段。 不是整个页面,没有标签等,只是基本格式。

我希望能够在给定页面上将Html仅显示为文本,而 无需设置格式 (实际上只是前30-50个字符,但这很容易)。

如何将HTML中的“文本”作为纯文本放置在字符串中?

所以这段代码。

<b>Hello World.</b><br/><p><i>Is there anyone out there?</i><p>

成为:

你好,世界。有没有人在那里?

回答:

如果您在谈论标签剥离,那么不必担心<script>标签之类的事情就相对简单了。如果您只需要显示不带标签的文本,则可以使用正则表达式完成此操作:

<[^>]*>

如果您确实需要担心<script>标签之类的问题,那么您将需要比正则表达式更强大的功能,因为您需要跟踪状态,更像是上下文无关语法(CFG)。虽然您可能可以通过“从左到右”或非贪婪匹配来实现。

如果您可以使用正则表达式,那么有很多网页都有很好的信息:

  • http://weblogs.asp.net/rosherove/archive/2003/05/13/6963.aspx
  • http://www.google.com/search?hl=zh_CN&q=html+tag+stripping+&btnG=搜索

如果您需要CFG的更复杂的行为,我建议您使用第三方工具,但不幸的是,我不知道要推荐哪种工具。

以上是 您如何将HTML转换为纯文本? 的全部内容, 来源链接: utcz.com/qa/420300.html

回到顶部