如何过滤除特定白名单之外的所有HTML标签？

Z时代
2024-01-10
分类：问答

这是用于.NET。设置了IgnoreCase，未设置MultiLine。

通常我在正则表达式方面很体面，也许我的咖啡因含量低…

允许用户输入HTML编码的实体（<lt;，<amp;等），并使用以下HTML标签：

u, i, b, h3, h4, br, a, img

允许自动关闭和，带有或不带有额外的空间，但不是必需的。

我想要：

除去上面列出的那些标记之外的所有开始和结束HTML标记。

从其余标签中删除属性，但锚点可以具有href。

到目前为止，我的搜索模式（替换为空字符串）：

<(?!i|b|h3|h4|a|img|/i|/b|/h3|/h4|/a|/img)[^>]+>

除了开始和结束标签，这似乎正在剥离所有标签，但是存在三个问题：

必须包含每个允许标签的结束标签版本是很丑陋的。

属性得以保留。可以一次更换吗？

标签开始允许的标签名漏网之鱼。例如，“ ”和“ ”。</li></p><p></ol></p><p><p>以下建议的模式不会去除没有属性的标记。</p></p><p><pre><code></?(?!i|b|h3|h4|a|img)\b[^>]*></p><p></code></pre></p><p><p>如下所述，“>”在属性值中是合法的，但是可以肯定地说我将不支持。另外，将没有CDATA块等需要担心的问题。只是一些HTML。</p></p><p><p>漏洞的答案是迄今为止最好的答案，谢谢！这是他的模式（希望PRE对我更有效）：</p></p><p><pre><code>static string SanitizeHtml(string html)</p><p>{</p><p> string acceptable = "script|link|title";</p><p> string stringPattern = @"</?(?(?=" + acceptable + @")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:([""']?).*?\1?)?)*\s*/?>";</p><p> return Regex.Replace(html, stringPattern, "sausage");</p><p>}</p><p></code></pre></p><p><p>我认为仍可以对此答案进行一些小调整：</p></p><p><ol></p><p><li></p><p><p>我认为可以对此进行修改以捕获简单的<a href="/tag/HTML注释" title="HTML注释">HTML注释</a>（那些自身不包含标签的注释），方法是在“ acceptable”变量中添加“！-”，并对表达式的末尾进行少量更改以允许可选的尾随“ \ s–”。</p></p><p></li></p><p><li></p><p><p>我认为，如果属性之间存在多个空格字符（例如：格式很重的HTML，其中包含换行符和属性之间的制表符），则这会中断。</p></p><p></li></p><p></ol></p><p><p> 这是我使用的最终解决方案（在VB.NET中）：</p></p><p><pre><code> Dim AcceptableTags As String = "i|b|u|sup|sub|ol|ul|li|br|h2|h3|h4|h5|span|div|p|a|img|blockquote"</p><p> Dim WhiteListPattern As String = "</?(?(?=" & AcceptableTags & _</p><p> ")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:([""']?).*?\1?)?)*\s*/?>"</p><p> html = Regex.Replace(html, WhiteListPattern, "", RegExOptions.Compiled)</p><p></code></pre></p><p><p>需要注意的是，A标签的HREF属性仍然被清除，这是不理想的。</p></p><p></p><p></p><p></p><p></p><p></p><p></p><p></p><p><h3>回答：</h3></p><p></p><p></p><p></p><p></p><p></p><p><p>这是我为此任务编写的函数：</p></p><p><pre><code>static string SanitizeHtml(string html)</p><p>{</p><p> string acceptable = "script|link|title";</p><p> string stringPattern = @"</?(?(?=" + acceptable + @")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:(["",']?).*?\1?)?)*\s*/?>";</p><p> return Regex.Replace(html, stringPattern, "sausage");</p><p>}</p><p></code></pre></p><p><p>编辑：由于某种原因，我将对先前答案的更正发布为单独的答案，因此我在此处进行合并。</p></p><p><p>我会解释一下正则表达式，因为它有点长。</p></p><p><p>第一部分与右方括号匹配，并使用0或1斜杠（如果它是结束标记）。</p></p><p><p>接下来，您将看到一个if-then构造，并具有前瞻性。（？（？= SomeTag）then |</p><p>else）我正在检查字符串的下一部分是否是可接受的标签之一。您可以看到我将regex字符串与可接受的变量连接在一起，该变量是由竖线分隔的可接受的标记名，以便任何术语都可以匹配。如果匹配，则可以看到我输入了“</p><p>notag”一词，因为没有标签可以匹配它，如果可以接受，我想不加理会。否则，我将转到其他部分，在该部分我会匹配任何标签名称[az，AZ，0-9] +</p></p><p><p>接下来，我想匹配0个或多个属性，这些属性假定为attribute =“</p><p>value”形式。所以现在我将代表属性的那一部分分组，但是我使用？：来防止为速度而捕获该组：（？：\ s [az，AZ，0-9，-] + =？（？：（[“</p><p>“，’]？）。 <em>？\ 1？））</em></p></p><p><p>在这里，我从标签和属性名称之间的空白字符开始，然后匹配属性名称：[az，AZ，0-9，-] +</p></p><p><p>接下来，我匹配一个等号，然后再引用一个。我对报价进行了分组，以便将其捕获，以后可以\</p><p>1进行反向引用以匹配相同类型的报价。在这两个引号之间，您可以看到我使用句点来匹配任何内容，但是我使用的是惰性版本<em>？而不是贪婪的版本</em>，因此它将仅与将终止该值的下一个引号匹配。</p></p><p><p>接下来，我们在用圆括号括起来的组之后放一个*，以便它可以匹配多个属性/值组合（或不匹配）。最后，我们用\</p><p>s匹配一些空格，并在xml样式自闭标签的标签中将0或1的结尾斜杠匹配。</p></p><p><p>您可以看到我正在用香肠替换标签，因为我饿了，但是您也可以用空字符串替换它们以清除它们。</p></p><p>以上是 <a href="/qa/403259.html">如何过滤除特定白名单之外的所有HTML标签？</a> 的全部内容，来源链接：<a href="/qa/403259.html"> utcz.com/qa/403259.html</a></p></article><nav id="article-pager"><div class="pager-item txtover"> 上一篇： <a class="pager-a prev" href="/qa/403260.html"> 将物理地址映射到虚拟地址linux </a></div><div class="pager-item txtover"> 下一篇： <a class="pager-a next" href="/qa/403258.html"> 将PHP变量值传递给jquery函数 </a></div></nav><div id="related-articles"><h4 class="h4">其他人也看了：</h4><div id="artilce-tags"><a href="/tag/HTML5" class="artilce-tag">HTML5</a><a href="/tag/如何设计签名" class="artilce-tag">如何设计签名</a><a href="/tag/HTML注释" class="artilce-tag">HTML注释</a></div><div class="r-item-wrapper"><div class="r-item"><a class="r-item-pic-c" href="/qa/429682.html"><img src="/media/upload/img/defaultpic/1673062637_07284850.jpg" class="r-item-pic" alt="默认图片"/></a><h5 class="r-item-title"><a class="r-item-a" href="/qa/429682.html"> 从HTML内容中删除脚本标签 </a></h5><div class="article-info"><a class="r-cate-a" href="/qa/">问答</a><span class="pub-time">2024-01-10</span></div></div><div class="r-item"><a class="r-item-pic-c" href="/qa/262654.html"><img src="/media/upload/img/defaultpic/1673062637_07284850.jpg" class="r-item-pic" alt="默认图片"/></a><h5 class="r-item-title"><a class="r-item-a" href="/qa/262654.html"> HTML表格刮使用VBA </a></h5><div class="article-info"><a class="r-cate-a" href="/qa/">问答</a><span class="pub-time">2024-01-10</span></div></div><div class="r-item"><a class="r-item-pic-c" href="/qa/262995.html"><img src="/media/upload/img/defaultpic/1673062637_07284850.jpg" class="r-item-pic" alt="默认图片"/></a><h5 class="r-item-title"><a class="r-item-a" href="/qa/262995.html"> 如何过滤HTML表格 - JS </a></h5><div class="article-info"><a class="r-cate-a" href="/qa/">问答</a><span class="pub-time">2024-01-10</span></div></div><div class="r-item"><a class="r-item-pic-c" href="/office/289112.html"><img src="/media/upload/img/defaultpic/1673062637_07284850.jpg" class="r-item-pic" alt="默认图片"/></a><h5 class="r-item-title"><a class="r-item-a" href="/office/289112.html"> 【WPS教程】如何根据设计师查看稻壳模板资源？ </a></h5><div class="article-info"><a class="r-cate-a" href="/office/">办公</a><span class="pub-time">2024-01-10</span></div></div><div class="r-item"><a class="r-item-pic-c" href="/qa/265353.html"><img src="/media/upload/img/defaultpic/1673062637_07284850.jpg" class="r-item-pic" alt="默认图片"/></a><h5 class="r-item-title"><a class="r-item-a" href="/qa/265353.html"> 如何为默认约束指定列名？ </a></h5><div class="article-info"><a class="r-cate-a" href="/qa/">问答</a><span class="pub-time">2024-01-10</span></div></div><div class="r-item"><a class="r-item-pic-c" href="/qa/266576.html"><img src="/media/upload/img/defaultpic/1673062637_07284850.jpg" class="r-item-pic" alt="默认图片"/></a><h5 class="r-item-title"><a class="r-item-a" href="/qa/266576.html"> 如何正义名称像何塞冈萨雷斯？ </a></h5><div class="article-info"><a class="r-cate-a" href="/qa/">问答</a><span class="pub-time">2024-01-10</span></div></div><div class="r-item"><a class="r-item-pic-c" href="/qa/432758.html"><img src="/media/upload/img/defaultpic/1673062637_07284850.jpg" class="r-item-pic" alt="默认图片"/></a><h5 class="r-item-title"><a class="r-item-a" href="/qa/432758.html"> spring在过滤器中使用@Value批注 </a></h5><div class="article-info"><a class="r-cate-a" href="/qa/">问答</a><span class="pub-time">2024-01-10</span></div></div><div class="r-item"><a class="r-item-pic-c" href="/qa/263184.html"><img src="/media/upload/img/defaultpic/1673062637_07284850.jpg" class="r-item-pic" alt="默认图片"/></a><h5 class="r-item-title"><a class="r-item-a" href="/qa/263184.html"> Actionscript 3：检查字符串是否包含另一个字符串 </a></h5><div class="article-info"><a class="r-cate-a" href="/qa/">问答</a><span class="pub-time">2024-01-10</span></div></div></div></div></div><aside class="sidebar just-pc"><div class="tag-list"><h2 class="h2">最新文章</h2><ol class="hot-list__ol"><li class="txtover"><a href="/qa/957746.html" title="地面马赛克瓷砖怎么贴（墙地面马赛克粘贴的施工方法）"> 1. 地面马赛克瓷砖怎么贴（墙地面马赛克粘贴的施工方法） </a></li><li class="txtover"><a href="/qa/957745.html" title="橱柜清洁去污家用妙招（橱柜的清洁技巧分析）"> 2. 橱柜清洁去污家用妙招（橱柜的清洁技巧分析） </a></li><li class="txtover"><a href="/qa/957744.html" title="电热毯真的会对身体造成危害吗？专家详解真相"> 3. 电热毯真的会对身体造成危害吗？专家详解真相 </a></li><li class="txtover"><a href="/qa/957743.html" title="阿里斯顿冰箱怎么调温度（冰箱温度调节步骤）"> 4. 阿里斯顿冰箱怎么调温度（冰箱温度调节步骤） </a></li><li class="txtover"><a href="/qa/957742.html" title="康佳老款电视型号查询指南（轻松找到你想要的型号信息）"> 5. 康佳老款电视型号查询指南（轻松找到你想要的型号信息） </a></li><li class="txtover"><a href="/qa/957741.html" title="熊二妈妈死的图片(熊出没之肥波咋死的)"> 6. 熊二妈妈死的图片(熊出没之肥波咋死的) </a></li><li class="txtover"><a href="/qa/957740.html" title="科沃斯WRN60擦窗机器硬件资料详解（初学者必看）"> 7. 科沃斯WRN60擦窗机器硬件资料详解（初学者必看） </a></li><li class="txtover"><a href="/qa/957739.html" title="山水功放和奇声功放哪个更适合你？（从音质价格品牌口碑三方面详细比较）"> 8. 山水功放和奇声功放哪个更适合你？（从音质价格品牌口碑三方面详细比较） </a></li><li class="txtover"><a href="/qa/957738.html" title="魔兽怀旧服工程1-375最省钱速冲攻略与80级工程收益分析"> 9. 魔兽怀旧服工程1-375最省钱速冲攻略与80级工程收益分析 </a></li><li class="txtover"><a href="/qa/957737.html" title="《荒野大镖客2》最好的马有哪些？"> 10. 《荒野大镖客2》最好的马有哪些？ </a></li></ol></div></aside><aside class="sidebar just-pc sticky"><div class="tag-list"><h2 class="h2">相关话题</h2><ul class="tag-list__ul"><li class="txtover"><a href="/tag/HTML5语义化" title="HTML5语义化"> HTML5语义化 </a></li><li class="txtover"><a href="/tag/HTML5游戏引擎" title="HTML5游戏引擎"> HTML5游戏引擎 </a></li><li class="txtover"><a href="/tag/html5游戏" title="html5游戏"> html5游戏 </a></li><li class="txtover"><a href="/tag/html5特效" title="html5特效"> html5特效 </a></li><li class="txtover"><a href="/tag/html5培训" title="html5培训"> html5培训 </a></li><li class="txtover"><a href="/tag/个人签名设计" title="个人签名设计"> 个人签名设计 </a></li><li class="txtover"><a href="/tag/设计个人签名" title="设计个人签名"> 设计个人签名 </a></li><li class="txtover"><a href="/tag/名字设计签名免费" title="名字设计签名免费"> 名字设计签名免费 </a></li><li class="txtover"><a href="/tag/设计" title="设计"> 设计 </a></li><li class="txtover"><a href="/tag/在线名片设计" title="在线名片设计"> 在线名片设计 </a></li><li class="txtover"><a href="/tag/HTML5" title="HTML5"> HTML5 </a></li><li class="txtover"><a href="/tag/HTML文件" title="HTML文件"> HTML文件 </a></li><li class="txtover"><a href="/tag/批处理注释" title="批处理注释"> 批处理注释 </a></li><li class="txtover"><a href="/tag/index dat suite" title="index dat suite"> index dat suite </a></li><li class="txtover"><a href="/tag/stringbuilder" title="stringbuilder"> stringbuilder </a></li><li class="txtover"><a href="/tag/connectionstring" title="connectionstring"> connectionstring </a></li></ul></div></aside></div><footer id="footer"><div class="container just-pc"><div class="just-pc info"><h4>关于【Z时代】</h4><p> UTC，指协调世界时，又称世界统一时间、世界标准时间，Zulu Time指祖鲁时间，UTCZ由此而来。她提供标准北京时间查询校准服务，同时也是一个集办公软件、常用工具、科技产品、智能电子设备、游戏周边、IT技术、生活常识等综合型百科知识分享科普宣传网站。 </p></div><div class="contact"><h4>联系我们</h4><p>商务合作：Q861125804</p><p>联系站长：Q861125804</p><p>投诉建议：aiasus2010@gmail.com</p></div><div class="ewm just-pc"><img src="/static/img/qrcode_utcz.com.png" alt="手机站点二维码"/><p>扫码手机访问</p></div></div><div id="copyright"> © 2006 - 现在 Z时代版权所有 </div></footer><div id="top" onclick="returnTop()"><img id="top-pic" src="/static/img/top.svg" alt="回到顶部" title="返回顶部"/></div><script src="/static/js/comm.js"></script><script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script><script>LA.init({id:"3HMHcOVVMPNsgl7R",ck:"3HMHcOVVMPNsgl7R"})</script><script> var _mtj = _mtj || []; (function () { var mtj = document.createElement("script"); mtj.src = "https://node31.aizhantj.com:21233/tjjs/?k=8ubht1jmv9e"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(mtj, s); })(); </script><script src="/static/js/hljs/hl.js"></script><script> document.addEventListener('DOMContentLoaded', (event) => { document.querySelectorAll('pre').forEach((block) => { hljs.highlightBlock(block);});}); </script></body> </html>