从文本文件中删除BeautifulSoup标签

Z时代
2024-01-10
分类：问答

我已安装bs4。你如何从文本文件中删除HTML标签？简而言之，我有一个脚本，将ESRI元数据项目写入该元数据HTML页面的文本文件中，对于这些项目中的一些项目，HTML格式代码也是由于某种原因编写的。我如何使用BeautifulSoup删除这段代码？它看起来马虎。从文本文件中删除BeautifulSoup标签

此附件的说明项具有HTML：Textfile

回答：

使用w3lib library对于这一点，没有必要的bs4：

from w3lib.html import remove_tags 
text = "your text" 
new_text = remove_tags(text)

回答：

@eLRuLL谢谢，这伟大工程，以去除标签。然而，我将使用这个脚本的这些元数据描述中的一些非常冗长，并且将该文本作为变量输入似乎是一个不好的主意。出于这个原因，我试过这个：

import arcpy 
import arcpy_metadata as md 
from w3lib.html import remove_tags 
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY' 
metadata = md.MetadataEditor(ws) 
def meta2txt(): 
    abstract = metadata.abstract 
    if abstract: 
     w3lib.html.remove_tags(abstract)

脚本运行但HTML仍然存在。

以上是从文本文件中删除BeautifulSoup标签的全部内容，来源链接： utcz.com/qa/265972.html

从文本文件中删除BeautifulSoup标签

回答：

回答：

其他人也看了：