从文本文件中删除BeautifulSoup标签
我已安装bs4
。你如何从文本文件中删除HTML标签?简而言之,我有一个脚本,将ESRI元数据项目写入该元数据HTML页面的文本文件中,对于这些项目中的一些项目,HTML格式代码也是由于某种原因编写的。我如何使用BeautifulSoup删除这段代码?它看起来马虎。从文本文件中删除BeautifulSoup标签
此附件的说明项具有HTML:Textfile
回答:
使用w3lib
library对于这一点,没有必要的bs4
:
from w3lib.html import remove_tags text = "your text"
new_text = remove_tags(text)
回答:
@eLRuLL谢谢,这伟大工程,以去除标签。然而,我将使用这个脚本的这些元数据描述中的一些非常冗长,并且将该文本作为变量输入似乎是一个不好的主意。出于这个原因,我试过这个:
import arcpy import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
abstract = metadata.abstract
if abstract:
w3lib.html.remove_tags(abstract)
脚本运行但HTML仍然存在。
以上是 从文本文件中删除BeautifulSoup标签 的全部内容, 来源链接: utcz.com/qa/265972.html