从文本文件中删除BeautifulSoup标签

我已安装bs4。你如何从文本文件中删除HTML标签?简而言之,我有一个脚本,将ESRI元数据项目写入该元数据HTML页面的文本文件中,对于这些项目中的一些项目,HTML格式代码也是由于某种原因编写的。我如何使用BeautifulSoup删除这段代码?它看起来马虎。从文本文件中删除BeautifulSoup标签

此附件的说明项具有HTML:Textfile

回答:

使用w3lib library对于这一点,没有必要的bs4

from w3lib.html import remove_tags 

text = "your text"

new_text = remove_tags(text)

回答:

@eLRuLL谢谢,这伟大工程,以去除标签。然而,我将使用这个脚本的这些元数据描述中的一些非常冗长,并且将该文本作为变量输入似乎是一个不好的主意。出于这个原因,我试过这个:

import arcpy 

import arcpy_metadata as md

from w3lib.html import remove_tags

ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'

metadata = md.MetadataEditor(ws)

def meta2txt():

abstract = metadata.abstract

if abstract:

w3lib.html.remove_tags(abstract)

脚本运行但HTML仍然存在。

以上是 从文本文件中删除BeautifulSoup标签 的全部内容, 来源链接: utcz.com/qa/265972.html

回到顶部