在Python中将XML / HTML实体转换为Unicode字符串
我正在做一些Web
抓取,并且站点经常使用HTML
实体来表示非ascii
字符。Python是否有一个实用程序可以接受带有HTML
实体的字符串并返回unicode
类型?
例如:
我回来了:
ǎ
代表带有音调标记的“ǎ”
。以二进制形式表示为16位01ce。我想将html实体转换为值 u'\u01ce'
回答:
标准库自己的HTMLParser
具有未记录的函数unescape()
,它完全按照你的想法执行操作:
import HTMLParserh = HTMLParser.HTMLParser()
h.unescape('© 2010') # u'\xa9 2010'
h.unescape('© 2010') # u'\xa9 2010'
以上是 在Python中将XML / HTML实体转换为Unicode字符串 的全部内容, 来源链接: utcz.com/qa/418922.html