Python和字符规范化

我从一个包含特殊字符的国外来源中检索了基于文本的utf8数据,例如,u"ıöüç"当我想将它们标准化为英语时,例如"ıöüç"-> "iouc"。实现这一目标的最佳方法是什么?

回答:

我建议使用Unidecode模块:

>>> from unidecode import unidecode

>>> unidecode(u'ıöüç')

'iouc'

请注意如何为它提供一个unicode字符串,并输出一个字节字符串。保证输出为ASCII。

以上是 Python和字符规范化 的全部内容, 来源链接: utcz.com/qa/428252.html

回到顶部