UnicodeDecodeError:“ utf8”编解码器无法解码字节0x9c
我有一个套接字服务器,应该从客户端接收UTF-8有效字符。
问题是某些客户端(主要是黑客)正在通过它发送所有错误的数据。
我可以轻松地区分真正的客户端,但是我会将所有发送的数据记录到文件中,以便以后进行分析。
有时我会得到这样的œ
导致UnicodeDecodeError
错误的字符。
我需要能够使带有或不带有这些字符的字符串UTF-8。
对于我的特殊情况,套接字服务是MTA,因此我只希望接收ASCII命令,例如:
EHLO example.comMAIL FROM: <john.doe@example.com>
...
我将所有这些都记录在JSON中。
然后,一些没有好主意的人决定出售各种垃圾。
这就是为什么对于我的特定情况,完全可以剥离非ASCII字符。
回答:
http://docs.python.org/howto/unicode.html#the-unicode-
type
str = unicode(str, errors='replace')
要么
str = unicode(str, errors='ignore')
这将删除(忽略)有问题的字符,并返回不包含这些字符的字符串。
对我而言,这是理想的情况,因为我将其用作针对非ASCII输入的保护,这是我的应用程序所不允许的。
使用codecs
模块中的open方法读取文件:
import codecswith codecs.open(file_name, 'r', encoding='utf-8',
errors='ignore') as fdata:
以上是 UnicodeDecodeError:“ utf8”编解码器无法解码字节0x9c 的全部内容, 来源链接: utcz.com/qa/425475.html