使用Python从文本中删除非英语单词
我正在使用python进行数据清理练习,正在清理的文本包含我要删除的意大利语单词。我一直在网上搜索是否可以使用nltk之类的工具包在Python上执行此操作。
例如给出一些文本:
"Io andiamo to the beach with my amico."
我想留下:
"to the beach with my"
有人知道如何做到这一点吗?任何帮助将非常感激。
回答:
您可以使用words
NLTK的语料库:
import nltkwords = set(nltk.corpus.words.words())
sent = "Io andiamo to the beach with my amico."
" ".join(w for w in nltk.wordpunct_tokenize(sent) \
if w.lower() in words or not w.isalpha())
# 'Io to the beach with my'
不幸的是, 艾奥 恰好是一个英语单词。通常,可能很难确定一个单词是否为英语。
以上是 使用Python从文本中删除非英语单词 的全部内容, 来源链接: utcz.com/qa/424804.html