使用Python从文本中删除非英语单词

我正在使用python进行数据清理练习,正在清理的文本包含我要删除的意大利语单词。我一直在网上搜索是否可以使用nltk之类的工具包在Python上执行此操作。

例如给出一些文本:

"Io andiamo to the beach with my amico."

我想留下:

"to the beach with my"

有人知道如何做到这一点吗?任何帮助将非常感激。

回答:

您可以使用wordsNLTK的语料库:

import nltk

words = set(nltk.corpus.words.words())

sent = "Io andiamo to the beach with my amico."

" ".join(w for w in nltk.wordpunct_tokenize(sent) \

if w.lower() in words or not w.isalpha())

# 'Io to the beach with my'

不幸的是, 艾奥 恰好是一个英语单词。通常,可能很难确定一个单词是否为英语。

以上是 使用Python从文本中删除非英语单词 的全部内容, 来源链接: utcz.com/qa/424804.html

回到顶部