Python-如何将文本分成句子?
我有一个文本文件。我需要得到一个句子清单。
如何实现呢?有很多细微之处,例如缩写中使用了点。
我的旧正则表达式效果很差:
re.compile('(\. |^|!|\?)([A-Z][^;↑\.<>@\^&/\[\]]*(\.|!|\?) )',re.M)
回答:
自然语言工具包(nltk.org)
满足你的需求。 该群组发布表明这样做:
import nltk.datatokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
fp = open("test.txt")
data = fp.read()
print '\n-----\n'.join(tokenizer.tokenize(data))
(我还没有尝试过!)
以上是 Python-如何将文本分成句子? 的全部内容, 来源链接: utcz.com/qa/435365.html