从句子中产生N-gram
如何生成字符串的n元语法,例如:
String Input="This is my car."
我想用此输入生成n-gram:
Input Ngram size = 3
输出应为:
Thisis
my
car
This is
is my
my car
This is my
is my car
用Java给出一些想法,如何实现它,或者是否有可用的库。
我正在尝试使用此NGramTokenizer,但它给出了n-
gram的字符序列,而我想要n-gram的单词序列。
回答:
您正在寻找ShingleFilter。
更新:链接指向版本3.0.2。在更高版本的Lucene中,此类可能位于不同的包中。
以上是 从句子中产生N-gram 的全部内容, 来源链接: utcz.com/qa/402410.html