从句子中产生N-gram

如何生成字符串的n元语法,例如:

String Input="This is my car."

我想用此输入生成n-gram:

Input Ngram size = 3

输出应为:

This

is

my

car

This is

is my

my car

This is my

is my car

用Java给出一些想法,如何实现它,或者是否有可用的库。

我正在尝试使用此NGramTokenizer,但它给出了n-

gram的字符序列,而我想要n-gram的单词序列。

回答:

您正在寻找ShingleFilter。

更新:链接指向版本3.0.2。在更高版本的Lucene中,此类可能位于不同的包中。

以上是 从句子中产生N-gram 的全部内容, 来源链接: utcz.com/qa/402410.html

回到顶部