Elasticsearch权威指南»深入搜索»近似匹配»多值字段

Z时代
2024-01-10
分类：综合

coding

多值字段编辑

对多值字段使用短语匹配时会发生奇怪的事。想象一下你索引这个文档:

PUT /my_index/groups/1
{
    "names": [ "John Abraham", "Lincoln Smith"]
}

拷贝为 CURL在 SENSE 中查看

然后运行一个对 Abraham Lincoln 的短语查询:

GET /my_index/groups/_search
{
    "query": {
        "match_phrase": {
            "names": "Abraham Lincoln"
        }
    }
}

拷贝为 CURL在 SENSE 中查看

令人惊讶的是，即使 Abraham 和 Lincoln 在 names 数组里属于两个不同的人名，我们的文档也匹配了查询。这一切的原因在Elasticsearch数组的索引方式。

在分析 John Abraham 的时候，产生了如下信息：

Position 1: john

Position 2: abraham

然后在分析 Lincoln Smith 的时候，产生了：

Position 3: lincoln

Position 4: smith

换句话说， Elasticsearch对以上数组分析生成了与分析单个字符串 John Abraham Lincoln Smith 一样几乎完全相同的语汇单元。我们的查询示例寻找相邻的 lincoln 和 abraham ，而且这两个词条确实存在，并且它们俩正好相邻，所以这个查询匹配了。

幸运的是，在这样的情况下有一种叫做 position_increment_gap 的简单的解决方案，它在字段映射中配置。

DELETE /my_index/groups/ 
PUT /my_index/_mapping/groups 
{
    "properties": {
        "names": {
            "type":                "string",
            "position_increment_gap": 100
        }
    }
}

拷贝为 CURL在 SENSE 中查看

首先删除映射 groups 以及这个类型内的所有文档。

然后创建一个有正确值的新的映射 groups 。

position_increment_gap 设置告诉 Elasticsearch 应该为数组中每个新元素增加当前词条 position 的指定值。所以现在当我们再索引 names 数组时，会产生如下的结果：

Position 1: john

Position 2: abraham

Position 103: lincoln

Position 104: smith

现在我们的短语查询可能无法匹配该文档因为 abraham 和 lincoln 之间的距离为 100 。为了匹配这个文档你必须添加值为 100 的 slop 。

以上是 Elasticsearch权威指南»深入搜索»近似匹配»多值字段的全部内容，来源链接： utcz.com/z/509990.html

Elasticsearch权威指南»深入搜索»近似匹配»多值字段

多值字段编辑

其他人也看了：