相关性搜索笔记

编程

第二章:搜索

  • 词典表和倒排表

  • 文档位置很重要,用来做高亮显示

    • 为什么高亮显示重要呢?

      • 比较直观的展示搜索结果的相关性,给用户提供反馈
  • 对原始数据提取、充实、分析、索引

    • 内容提取为文档
    • 充实:清理、强化、合并数据
    • 分析:将文档转化为token

      • 包括:字符过滤、分词处理、token过滤
      • 字符过滤:

      • 分词处理:

      • token 过滤

        • stop words(禁用词)去掉
  • 布尔搜索和Lucene的BooleanQuery的区别

    • 布尔搜索

      • AND、OR、NOT
    • Lucene的BooleanQuery

      • 三个查询子句

        • MUST、SHOULD、MUST_NOT
  • token做为文档特征

    • token分析,获取有意义的信息,对客户意图的判断
  • 查准率和查全率

 

 

 

 

 

以上是 相关性搜索笔记 的全部内容, 来源链接: utcz.com/z/512805.html

回到顶部