相关性搜索笔记
第二章:搜索
- 词典表和倒排表
- 文档位置很重要,用来做高亮显示
- 为什么高亮显示重要呢?
- 比较直观的展示搜索结果的相关性,给用户提供反馈
- 为什么高亮显示重要呢?
- 对原始数据提取、充实、分析、索引
- 内容提取为文档
- 充实:清理、强化、合并数据
- 分析:将文档转化为token
- 包括:字符过滤、分词处理、token过滤
- 字符过滤:
- 分词处理:
- token 过滤
- stop words(禁用词)去掉
- 布尔搜索和Lucene的BooleanQuery的区别
- 布尔搜索
- AND、OR、NOT
- Lucene的BooleanQuery
- 三个查询子句
- MUST、SHOULD、MUST_NOT
- 三个查询子句
- 布尔搜索
- token做为文档特征
- token分析,获取有意义的信息,对客户意图的判断
- 查准率和查全率
以上是 相关性搜索笔记 的全部内容, 来源链接: utcz.com/z/512805.html