MBR的要素有哪些?
MBR 有多种元素,如下所示 -
选择训练集- 训练集包括 49,652 个新闻故事,由新闻检索服务支持。这些故事来自大约三个月的新闻和近 100 个多个来源。
每个故事平均包含 2,700 个单词,并为其创建了 8 个代码。训练集不是特别创建的,因此训练集中的代码频率变化很大,模仿了一般新闻故事中代码的完整频率。
选择距离函数- 下一阶段是选择距离函数。在这种方法中,存在一个距离函数,它依赖于一个称为相关反馈的概念,该概念根据两个文件包含的单词计算两个文件的相似度。相关性反馈(在侧边栏中更完整地定义)被创建为返回与给定文档相似的文件,作为优化搜索的一种方法。相同的文件是用于 MBR 的邻居。
选择组合函数- 下一个决定是组合函数。它可以为新闻故事创建分类代码,这与大多数分类问题不同。一些分类问题正在寻找单一的最佳解决方案。但新闻故事可以有多个代码,即使来自同一个元素。使 MBR 适应这些问题的能力突出了它的灵活性。
组合函数需要加权求和方法。因为最大距离为 1,所以权重很容易为 1 减去距离,因此对于距离较近的邻居,权重可能较大,而对于距离较远的邻居,权重可能较小。
选择邻居数量- 调查在 1 和 11 之间变化最近邻居的数量。最好的结果来自使用更多的邻居。但是这个案例研究与 MBR 的几个应用不同,因为它为每个故事创建了几个类别。一般的问题是只创建一个单独的类别或代码,更少的邻居就足以获得最佳结果。
它可以计算 MBR 在编码方面的有效性,新闻服务有一个编辑委员会审查分配给 200 个故事的一些代码,无论是由编辑还是由 MBR。大多数专家组同意的一些代码被视为“正确”。
将“正确”代码与人类编辑最初创建的代码进行比较很有趣。最初(由人类)为故事创建的代码中有 88% 是正确的,但人类编辑犯了错误。
以上是 MBR的要素有哪些? 的全部内容, 来源链接: utcz.com/z/297138.html