无监督自动标记算法?

我想构建一个Web应用程序,允许用户上传 文档视频图像音乐 ,然后使他们能够搜索它们。可以将其视为 Dropbox

+语义搜索。

当用户上传新文件(例如 ,如何根据文件内容自动生成标签?换句话说,不需要用户输入即可确定文件的内容。如果假设

是有关数据挖掘的研究论文,那么当用户搜索 数据挖掘研究论文document1时

,应在搜索结果中返回该文件,因为 数据挖掘研究论文 很可能会自动-为给定文档生成的标签。

提前致谢!

回答:

用于此类任务的最常见的无监督机器学习模型是潜在狄利克雷分配(LDA)。该模型会根据这些文档中的单词自动推断出文档集中的主题集合。在您的文档集中运行LDA会在搜索特定主题时将具有概率的单词分配给某些主题,然后您可以检索与该单词相关的概率最高的文档。

图像和音乐也有一些扩展,请参见http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf。

LDA有几种语言的几种有效实现:

  • 原始研究人员的许多实现
  • http://mallet.cs.umass.edu/,用Java编写,并在SO上被其他人推荐
  • PLDA:快速,并行的C ++实现

以上是 无监督自动标记算法? 的全部内容, 来源链接: utcz.com/qa/409449.html

回到顶部