无监督自动标记算法?
我想构建一个Web应用程序,允许用户上传 文档 , 视频 , 图像 , 音乐 ,然后使他们能够搜索它们。可以将其视为 Dropbox
+语义搜索。
当用户上传新文件(例如 ,如何根据文件内容自动生成标签?换句话说,不需要用户输入即可确定文件的内容。如果假设
是有关数据挖掘的研究论文,那么当用户搜索 数据挖掘 或 研究论文 或 document1时
,应在搜索结果中返回该文件,因为 数据挖掘 和 研究论文 很可能会自动-为给定文档生成的标签。
提前致谢!
回答:
用于此类任务的最常见的无监督机器学习模型是潜在狄利克雷分配(LDA)。该模型会根据这些文档中的单词自动推断出文档集中的主题集合。在您的文档集中运行LDA会在搜索特定主题时将具有概率的单词分配给某些主题,然后您可以检索与该单词相关的概率最高的文档。
图像和音乐也有一些扩展,请参见http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf。
LDA有几种语言的几种有效实现:
- 原始研究人员的许多实现
- http://mallet.cs.umass.edu/,用Java编写,并在SO上被其他人推荐
- PLDA:快速,并行的C ++实现
以上是 无监督自动标记算法? 的全部内容, 来源链接: utcz.com/qa/409449.html