了解Gensim LDA模型中的参数

我正在gensim.models.ldamodel.LdaModel执行LDA,但是我不了解某些参数,因此无法在文档中找到解释。如果有人有使用此功能的经验,我希望进一步了解这些参数所代表的含义。具体来说,我不明白:

  • random_state
  • update_every
  • chunksize
  • passes
  • alpha
  • per_word_topics

我正在处理500个文档的语料库,每个文档大约大约3-5页(由于机密性原因,我无法共享数据快照)。目前我已经设定

  • num_topics = 10
  • random_state = 100
  • update_every = 1
  • chunksize = 50
  • passes = 10
  • alpha = 'auto'
  • per_word_topics = True

但这完全基于我所看到的示例,我不确定这对我的数据有多普遍。

回答:

我想知道您是否看过此页面?

无论哪种方式,让我为您解释一些事情。该方法使用的文档数量很少(在经过Wikipedia大小的数据源训练后,效果会更好)。因此,结果将是相当粗糙的,您必须意识到这一点。这就是为什么您不应该针对大量主题的原因(您选择了10个,在您的情况下可能明智地增加到20个)。

至于其他参数:

  • random_state -这是一个种子(如果您想精确地重复训练过程)

  • chunksize -一次要考虑的文档数(影响内存消耗)

  • update_every-每update_everychunksize块更新模型(本质上,这是为了优化内存消耗)

  • passes -该算法应遍历整个语料库的次数

  • alpha -引用文档:

可以设置为显式数组=您选择的优先级。它还支持’asymmetric’和’auto’的特殊值:前者使用固定的归一化不对称1.0 /

topicno先验,后者直接从数据中学习不对称先验。

  • per_word_topics-将此设置为True可以提取给定单词的最有可能的主题。设置培训过程的方式是将每个单词分配给一个主题。否则,将省略没有指示性的词。phi_value是引导该过程的另一个参数-它是一个单词是否被视为具有指示性的阈值。

最佳训练过程参数在M.Hoffman等人的在线潜在狄利克雷分配中特别详细地描述。

有关训练过程或模型的内存优化,请参阅此博客文章。

以上是 了解Gensim LDA模型中的参数 的全部内容, 来源链接: utcz.com/qa/422300.html

回到顶部