了解Gensim LDA模型中的参数

Z时代
2024-01-10
分类：问答

我正在gensim.models.ldamodel.LdaModel执行LDA，但是我不了解某些参数，因此无法在文档中找到解释。如果有人有使用此功能的经验，我希望进一步了解这些参数所代表的含义。具体来说，我不明白：

random_state

update_every

chunksize

passes

alpha

per_word_topics

我正在处理500个文档的语料库，每个文档大约大约3-5页（由于机密性原因，我无法共享数据快照）。目前我已经设定

num_topics = 10

random_state = 100

update_every = 1

chunksize = 50

passes = 10

alpha = 'auto'

per_word_topics = True

但这完全基于我所看到的示例，我不确定这对我的数据有多普遍。

回答：

我想知道您是否看过此页面？

无论哪种方式，让我为您解释一些事情。该方法使用的文档数量很少（在经过Wikipedia大小的数据源训练后，效果会更好）。因此，结果将是相当粗糙的，您必须意识到这一点。这就是为什么您不应该针对大量主题的原因（您选择了10个，在您的情况下可能明智地增加到20个）。

至于其他参数：

random_state -这是一个种子（如果您想精确地重复训练过程）

chunksize -一次要考虑的文档数（影响内存消耗）

update_every-每update_everychunksize块更新模型（本质上，这是为了优化内存消耗）

passes -该算法应遍历整个语料库的次数

alpha -引用文档：

可以设置为显式数组=您选择的优先级。它还支持’asymmetric’和’auto’的特殊值：前者使用固定的归一化不对称1.0 /
topicno先验，后者直接从数据中学习不对称先验。

per_word_topics-将此设置为True可以提取给定单词的最有可能的主题。设置培训过程的方式是将每个单词分配给一个主题。否则，将省略没有指示性的词。phi_value是引导该过程的另一个参数-它是一个单词是否被视为具有指示性的阈值。

最佳训练过程参数在M.Hoffman等人的在线潜在狄利克雷分配中特别详细地描述。

有关训练过程或模型的内存优化，请参阅此博客文章。

以上是了解Gensim LDA模型中的参数的全部内容，来源链接： utcz.com/qa/422300.html

回到顶部