了解Gensim LDA模型中的参数
我正在gensim.models.ldamodel.LdaModel
执行LDA,但是我不了解某些参数,因此无法在文档中找到解释。如果有人有使用此功能的经验,我希望进一步了解这些参数所代表的含义。具体来说,我不明白:
random_state
update_every
chunksize
passes
alpha
per_word_topics
我正在处理500个文档的语料库,每个文档大约大约3-5页(由于机密性原因,我无法共享数据快照)。目前我已经设定
num_topics = 10
random_state = 100
update_every = 1
chunksize = 50
passes = 10
alpha = 'auto'
per_word_topics = True
但这完全基于我所看到的示例,我不确定这对我的数据有多普遍。
回答:
我想知道您是否看过此页面?
无论哪种方式,让我为您解释一些事情。该方法使用的文档数量很少(在经过Wikipedia大小的数据源训练后,效果会更好)。因此,结果将是相当粗糙的,您必须意识到这一点。这就是为什么您不应该针对大量主题的原因(您选择了10个,在您的情况下可能明智地增加到20个)。
至于其他参数:
random_state
-这是一个种子(如果您想精确地重复训练过程)chunksize
-一次要考虑的文档数(影响内存消耗)update_every
-每update_every
chunksize
块更新模型(本质上,这是为了优化内存消耗)passes
-该算法应遍历整个语料库的次数alpha
-引用文档:
可以设置为显式数组=您选择的优先级。它还支持’asymmetric’和’auto’的特殊值:前者使用固定的归一化不对称1.0 /
topicno先验,后者直接从数据中学习不对称先验。
per_word_topics
-将此设置为True
可以提取给定单词的最有可能的主题。设置培训过程的方式是将每个单词分配给一个主题。否则,将省略没有指示性的词。phi_value
是引导该过程的另一个参数-它是一个单词是否被视为具有指示性的阈值。
最佳训练过程参数在M.Hoffman等人的在线潜在狄利克雷分配中特别详细地描述。
有关训练过程或模型的内存优化,请参阅此博客文章。
以上是 了解Gensim LDA模型中的参数 的全部内容, 来源链接: utcz.com/qa/422300.html