在Sklearn中为RandomForest分散连续变量

我想使用随机森林进行基于吉尼指数的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是该数据集的例子在Sklearn中为RandomForest分散连续变量

VAR1 VAR2
198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db

我知道树木适用于离散数据(分类),但确实随机森林在Sklearn需要持续的数值数据先离散化还是可以处理?对于分类字符串变量我用下面的与零和一

pandas.get_dummies(X['Var2']) 

编码字符串到数字列和它的作品,但对于数字我尝试以下,以离散

pandas.qcut(X['Var1'], 2 , retbins=True) 

,但我不断收到非唯一箱的错误!

我需要离散吗?我该怎么做?

回答:

随机森林应该支持连续变量没问题。例如参见this sample。

回答:

树木和森林工作更糟,当你从你的分类值做假人。

你只需要标记你的分类特征 - 就这些!

以上是 在Sklearn中为RandomForest分散连续变量 的全部内容, 来源链接: utcz.com/qa/257492.html

回到顶部