在Sklearn中为RandomForest分散连续变量
我想使用随机森林进行基于吉尼指数的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是该数据集的例子在Sklearn中为RandomForest分散连续变量
VAR1 VAR2
198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db
我知道树木适用于离散数据(分类),但确实随机森林在Sklearn需要持续的数值数据先离散化还是可以处理?对于分类字符串变量我用下面的与零和一
pandas.get_dummies(X['Var2'])
编码字符串到数字列和它的作品,但对于数字我尝试以下,以离散
pandas.qcut(X['Var1'], 2 , retbins=True)
,但我不断收到非唯一箱的错误!
我需要离散吗?我该怎么做?
回答:
随机森林应该支持连续变量没问题。例如参见this sample。
回答:
树木和森林工作更糟,当你从你的分类值做假人。
你只需要标记你的分类特征 - 就这些!
以上是 在Sklearn中为RandomForest分散连续变量 的全部内容, 来源链接: utcz.com/qa/257492.html