在Sklearn中为RandomForest分散连续变量

我想使用随机森林进行基于吉尼指数的特征选择。我的数据集混合了数字（连续）和分类（字符串）数据。这是该数据集的例子在Sklearn中为RandomForest分散连续变量

VAR1 VAR2
198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db

我知道树木适用于离散数据（分类），但确实随机森林在Sklearn需要持续的数值数据先离散化还是可以处理？对于分类字符串变量我用下面的与零和一

pandas.get_dummies(X['Var2'])

编码字符串到数字列和它的作品，但对于数字我尝试以下，以离散

pandas.qcut(X['Var1'], 2 , retbins=True)

，但我不断收到非唯一箱的错误！

我需要离散吗？我该怎么做？

随机森林应该支持连续变量没问题。例如参见this sample。

树木和森林工作更糟，当你从你的分类值做假人。

你只需要标记你的分类特征 - 就这些！