一个数据挖掘问题

这是一个数据挖掘比赛,现在遇到些问题,想与各位探讨:题目这样的:
clipboard.png
根据 'uid', 'mid', 'time', 'content' 来预测 'forward_count','comment_count', 'like_count'三个指标
目前数据已经整理好,在特征工程处遇到了以下问题:
1、uid 是categoriy 类型需要one-hot 编码,但是种类有uid有一万多种,one-hot编码会有memoryError 错误
2、内容部分想进行分词处理,再用词袋进行特征提取,但还是量太大,特征太多
想问问各位高见

回答:

你可以把uid进行hash,这样降维效果会非常明显。
如果你不知道hash trick是什么的话,可以看看这个hashing trick或者feature hashing是什么

回答:

uid只是主键,起到连接两张表的作用,并不需要独热处理进入模型训练。
小弟认为你只需要集中精力对content的东西进行处理,这涉及nlp的一些操作,网路上蛮多trick的,建议往这方面去检索信息。
以上,谢谢

以上是 一个数据挖掘问题 的全部内容, 来源链接: utcz.com/a/159328.html

回到顶部