何时称为不平衡数据集?

我有一个数据集(基于百万歌曲数据集),我需要做体裁分类。以下是数据集中各类流派的分布情况。何时称为不平衡数据集?

Genre Count %age 

1. Rock 115104 39.94364359

2. Pop 47534 16.49535337

3. Electronic 24313 8.437150809

4. Jazz 16465 5.713720564

5. Rap 15347 5.325749741

6. RnB 13769 4.778148706

7. Country 13509 4.687922933

8. Reggae 8739 3.032627027

9. Blues 7075 2.455182083

10. Latin 7042 2.44373035

11. Metal 6257 2.171317921

12. World 4624 1.604630664

13. Folk 3661 1.270448283

14. Punk 3479 1.207290242

15. New Age 1248 0.433083709

您会称此数据不平衡吗?我尝试过阅读,但发现人们描述的数据集不平衡,其中一个类是99%的数据集,这是一个二元分类问题。不确定上述集合是否属于这一类别。请帮忙。我无法获得分类权,作为新手无法确定是数据还是我的天真。这是我有和需要验证的假设之一。

回答:

一般来说,对不平衡数据集没有严格的定义,但一般来说,如果最小的类比最大的类小10倍,那么称它不平衡是一个好主意。

就你而言,最小的类实际上比最大的类小100倍,所以你甚至可以将它映射到你对“99-1”二元分类的考虑。如果您只是要求区分新时代和摇滚,那么最终会出现99-1的不平衡状态,因此您可能会遇到典型的不平衡分类问题 - 会出现在您的项目中。

以上是 何时称为不平衡数据集? 的全部内容, 来源链接: utcz.com/qa/264968.html

回到顶部