KMeans聚类超过500万个向量
我遇到了一个真正的问题。我需要对500万个向量进行一些Kmeans聚类,每个向量包含约32个cols。我试用了需要Linux的Mahout,并且我在Windows上,无法使用Linux
OS和任何类型的模拟器。
谁能提出KMeans聚类算法,该算法可扩展到5M向量,并且可以快速收敛?
我测试了一些,但它们无法扩展。这意味着它们很慢并且要花很长时间才能完成。
谢谢
回答:
好的,所以想要对大型数据集进行聚类的人,唯一的方法是使用Mahout。IT需要Linux平台。所以我不得不使用虚拟盒子,在上面放置Ubuntu,然后再使用Mahout。设置Mahout的过程很漫长,但是我使用的两个链接如下。
http://www.michael-
noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(单节点群集)
http://www.michael-
noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(多节点集群)
以上是 KMeans聚类超过500万个向量 的全部内容, 来源链接: utcz.com/qa/405370.html