数据集群

集群

集群是基于相似性的数据集合。

图中聚集在一起的数据点通常可以分为几个簇。

在下图中，我们可以区分 3 个不同的簇：

簇可以保存很多有值的信息，但是簇有各种各样的形状，那么我们如何识别它们呢？

两种主要方法是：

聚类是一种无监督学习。

集群正在尝试：

这个密度法认为密集区域中的点比低密集区域中的点具有更多的相似性和差异。密度法具有良好的准确性。它还具有合并集群的能力。
两种常见的算法是 DBSCAN 和 OPTICS。

这个层次法以树型结构形成簇。新的簇是使用先前形成的簇形成的。
两种常见的算法是 CURE 和 BIRCH。

这个基于网格的方法将数据表示为有限数量的单元格，这些单元格形成网格状结构。
两种常见的算法是 CLIQUE 和 STING

这个分区方式将对象划分为 k 个簇，每个划分形成一个簇。
一种常见的算法是 CLARANS。

这个相关系数(r) 描述散点图上线性关系和 x/y 变量的强度和方向。

r 的值始终在 -1 和 +1 之间：

完美上坡 +1.00:

完美速降 -1.00:

强上坡+0.61:

没有关系: