数据集群

  • 集群是相似数据的集合
  • 聚类是一种无监督学习
  • 这个相关系数描述了关系的强度。

集群

集群是基于相似性的数据集合。

图中聚集在一起的数据点通常可以分为几个簇。

在下图中,我们可以区分 3 个不同的簇:


识别集群

簇可以保存很多有值的信息,但是簇有各种各样的形状,那么我们如何识别它们呢?

两种主要方法是:

  • 使用可视化
  • 使用聚类算法

聚类

聚类是一种无监督学习

集群正在尝试:

  • 分组收集相似数据
  • 收集其他组中的不同数据

聚类方法

  • 密度法
  • 层次法
  • 分区方式
  • 基于网格的方法

这个密度法认为密集区域中的点比低密集区域中的点具有更多的相似性和差异。密度法具有良好的准确性。它还具有合并集群的能力。
两种常见的算法是 DBSCAN 和 OPTICS。

这个层次法以树型结构形成簇。新的簇是使用先前形成的簇形成的。
两种常见的算法是 CURE 和 BIRCH。

这个基于网格的方法将数据表示为有限数量的单元格,这些单元格形成网格状结构。
两种常见的算法是 CLIQUE 和 STING

这个分区方式将对象划分为 k 个簇,每个划分形成一个簇。
一种常见的算法是 CLARANS。



相关系数

这个相关系数(r) 描述散点图上线性关系和 x/y 变量的强度和方向。

r 的值始终在 -1 和 +1 之间:

-1.00 完美下坡 负线性关系。
-0.70 下坡强劲 负线性关系。
-0.50 中度下坡 负线性关系。
-0.30 下坡无力 负线性关系。
0 不存在线性关系。
+0.30 上坡无力 正线性关系。
+0.50 中等上坡 正线性关系。
+0.70 上坡强劲 正线性关系。
+1.00 完美上坡 正线性关系。

完美上坡 +1.00:

完美速降 -1.00:

'

强上坡+0.61:

没有关系: