数据科学 - 统计相关矩阵


相关矩阵

矩阵是按行和列排列的数字数组。

相关矩阵只是显示变量之间相关系数的表格。

在这里,变量表示在第一行和第一列中:

Correlation Matrix

上表使用了完整健康数据集中的数据。

观察结果:

  • 我们观察到 Duration 和 Calorie_Burnage 密切相关,相关系数为 0.89。这是有道理的,因为我们训练的时间越长,燃烧的卡路里就越多
  • 我们观察到 Average_Pulse 和 Calorie_Burnage 之间几乎不存在线性关系(相关系数为 0.02)
  • 我们是否可以得出结论,Average_Pulse 不会影响 Calorie_Burnage?不,我们稍后再回来回答这个问题!

Python 中的相关矩阵

我们可以使用corr()Python 中的函数用于创建相关矩阵。我们还使用round()将输出四舍五入到两位小数的函数:

示例

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)
亲自试一试 »

输出:

Correlation Matrix

使用热图

我们可以使用热图来可视化变量之间的相关性:

Correlation Heatmap

相关系数越接近 1,方块越绿。

相关系数越接近 -1,方块就越棕色。


使用 Seaborn 创建热图

我们可以使用Seaborn库来创建相关热图(Seaborn是一个基于matplotlib的可视化库):

示例

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()
亲自试一试 »

示例解释:

  • 将库seaborn导入为sns。
  • 使用 full_health_data 集。
  • 使用 sns.heatmap() 告诉 Python 我们需要一个热图来可视化相关矩阵。
  • 使用相关矩阵。定义热图的最大值和最小值。定义0为中心。
  • 使用 sns.diverging_palette 定义颜色。 n=500 意味着我们需要在同一个调色板中包含 500 种颜色。
  • square = True 意味着我们想要看到正方形。