Pandas 模块的一个重要方面是corr()
方法。
这个corr()
方法计算数据集中每列之间的关系。
本页中的示例使用名为“data.csv”的 CSV 文件。
显示列之间的关系:
df.corr()
亲自试一试 »
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
笔记:这个corr()
方法忽略"not numeric" 列。
结果corr()
method 是一个包含大量数字的表,表示两列之间的关系有多好。
数字从 -1 到 1 变化。
1 表示存在 1 对 1 的关系(完美相关),对于该数据集,每当第一列中的一个值上升时,另一个值也会上升。
0.9也是一个很好的关系,如果你增加一个值,另一个值可能也会增加。
-0.9 与 0.9 的关系一样好,但如果增加一个值,另一个值可能会下降。
0.2 表示关系不好,这意味着如果一个值上升并不意味着另一个值也会上升。
什么是好的相关性?这取决于用途,但我认为可以肯定地说你至少必须有0.6
(或者-0.6
)称之为良好的相关性。
我们可以看到"Duration"和"Duration"得到了号码1.000000
,这是有道理的,每一列总是与自身有着完美的关系。
"Duration" 和 "Calories" 获得了0.922721
相关性,这是一个非常好的相关性,我们可以预测,你锻炼的时间越长,燃烧的卡路里就越多,反之亦然:如果你燃烧了很多卡路里,那么你可能锻炼了很长时间。
"Duration" 和 "Maxpulse" 获得了0.009403
相关性,这是一个非常糟糕的相关性,这意味着我们不能仅通过查看锻炼的持续时间来预测最大脉冲,反之亦然。
截取页面反馈部分,让我们更快修复内容!也可以直接跳过填写反馈内容!