相关性衡量两个变量之间的数值关系。
高相关系数(接近 1)并不意味着我们可以肯定地得出两个变量之间的实际关系。
一个经典的例子:
这是否意味着冰淇淋销量的增加是溺水事故增加的直接原因?
在这里,我们构建了一个虚构的数据集供您尝试:
import pandas as pd
import matplotlib.pyplot as plt
Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)
Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()
correlation_beach = Drowning.corr()
print(correlation_beach)
亲自试一试 »
输出:
换句话说:我们可以用冰淇淋销售来预测溺水事故吗?
答案是——可能不会。
这两个变量很可能意外地相互关联。
那么溺水的原因是什么?
让我们反过来论证:
相关系数低(接近于零)是否意味着 x 的变化不会影响 y?
回到问题:
答案是不。
相关性和因果性之间有一个重要的区别:
提示:在进行预测时始终批判性地反思因果关系的概念!
截取页面反馈部分,让我们更快修复内容!也可以直接跳过填写反馈内容!