我们缺少一个影响 Calorie_Burnage 的重要变量,即训练的持续时间。
持续时间与 Average_Pulse 结合将更准确地解释 Calorie_Burnage。
当您尝试查找变量之间的关系时,会使用术语回归。
在机器学习和统计建模中,这种关系用于预测事件的结果。
在本模块中,我们将讨论以下问题:
线性回归使用最小二乘法。
这个概念是通过所有绘制的数据点画一条线。该线的定位方式应尽量缩短与所有数据点的距离。
该距离称为"residuals" 或"errors"。
红色虚线表示从数据点到绘制的数学函数的距离。
在此示例中,我们将尝试使用线性回归通过 Average_Pulse 来预测 Calorie_Burnage:
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Average_Pulse"]
y = full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err = stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
plt.scatter(x, y)
plt.plot(x, slope * x + intercept)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Average_Pulse")
plt.ylabel ("Calorie_Burnage")
plt.show()
亲自试一试 »
您认为这条线能够准确预测 Calorie_Burnage 吗?
我们将证明,仅变量 Average_Pulse 不足以对 Calorie_Burnage 进行精确预测。
截取页面反馈部分,让我们更快修复内容!也可以直接跳过填写反馈内容!