多重回归就像线性回归,但具有多个独立值,这意味着我们尝试根据两个或更多变量。
看一下下面的数据集,它包含了一些关于汽车的信息。
车 | 模型 | 体积 | 重量 | 二氧化碳 |
丰田 | 艾戈 | 1000 | 790 | 99 |
三菱 | 太空之星 | 1200 | 1160 | 95 |
斯柯达 | 西蒂戈 | 1000 | 929 | 95 |
菲亚特 | 500 | 900 | 865 | 90 |
小型的 | 库珀 | 1500 | 1140 | 105 |
大众汽车 | 向上! | 1000 | 929 | 105 |
斯柯达 | 法比亚 | 1400 | 1109 | 90 |
奔驰 | 一类 | 1500 | 1365 | 92 |
福特 | 嘉年华 | 1500 | 1112 | 98 |
奥迪 | A1 | 1600 | 1150 | 99 |
现代 | I20 | 1100 | 980 | 99 |
铃木 | 迅速 | 1300 | 990 | 101 |
福特 | 嘉年华 | 1000 | 1112 | 99 |
本田 | 思域 | 1600 | 1252 | 94 |
现代 | I30 | 1600 | 1326 | 97 |
欧宝 | 阿斯特拉 | 1600 | 1330 | 97 |
宝马 | 1 | 1600 | 1365 | 99 |
马自达 | 3 | 2200 | 1280 | 104 |
斯柯达 | 迅速的 | 1600 | 1119 | 104 |
福特 | 重点 | 2000 | 1328 | 105 |
福特 | 蒙迪欧 | 1600 | 1584 | 94 |
欧宝 | 徽章 | 2000 | 1428 | 99 |
奔驰 | C级 | 2100 | 1365 | 99 |
斯柯达 | 奥克塔维亚 | 1600 | 1415 | 99 |
沃尔沃 | S60 | 2000 | 1415 | 99 |
奔驰 | 共轭亚油酸 | 1500 | 1465 | 102 |
奥迪 | A4 | 2000 | 1490 | 104 |
奥迪 | A6 | 2000 | 1725 | 114 |
沃尔沃 | V70 | 1600 | 1523 | 109 |
宝马 | 5 | 2000 | 1705 | 114 |
奔驰 | E级 | 2100 | 1605 | 115 |
沃尔沃 | XC70 | 2000 | 1746 | 117 |
福特 | 最大B值 | 1600 | 1235 | 104 |
宝马 | 2 | 1600 | 1390 | 108 |
欧宝 | 扎菲拉 | 1600 | 1405 | 109 |
奔驰 | SLK | 2500 | 1395 | 120 |
我们可以根据发动机的大小来预测汽车的二氧化碳排放量,但通过多重回归,我们可以引入更多变量,例如汽车的重量,以使预测更加准确。
在 Python 中,我们有可以为我们完成工作的模块。首先导入 Pandas 模块。
import pandas
了解有关 Pandas 模块的信息Pandas教程。
Pandas 模块允许我们读取 csv 文件并返回 DataFrame 对象。
该文件仅用于测试目的,您可以在此处下载:数据.csv
df = pandas.read_csv("data.csv")
然后列出独立值并调用该变量X
。
将依赖值放入名为的变量中y
。
X = df[['Weight', 'Volume']]
y = df['CO2']
提示:通常用大写的 X 命名独立值的列表,用小写的 y 命名依赖值的列表。
我们将使用 sklearn 模块中的一些方法,因此我们还必须导入该模块:
from sklearn import linear_model
在 sklearn 模块中,我们将使用LinearRegression()
方法创建线性回归对象。
这个对象有一个方法叫做fit()
将独立值和相关值作为参数,并用描述关系的数据填充回归对象:
regr = linear_model.LinearRegression()
regr.fit(X, y)
现在我们有了一个回归对象,可以根据汽车的重量和体积来预测二氧化碳值:
#predict the CO2 emission of a car where the weight is 2300kg, and the volume is 1300cm3:
predictedCO2 = regr.predict([[2300, 1300]])
查看整个示例的实际效果:
import pandas
from sklearn import linear_model
df = pandas.read_csv("data.csv")
X = df[['Weight', 'Volume']]
y = df['CO2']
regr = linear_model.LinearRegression()
regr.fit(X, y)
#predict the CO2 emission of a car where the weight is 2300kg, and the volume is 1300cm
3:
predictedCO2 = regr.predict([[2300, 1300]])
print(predictedCO2)
[107.2087328]
我们预测,一辆配备 1.3 升发动机、重量为 2300 公斤的汽车,每行驶一公里将释放约 107 克二氧化碳。
系数是描述与未知变量之间关系的因子。
示例:如果x
是一个变量,那么2x
是x
两次。x
是未知变量,数字2
是系数。
在这种情况下,我们可以要求重量相对于二氧化碳的系数值,以及体积相对于二氧化碳的系数值。我们得到的答案告诉我们如果增加或减少其中一个独立值会发生什么。
打印回归对象的系数值:
import pandas
from sklearn import linear_model
df = pandas.read_csv("data.csv")
X = df[['Weight', 'Volume']]
y = df['CO2']
regr = linear_model.LinearRegression()
regr.fit(X, y)
print(regr.coef_)
[0.00755095 0.00780526]
结果数组表示重量和体积的系数值。
重量:0.00755095
体积:0.00780526
这些值告诉我们,如果重量增加 1 千克,二氧化碳排放量就会增加 0.00755095 克。
而如果发动机尺寸(体积)增加1厘米3,CO2排放量增加0.00780526克。
我认为这是一个合理的猜测,但让我们测试一下!
我们已经预测过如果一辆1300cm的车3发动机重2300kg,二氧化碳排放量约为107g。
如果我们增加1000公斤的重量会怎么样?
复制之前的示例,但将权重从 2300 更改为 3300:
import pandas
from sklearn import linear_model
df = pandas.read_csv("data.csv")
X = df[['Weight', 'Volume']]
y = df['CO2']
regr = linear_model.LinearRegression()
regr.fit(X, y)
predictedCO2 = regr.predict([[3300, 1300]])
print(predictedCO2)
[114.75968007]
我们预测,一辆配备 1.3 升发动机、重量为 3300 公斤的汽车,每行驶一公里将释放约 115 克二氧化碳。
这表明系数 0.00755095 是正确的:
107.2087328 + (1000 * 0.00755095) = 114.75968
截取页面反馈部分,让我们更快修复内容!也可以直接跳过填写反馈内容!