目录

机器学习 - 标准差


什么是标准差?

标准差是一个描述值分布程度的数字。

低标准差意味着大多数数字接近平均值。

高标准差意味着值分布在更宽的范围内。

例子:这次我们登记了7辆车的速度:

speed = [86,87,88,86,87,85,86]

标准差为:

0.9

这意味着大多数值都在平均值 86.4 0.9 的范围内。

让我们对范围更广的数字进行同样的选择:

speed = [32,111,138,28,59,77,97]

标准差为:

37.85

这意味着大多数值都在平均值 77.4 的 37.85 范围内。

正如您所看到的,较高的标准差表明这些值分布在较宽的范围内。

NumPy模块有一个计算标准差的方法:

示例

使用 NumPystd()求标准差的方法:

import numpy

speed = [86,87,88,86,87,85,86]

x = numpy.std(speed)

print(x)
亲自试一试 »

示例

import numpy

speed = [32,111,138,28,59,77,97]

x = numpy.std(speed)

print(x)
亲自试一试 »

学习像数据分析师一样在 Python 中过滤数据

在专家的逐步指导下尝试实践培训课程。立即尝试与 Coursera 合作制作的指导项目!

开始使用

方差

方差是另一个数字,表示值的分布程度。

事实上,如果你取方差的平方根,你就得到了标准差!

或者反过来,如果你将标准差乘以它本身,你就得到了方差!

要计算方差,您必须执行以下操作:

1. 求均值:

(32+111+138+28+59+77+97) / 7 = 77.4

2. 对于每个值:求与平均值的差:

 32 - 77.4 = -45.4
111 - 77.4 =  33.6
138 - 77.4 =  60.6
 28 - 77.4 = -49.4
 59 - 77.4 = -18.4
 77 - 77.4 = - 0.4
 97 - 77.4 =  19.6

3. 对于每个差值:求平方值:

(-45.4)2 = 2061.16
 (33.6)2 = 1128.96
 (60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 =  338.56
(- 0.4)2 =    0.16
 (19.6)2 =  384.16

4. 方差是这些平方差的平均数:

(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2

幸运的是,NumPy 有一种计算方差的方法:

示例

使用 NumPyvar()求方差的方法:

import numpy

speed = [32,111,138,28,59,77,97]

x = numpy.var(speed)

print(x)
亲自试一试 »

标准差

正如我们所知,计算标准差的公式是方差的平方根:

1432.25 = 37.85

或者,如之前的示例所示,使用 NumPy 计算标准差:

示例

使用 NumPystd()求标准差的方法:

import numpy

speed = [32,111,138,28,59,77,97]

x = numpy.std(speed)

print(x)
亲自试一试 »

符号

标准差通常用符号 Sigma 表示:σ

方差通常用符号 Sigma Squared 表示:σ2


章节总结

标准差和方差是机器学习中经常使用的术语,因此了解如何获取它们以及它们背后的概念非常重要。