目录

机器学习

机器学习使计算机通过研究数据和统计数据来学习。

机器学习是迈向人工智能(AI)方向的一步。

机器学习是一种分析数据并学习预测结果的程序。

从哪儿开始?

在本教程中,我们将回到数学并研究统计学,以及如何根据数据集计算重要的数字。

我们还将学习如何使用各种 Python 模块来获得我们需要的答案。

我们将学习如何创建能够根据我们所学知识预测结果的函数。


数据集

在计算机的头脑中,数据集是任何数据的集合。它可以是从数组到完整数据库的任何内容。

数组示例:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

数据库示例:

肉名 颜色 年龄 速度 自动通行证
宝马 红色的 5 99
沃尔沃 黑色的 7 86
大众汽车 灰色的 8 87
大众汽车 白色的 7 88
福特 白色的 2 111
大众汽车 白色的 17 86
特斯拉 红色的 2 103
宝马 黑色的 9 87
沃尔沃 灰色的 4 94
福特 白色的 11 78
丰田 灰色的 12 77
大众汽车 白色的 9 85
丰田 蓝色的 6 86

通过查看数组,我们可以猜测平均值大概在 80 或 90 左右,并且我们也能够确定最高值和最低值,但是我们还能做什么呢?

通过查看数据库,我们可以看到最受欢迎的颜色是白色,最旧的汽车有 17 年,但是如果我们只需查看其他值就可以预测汽车是否具有 AutoPass,结果会怎样呢?

这就是机器学习的目的!分析数据并预测结果!

在机器学习中,处理非常大的数据集是很常见的。在本教程中,我们将尽力使人们尽可能容易地理解机器学习的不同概念,并且我们将使用易于理解的小型数据集。



数据类型

要分析数据,重要的是要知道我们正在处理什么类型的数据。

我们可以将数据类型分为三大类:

  • 数值
  • 分类的
  • 序数

数值数据是数字,可以分为两个数字类别:

  • 离散数据
    - 仅限于整数的数字。示例:经过的汽车数量。
  • 连续数据
    - 具有无限值的数字。示例:商品的价格或商品的尺寸

分类的数据是无法相互衡量的值。示例:颜色值或任何是/否值。

序数数据类似于分类数据,但可以相互衡量。例如:A 优于 B 的学校成绩等等。

通过了解数据源的数据类型,您将能够知道在分析它们时使用什么技术。

您将在接下来的章节中了解有关统计和数据分析的更多信息。