机器学习数据

取决于80%机器学习项目的内容是收集数据:

  • 什么数据必需的
  • 什么数据可用的
  • 如何选择数据?
  • 如何收集数据?
  • 如何干净的数据?
  • 如何准备数据?
  • 如何使用数据?

什么是数据?

数据可以是很多东西。

通过机器学习,数据是事实的集合:

类型 示例
数字 价格。日期。
测量 尺寸。高度。重量。
名称和地点。
观察结果 数汽车。
描述 很冷。

情报需要数据

人类智能需要数据:

房地产经纪人需要有关已售房屋的数据来估算价格。

人工智能也需要数据:

机器学习程序需要数据来估算价格。

数据可以帮助我们看到和理解。

数据可以帮助我们发现新的机会。

数据可以帮助我们消除误解。


卫生保健

医疗保健和生命科学收集公共卫生数据和患者数据,以了解如何改善患者护理和拯救生命。

商业

许多领域最成功的公司都是数据驱动的。他们使用复杂的数据分析来了解公司如何才能表现得更好。

金融

银行和保险公司收集和评估有关客户、贷款和存款的数据,以支持战略决策。


存储数据

最常见的收集数据是数字和测量值。

通常数据存储在表示值之间关系的数组中。

该表包含房价与面积的关系:

价格 7 8 8 9 9 9 10 11 14 14 15
尺寸 50 60 70 80 90 100 110 120 130 140 150

定量与定性

定量数据是数字:

  • 55辆
  • 15米
  • 35 名儿童

定性数据具有描述性:

  • 很冷
  • 很长
  • 好玩


普查或抽样

人口普查是我们为一个群体的每个成员收集数据的时候。

样本是指我们收集某个群体的某些成员的数据。

如果我们想知道有多少美国人吸烟,我们可以询问美国的每个人(人口普查),或者我们可以询问 10 000 人(样本)。

人口普查是准确的,但很难做到。一个样本是不准确,但更容易做到。


抽样条款

人口是我们想要从中收集信息的一组个体(对象)。

人口普查是关于人口中每个人的信息。

样本是关于一部分人口的信息(为了代表所有人)。


随机样本

为了使样本能够代表总体,必须随机收集样本。

随机抽样,是一个样本,其中总体中的每个成员都有相等机会出现在样本中。


抽样偏差

抽样偏差当样本收集方式使得某些个体不太(或更大)可能被包含在样本中时,就会发生(错误)。


大数据

大数据是人类在没有先进机器的帮助下无法处理的数据。

大数据在大小方面没有任何定义,但随着我们不断收集越来越多的数据并以越来越低的成本存储数据,数据集变得越来越大。


数据挖掘

大数据带来了复杂的数据结构。

大数据处理的很大一部分是提炼数据。