数据科学 简介


数据科学是多个学科的结合,它使用统计学、数据分析和机器学习来分析数据并从中提取知识和见解。


什么是数据科学?

数据科学涉及数据收集、分析和决策。

数据科学是通过分析发现数据模式并做出未来预测。

通过使用数据科学,公司能够:

  • 更好的决策(我们应该选择 A 还是 B)
  • 预测分析(接下来会发生什么?)
  • 模式发现(查找模式,或者可能是数据中隐藏的信息)

哪里需要数据科学?

数据科学应用于当今世界的许多行业,例如银行、咨询、医疗保健和制造。

需要数据科学的示例:

  • 对于路线规划:发现最佳的运输路线
  • 预见航班/轮船/火车等的延误(通过预测分析)
  • 创建促销优惠
  • 寻找最合适的交货时间
  • 预测公司未来一年的收入
  • 分析训练的健康益处
  • 预测谁将赢得选举

数据科学几乎可以应用于企业中任何有数据可用的部分。例子有:

  • 消费品
  • 股市
  • 行业
  • 政治
  • 物流公司
  • 电子商务


数据科学家如何工作?

数据科学家需要多个背景的专业知识:

  • 机器学习
  • 统计数据
  • 编程(Python 或 R)
  • 数学
  • 数据库

数据科学家必须找到数据中的模式。在他/她找到模式之前,他/她必须以标准格式组织数据。

以下是数据科学家的工作方式:

  1. 提出正确的问题- 了解业务问题。
  2. 探索和收集数据- 来自数据库、网络日志、客户反馈等。
  3. 提取数据- 将数据转换为标准化格式。
  4. 清理数据- 从数据中删除错误值。
  5. 查找并替换缺失值- 检查缺失值并用合适的值(例如平均值)替换它们。
  6. 标准化数据- 在实际范围内缩放值(例如,140 cm 小于 1,8 m。但是,数字 140 大于 1,8。 - 因此缩放很重要)。
  7. 分析数据、发现模式并做出未来预测.
  8. 代表结果- 以 "company" 能够理解的方式呈现结果,并提供有用的见解。

从哪儿开始?

在本教程中,我们将首先介绍什么是数据以及如何分析数据。

您将学习如何使用统计和数学函数进行预测。