数据科学 简介
数据科学是多个学科的结合,它使用统计学、数据分析和机器学习来分析数据并从中提取知识和见解。
什么是数据科学?
数据科学涉及数据收集、分析和决策。
数据科学是通过分析发现数据模式并做出未来预测。
通过使用数据科学,公司能够:
- 更好的决策(我们应该选择 A 还是 B)
- 预测分析(接下来会发生什么?)
- 模式发现(查找模式,或者可能是数据中隐藏的信息)
哪里需要数据科学?
数据科学应用于当今世界的许多行业,例如银行、咨询、医疗保健和制造。
需要数据科学的示例:
- 对于路线规划:发现最佳的运输路线
- 预见航班/轮船/火车等的延误(通过预测分析)
- 创建促销优惠
- 寻找最合适的交货时间
- 预测公司未来一年的收入
- 分析训练的健康益处
- 预测谁将赢得选举
数据科学几乎可以应用于企业中任何有数据可用的部分。例子有:
数据科学家如何工作?
数据科学家需要多个背景的专业知识:
- 机器学习
- 统计数据
- 编程(Python 或 R)
- 数学
- 数据库
数据科学家必须找到数据中的模式。在他/她找到模式之前,他/她必须以标准格式组织数据。
以下是数据科学家的工作方式:
- 提出正确的问题- 了解业务问题。
- 探索和收集数据- 来自数据库、网络日志、客户反馈等。
- 提取数据- 将数据转换为标准化格式。
- 清理数据- 从数据中删除错误值。
- 查找并替换缺失值- 检查缺失值并用合适的值(例如平均值)替换它们。
- 标准化数据- 在实际范围内缩放值(例如,140 cm 小于 1,8 m。但是,数字 140 大于 1,8。 - 因此缩放很重要)。
- 分析数据、发现模式并做出未来预测.
- 代表结果- 以 "company" 能够理解的方式呈现结果,并提供有用的见解。
从哪儿开始?
在本教程中,我们将首先介绍什么是数据以及如何分析数据。
您将学习如何使用统计和数学函数进行预测。