数据科学 - 数据库表


数据库表

数据库表是包含结构化数据的表。

下表显示了从运动手表中提取的健康数据的数据库表:

期间 平均脉冲 最大脉冲 卡路里_燃烧 工作时间 睡眠时间
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

该数据集包含典型训练课程的信息,例如持续时间、平均脉搏、卡路里消耗等。


数据库表结构

数据库表由列和行组成:

第 1 栏 第2栏 第3栏 第 4 栏 第5栏 第6栏
期间 平均脉冲 最大脉冲 卡路里_燃烧 工作时间 睡眠时间
第 1 行 30 80 120 240 10 7
第 2 行 30 85 120 250 10 7
第3行 45 90 130 260 8 7
第 4 排 45 95 130 270 8 7
第 5 排 45 100 140 280 0 7
第 6 排 60 105 140 290 7 8
第 7 排 60 110 145 300 7 8
第 8 排 60 115 145 310 8 8
第 9 排 75 120 150 320 0 8
第10行 75 125 150 330 8 8

行是数据的水平表示。

列是数据的垂直表示。



变量

变量被定义为可以测量或计算的东西。

示例可以是字符、数字或时间。

在下面的示例中,我们可以观察到每一列代表一个变量。

期间 平均脉冲 最大脉冲 卡路里_燃烧 工作时间 睡眠时间
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

有 6 列,意味着有 6 个变量(Duration、Average_Pulse、Max_Pulse、Calorie_Burnage、Hours_Work、Hours_Sleep)。

有 11 行,这意味着每个变量有 10 个观测值。

但如果有 11 行,为什么只有 10 个观测值?

这是因为第一行是标签,意味着它是姓名变量的。