Pandas - 分析数据框

查看数据

快速概览 DataFrame 最常用的方法之一是head()方法。

这个head()方法返回标题和指定数量的行（从顶部开始）。

示例

通过打印 DataFrame 的前 10 行来快速概览：

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

亲自试一试 »

在我们的示例中，我们将使用名为“data.csv”的 CSV 文件。

下载数据.csv，或打开数据.csv在您的浏览器中。

笔记：如果未指定行数，则head()方法将返回前 5 行。

示例

打印 DataFrame 的前 5 行：

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

亲自试一试 »

还有一个tail()查看方法最后的数据帧的行。

这个tail()方法返回标题和指定的行数（从底部开始）。

示例

打印 DataFrame 的最后 5 行：

print(df.tail())

亲自试一试 »

有关数据的信息

DataFrames 对象有一个名为info()，这为您提供了有关数据集的更多信息。

示例

打印有关数据的信息：

print(df.info())

结果


  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None

亲自试一试 »

结果解释

结果告诉我们有 169 行和 4 列：


  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

以及每列的名称和数据类型：


   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

空值

这个info()方法还告诉我们每列中有多少个非空值，在我们的数据集中，"Calories" 列中似乎有 169 个非空值中的 164 个。

这意味着无论出于何种原因，"Calories" 列中有 5 行根本没有值。

分析数据时，空值或 Null 值可能会很糟糕，您应该考虑删除具有空值的行。这是迈向所谓的一步清洗数据，您将在接下来的章节中了解更多相关内容。