Pandas - 分析数据框


查看数据

快速概览 DataFrame 最常用的方法之一是head()方法。

这个head()方法返回标题和指定数量的行(从顶部开始)。

示例

通过打印 DataFrame 的前 10 行来快速概览:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))
亲自试一试 »

在我们的示例中,我们将使用名为“data.csv”的 CSV 文件。

下载数据.csv,或打开数据.csv在您的浏览器中。

笔记:如果未指定行数,则head()方法将返回前 5 行。

示例

打印 DataFrame 的前 5 行:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())
亲自试一试 »

还有一个tail()查看方法最后的数据帧的行。

这个tail()方法返回标题和指定的行数(从底部开始)。

示例

打印 DataFrame 的最后 5 行:

print(df.tail()) 
亲自试一试 »


有关数据的信息

DataFrames 对象有一个名为info(),这为您提供了有关数据集的更多信息。

示例

打印有关数据的信息:

print(df.info()) 

结果


  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    
亲自试一试 »

结果解释

结果告诉我们有 169 行和 4 列:


  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

以及每列的名称和数据类型:


   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

空值

这个info()方法还告诉我们每列中有多少个非空值,在我们的数据集中,"Calories" 列中似乎有 169 个非空值中的 164 个。

这意味着无论出于何种原因,"Calories" 列中有 5 行根本没有值。

分析数据时,空值或 Null 值可能会很糟糕,您应该考虑删除具有空值的行。这是迈向所谓的一步清洗数据,您将在接下来的章节中了解更多相关内容。