Pandas 数据分析

查看数据

快速查看 DataFrame 最常用的方法之一是 head() 方法。

head() 方法返回标题和指定数量的行,从顶部开始。

实例

通过打印 DataFrame 的前 10 行来快速浏览:

  1. import pandas as pd
  2. df = pd.read_csv('data.csv')
  3. print(df.head(10))

在下面的例子中,我们将使用名为 ‘data.csv’ 的 CSV 文件。

下载 CSV 文件 或者在浏览器中 查看 CSV 文件

注意:如果未指定行数,head() 方法将返回前 5 行。
实例

打印 DataFrame 中的前 5 行:

  1. import pandas as pd
  2. df = pd.read_csv('data.csv')
  3. print(df.head())

There is also a tail() method for viewing the last rows of the DataFrame.

还有一个 tail() 方法用于查看 DataFrame 的 最后 行。

tail() 方法返回标题和指定数量的行,从底部开始。

实例

打印 DataFrame 的最后 5 行:

  1. import pandas as pd
  2. df = pd.read_csv('data.csv')
  3. print(df.tail())

关于数据的信息

DataFrames 对象有一个名为 info() 的方法,可以为您提供有关数据集的更多信息。

实例

打印有关数据的信息:

  1. import pandas as pd
  2. df = pd.read_csv('data.csv')
  3. print(df.info())

结果

  1. <class 'pandas.core.frame.DataFrame'>
  2. RangeIndex: 169 entries, 0 to 168
  3. Data columns (total 4 columns):
  4. # Column Non-Null Count Dtype
  5. --- ------ -------------- -----
  6. 0 Duration 169 non-null int64
  7. 1 Pulse 169 non-null int64
  8. 2 Maxpulse 169 non-null int64
  9. 3 Calories 164 non-null float64
  10. dtypes: float64(1), int64(3)
  11. memory usage: 5.4 KB
  12. None

结果解释

结果显示共有 169 行和 4 列:

以及每列的名称,以及数据类型:


空值

info() 方法还告诉我们每列中存在多少非空值,在我们的数据集中,"Calories" 列中 169 个值中似乎有 164 个非空值。

这意味着在 "Calories" 列中有 5 行没有任何值。

在分析数据时,空值或空值可能是有问题的,并且应该考虑删除具有空值的行。

这是对所谓的 清理数据 的一步,在下一章中您将了解更多相关知识。