Pandas 数据分析
查看数据
快速查看 DataFrame 最常用的方法之一是 head()
方法。
head()
方法返回标题和指定数量的行,从顶部开始。
实例
通过打印 DataFrame 的前 10 行来快速浏览:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
在下面的例子中,我们将使用名为 ‘data.csv’ 的 CSV 文件。
注意:如果未指定行数,
head()
方法将返回前 5 行。实例
打印 DataFrame 中的前 5 行:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
There is also a tail()
method for viewing the last rows of the DataFrame.
还有一个 tail()
方法用于查看 DataFrame 的 最后 行。
tail()
方法返回标题和指定数量的行,从底部开始。
实例
打印 DataFrame 的最后 5 行:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.tail())
关于数据的信息
DataFrames 对象有一个名为 info()
的方法,可以为您提供有关数据集的更多信息。
实例
打印有关数据的信息:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.info())
结果
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169 entries, 0 to 168
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Duration 169 non-null int64
1 Pulse 169 non-null int64
2 Maxpulse 169 non-null int64
3 Calories 164 non-null float64
dtypes: float64(1), int64(3)
memory usage: 5.4 KB
None
结果解释
结果显示共有 169 行和 4 列:
以及每列的名称,以及数据类型:
空值
info()
方法还告诉我们每列中存在多少非空值,在我们的数据集中,"Calories" 列中 169 个值中似乎有 164 个非空值。
这意味着在 "Calories" 列中有 5 行没有任何值。
在分析数据时,空值或空值可能是有问题的,并且应该考虑删除具有空值的行。
这是对所谓的 清理数据 的一步,在下一章中您将了解更多相关知识。