Pandas 教程

什么是 Pandas?

Pandas 是一个用于处理数据集的 Python 库。

Pandas 基于 NumPy 数组构建,具有分析、清理、探索和操作数据的功能。

"Pandas" 这个名字同时引用了 "Panel Data(面板数据)" 和 "Python Data Analysis(Python 数据分析)",由 Wes McKinney 于 2008 年创建。


您应当具备的基础知识

在继续学习之前,您需要对下面的知识有基本的了解:


为何要使用 Pandas?

Pandas 让我们能够分析大数据,并根据统计理论得出结论。

Pandas 可以清理凌乱的数据集,并使它们可读和相关联。关联的数据在数据科学中非常重要。

数据科学:是计算机科学的一个分支,我们研究如何存储、使用和分析数据,从中获取信息。

Pandas 能做什么?

Pandas 会给你关于数据的答案。比如:

  • 两列或多列之间是否存在相关性?
  • 平均值是多少?
  • 最大值?
  • 最小值?

Pandas 还可以删除不相关或包含错误值的行,如空值或空值。这称为 清理 数据。


Pandas 相关网址

Pandas 官网 https://pandas.pydata.org/

Pandas 源代码:https://github.com/pandas-dev/pandas