Pandas DataFrame drop_duplicates() 方法

实例

从 DataFrame 中删除重复的行:

  1. import pandas as pd
  2. data = {
  3. "name": ["Sally", "Mary", "John", "Mary"],
  4. "age": [50, 40, 30, 40],
  5. "qualified": [True, False, False, False]
  6. }
  7. df = pd.DataFrame(data)
  8. newdf = df.drop_duplicates()
  9. print(newdf)

定义与用法

drop_duplicates() 方法删除重复的行。

使用 subset 参数指定在查找重复项时是否不应考虑任何列。


语法

  1. dataframe.drop_duplicates(subset, keep, inplace, ignore_index)

参数

这些参数都是 关键字参数

参数描述
subsetcolumn label(s)可选。包含任何要忽略的列的字符串或列表
keep'first'
'last'
False
可选, 默认值 'first'。指定要保留的重复项。如果为 False,则删除所有重复项
inplaceTrue
False
可选, 默认值为 False。如果为 True:在当前 DataFrame 上执行删除操作。如果为 False:返回执行删除操作的副本
ignore_indexTrue
False
可选, 默认值为 False。指定是否标记 0、1、2 等,否则不标记

返回值

一个 DataFrame 结果, 如果 inplace 参数设置为 True,则为 None。

分类导航