Pandas DataFrame drop_duplicates() 方法

实例

从 DataFrame 中删除重复的行:

import pandas as pd
data = {
  "name": ["Sally", "Mary", "John", "Mary"],
  "age": [50, 40, 30, 40],
  "qualified": [True, False, False, False]
}
df = pd.DataFrame(data)
newdf = df.drop_duplicates()
print(newdf)

运行一下

定义与用法

drop_duplicates() 方法删除重复的行。

使用 subset 参数指定在查找重复项时是否不应考虑任何列。

语法

dataframe.drop_duplicates(subset, keep, inplace, ignore_index)

参数

这些参数都是关键字参数。

参数	值	描述
subset	column label(s)	可选。包含任何要忽略的列的字符串或列表
keep	'first' 'last' False	可选, 默认值 'first'。指定要保留的重复项。如果为 False，则删除所有重复项
inplace	True False	可选, 默认值为 False。如果为 True：在当前 DataFrame 上执行删除操作。如果为 False：返回执行删除操作的副本
ignore_index	True False	可选, 默认值为 False。指定是否标记 0、1、2 等，否则不标记

返回值

一个 DataFrame 结果, 如果 inplace 参数设置为 True，则为 None。

Pandas DataFrame drop_duplicates() 方法

实例

定义与用法

语法

参数

返回值

分类导航