Pandas DataFrame duplicated() 方法

实例

检查哪些行是重复的,哪些行不是:

  1. import pandas as pd
  2. data = {
  3. "name": ["Sally", "Mary", "John", "Mary"],
  4. "age": [50, 40, 30, 40]
  5. }
  6. df = pd.DataFrame(data)
  7. s = df.duplicated()
  8. print(s)

定义与用法

duplicated() 方法返回一个包含 True 和 False 值的 Series,这些值描述 DataFrame 中哪些行是重复的,哪些行不是。

使用 subset 参数指定在查找重复项时是否不应考虑任何列。


语法

  1. dataframe.duplicated(subset, keep)

参数

这些参数都是 关键字参数

参数描述
subsetcolumn label(s)可选。包含任何要忽略的列的字符串或列表
keep'first'
'last'
False
可选, 默认值 'first'。指定要保留的重复项。如果为 False,则删除所有重复项

返回值

一个 DataFrame 中每行具有布尔值的 Series

分类导航