Pandas DataFrame duplicated() 方法
实例
检查哪些行是重复的,哪些行不是:
import pandas as pddata = {"name": ["Sally", "Mary", "John", "Mary"],"age": [50, 40, 30, 40]}df = pd.DataFrame(data)s = df.duplicated()print(s)
定义与用法
duplicated() 方法返回一个包含 True 和 False 值的 Series,这些值描述 DataFrame 中哪些行是重复的,哪些行不是。
使用 subset 参数指定在查找重复项时是否不应考虑任何列。
语法
dataframe.duplicated(subset, keep)
参数
这些参数都是 关键字参数。
| 参数 | 值 | 描述 |
|---|---|---|
| subset | column label(s) | 可选。包含任何要忽略的列的字符串或列表 |
| keep | 'first' 'last' False | 可选, 默认值 'first'。指定要保留的重复项。如果为 False,则删除所有重复项 |
返回值
一个 DataFrame 中每行具有布尔值的 Series。