Pandas DataFrame drop_duplicates() 方法
实例
从 DataFrame 中删除重复的行:
import pandas as pd
data = {
"name": ["Sally", "Mary", "John", "Mary"],
"age": [50, 40, 30, 40],
"qualified": [True, False, False, False]
}
df = pd.DataFrame(data)
newdf = df.drop_duplicates()
print(newdf)
定义与用法
drop_duplicates()
方法删除重复的行。
使用 subset
参数指定在查找重复项时是否不应考虑任何列。
语法
dataframe.drop_duplicates(subset, keep, inplace, ignore_index)
参数
这些参数都是 关键字参数。
参数 | 值 | 描述 |
---|---|---|
subset | column label(s) | 可选。包含任何要忽略的列的字符串或列表 |
keep | 'first' 'last' False | 可选, 默认值 'first'。指定要保留的重复项。如果为 False,则删除所有重复项 |
inplace | True False | 可选, 默认值为 False。如果为 True:在当前 DataFrame 上执行删除操作。如果为 False:返回执行删除操作的副本 |
ignore_index | True False | 可选, 默认值为 False。指定是否标记 0、1、2 等,否则不标记 |
返回值
一个 DataFrame 结果, 如果 inplace 参数设置为 True
,则为 None。