Pandas 删除重复数据
发现重复数据
重复行是指已出现多次的行。
Duration Date Pulse Maxpulse Calories0 60 '2020/12/01' 110 130 409.11 60 '2020/12/02' 117 145 479.02 60 '2020/12/03' 103 135 340.03 45 '2020/12/04' 109 175 282.44 45 '2020/12/05' 117 148 406.05 60 '2020/12/06' 102 127 300.06 60 '2020/12/07' 110 136 374.07 450 '2020/12/08' 104 134 253.38 30 '2020/12/09' 109 133 195.19 60 '2020/12/10' 98 124 269.010 60 '2020/12/11' 103 147 329.311 60 '2020/12/12' 100 120 250.712 60 '2020/12/12' 100 120 250.713 60 '2020/12/13' 106 128 345.314 60 '2020/12/14' 104 132 379.315 60 '2020/12/15' 98 123 275.016 60 '2020/12/16' 98 120 215.217 60 '2020/12/17' 100 120 300.018 45 '2020/12/18' 90 112 NaN19 60 '2020/12/19' 103 123 323.020 45 '2020/12/20' 97 125 243.021 60 '2020/12/21' 108 131 364.222 45 NaN 100 119 282.023 60 '2020/12/23' 130 101 300.024 45 '2020/12/24' 105 132 246.025 60 '2020/12/25' 102 126 334.526 60 20201226 100 120 250.027 60 '2020/12/27' 92 118 241.028 60 '2020/12/28' 103 132 NaN29 60 '2020/12/29' 100 132 280.030 60 '2020/12/30' 102 129 380.331 60 '2020/12/31' 92 115 243.0
通过查看我们的测试数据集,我们可以假设第 11 行和第 12 行是重复的。
要发现重复项,我们可以使用 duplicated() 方法。
duplicated() 方法为每行返回一个布尔值:
实例
对于重复的每一行,返回 True ,否则返回 False:
import pandas as pddf = pd.read_csv('data.csv')print(df.duplicated())
删除重复
使用 drop_duplicates() 方法删除重复。
实例
删除所有重复:
import pandas as pddf = pd.read_csv('data.csv')df.drop_duplicates(inplace = True)print(df.to_string())#请注意,第 12 行已从结果中删除
请记住:
(inplace=True) 将确保该方法不会返回新的 DataFrame,但它将从原始 DataFrame 中删除所有重复项。