Pandas 清洗格式错误的数据

格式错误的数据

格式错误的值会使分析数据变得困难,甚至不可能。

要解决此问题,有两个选择:删除行,或将列中的所有单元格转换为相同格式。


转换成正确的格式

在我们的 DataFrame 中,我们有两个格式错误的值。查看第 22 行和第 26 行,"Date" 列应为表示日期的字符串:

  1. Duration Date Pulse Maxpulse Calories
  2. 0 60 '2020/12/01' 110 130 409.1
  3. 1 60 '2020/12/02' 117 145 479.0
  4. 2 60 '2020/12/03' 103 135 340.0
  5. 3 45 '2020/12/04' 109 175 282.4
  6. 4 45 '2020/12/05' 117 148 406.0
  7. 5 60 '2020/12/06' 102 127 300.0
  8. 6 60 '2020/12/07' 110 136 374.0
  9. 7 450 '2020/12/08' 104 134 253.3
  10. 8 30 '2020/12/09' 109 133 195.1
  11. 9 60 '2020/12/10' 98 124 269.0
  12. 10 60 '2020/12/11' 103 147 329.3
  13. 11 60 '2020/12/12' 100 120 250.7
  14. 12 60 '2020/12/12' 100 120 250.7
  15. 13 60 '2020/12/13' 106 128 345.3
  16. 14 60 '2020/12/14' 104 132 379.3
  17. 15 60 '2020/12/15' 98 123 275.0
  18. 16 60 '2020/12/16' 98 120 215.2
  19. 17 60 '2020/12/17' 100 120 300.0
  20. 18 45 '2020/12/18' 90 112 NaN
  21. 19 60 '2020/12/19' 103 123 323.0
  22. 20 45 '2020/12/20' 97 125 243.0
  23. 21 60 '2020/12/21' 108 131 364.2
  24. 22 45 NaN 100 119 282.0
  25. 23 60 '2020/12/23' 130 101 300.0
  26. 24 45 '2020/12/24' 105 132 246.0
  27. 25 60 '2020/12/25' 102 126 334.5
  28. 26 60 20201226 100 120 250.0
  29. 27 60 '2020/12/27' 92 118 241.0
  30. 28 60 '2020/12/28' 103 132 NaN
  31. 29 60 '2020/12/29' 100 132 280.0
  32. 30 60 '2020/12/30' 102 129 380.3
  33. 31 60 '2020/12/31' 92 115 243.0

让我们尝试将 "Date" 列中的所有值转换为日期。

Pandas 对此有一个 to_datetime() 方法:

实例

转换为日期:

  1. import pandas as pd
  2. df = pd.read_csv('data.csv')
  3. df['Date'] = pd.to_datetime(df['Date'])
  4. print(df.to_string())

结果:

  1. Duration Date Pulse Maxpulse Calories
  2. 0 60 '2020/12/01' 110 130 409.1
  3. 1 60 '2020/12/02' 117 145 479.0
  4. 2 60 '2020/12/03' 103 135 340.0
  5. 3 45 '2020/12/04' 109 175 282.4
  6. 4 45 '2020/12/05' 117 148 406.0
  7. 5 60 '2020/12/06' 102 127 300.0
  8. 6 60 '2020/12/07' 110 136 374.0
  9. 7 450 '2020/12/08' 104 134 253.3
  10. 8 30 '2020/12/09' 109 133 195.1
  11. 9 60 '2020/12/10' 98 124 269.0
  12. 10 60 '2020/12/11' 103 147 329.3
  13. 11 60 '2020/12/12' 100 120 250.7
  14. 12 60 '2020/12/12' 100 120 250.7
  15. 13 60 '2020/12/13' 106 128 345.3
  16. 14 60 '2020/12/14' 104 132 379.3
  17. 15 60 '2020/12/15' 98 123 275.0
  18. 16 60 '2020/12/16' 98 120 215.2
  19. 17 60 '2020/12/17' 100 120 300.0
  20. 18 45 '2020/12/18' 90 112 NaN
  21. 19 60 '2020/12/19' 103 123 323.0
  22. 20 45 '2020/12/20' 97 125 243.0
  23. 21 60 '2020/12/21' 108 131 364.2
  24. 22 45 NaT 100 119 282.0
  25. 23 60 '2020/12/23' 130 101 300.0
  26. 24 45 '2020/12/24' 105 132 246.0
  27. 25 60 '2020/12/25' 102 126 334.5
  28. 26 60 '2020/12/26' 100 120 250.0
  29. 27 60 '2020/12/27' 92 118 241.0
  30. 28 60 '2020/12/28' 103 132 NaN
  31. 29 60 '2020/12/29' 100 132 280.0
  32. 30 60 '2020/12/30' 102 129 380.3
  33. 31 60 '2020/12/31' 92 115 243.0

从结果中可以看出,第 26 行中的日期已经被修正,但第 22 行中的空日期得到了一个 NaT(不是时间)值,换句话说它是一个空值。处理空值的一种方法是删除整行。


删除行

上面示例中的转换结果为我们提供了一个 NaT 值的结果,该值可以作为空值处理,我们可以使用 dropna() 方法删除该行。

实例

在 "Date" 列中删除具有空值的行:

  1. import pandas as pd
  2. df = pd.read_csv('data.csv')
  3. df['Date'] = pd.to_datetime(df['Date'])
  4. df.dropna(subset=['Date'], inplace = True)
  5. print(df.to_string())

分类导航