数据预处理涉及多个常见步骤,如识别异常值、处理缺失值、筛选不适合的数据、去除重复行、分箱、分组、排名以及将类别转换为数值型数据。以下将通过 pandas 来解决这些常见的预处理任务。
识别异常值通常有两种方法:
标准差法:将异常值定义为在平均值上下1.96个标准差之外的值。分位数法:小于1/4分位数减去1.5倍的四分位差,以及大于3/4分位数加上1.5倍的四分位差的值,均被视为异常值。
技能1:标准差法
技能2:分位数法
技能3:处理缺失值
技能4:填充缺失值
技能5:修正不适合的值
技能6:去除重复值
技能7:使用 apply 方法处理特殊字符
技能8:数据分箱
技能9:进行排名
技能10:将类别列转换为数值
以上是数据预处理的十个小任务,并且与 pandas 中的实现相对应。
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
[[[IMG_4]]]
[[[IMG_5]]]
