数据清洗|缩尾与截尾
在调查数据中,常常会遇到有极端值的情况,缩尾和结尾是两种最普遍的处理极端值的做法。以1%和99%双侧缩尾/截尾为例:
缩尾:将大于99%分位数的取值,替换为99%分位数取值;将小于1%分位数的取值,替换为1%分位数取值。
截尾:将大于99%分位数或小于1%分位数的取值,替换为缺失值。
使用缩尾还是截尾,应根据数据情况和研究的具体问题选择。
一、基本语法
1 | winsor2 varlist [if] [in], [suffix(string) replace trim cuts(# #) by(groupvar) label] |
二、示例和图示
(⚠️注意:不同设备的显示字体不同,可能会出现字符错位的现象。将错位的文本复制到其他文本编辑器 / Stata do 文件编辑器中,可以解决此问题。)
1 | ** 1%、99%缩尾:将小于1%百分位数和大于99%百分位数的数值分别替换为1%、99%分位数数值 |
1 | ** 根据 Province 分组,在1%和99%分位数处双侧缩尾/截尾,并替换原来的变量(不生成新变量) |
转载请联系作者,并注明文章来源 https://fgzfgz.github.io
评论