数据清洗|样本等分组
1. xtile 命令
使用 xtile 命令,可以对某一个变量数进行等分组。
dis_inc 表示可支配收入,inc_group 表示按照可支配收入分组,生成的收入组变量,取值是 1-5,1 为低收入组 (20%),2 为中低收入组 (20%),3 为中等收入组 (20%),4 为中高收入组 (20%),5 为高收入组 (20%)。
1 | ** 样本等分组(按样本数量分组), n(5) 表示将样本等分为 5 份 |
2. 组内样本等分组
先按照城乡、省份分组,然后每一组样本根据可支配收入,分为低收入组、中等偏下收入组、中等收入组、中等偏上收入组、高收入组等五组。
1 | // 生成收入组别变量type |
上面是一种很符合直觉的做法,即先计算分段点百分位数处的取值,然后根据大小关系来确定分组。
但是,上面的做法太麻烦!
egenmore 提供的 xtile 函数来计算,一行代码就就可以解决组内等分组的问题!
首次使用前需要安装 egenmore 提供的函数包。egenmore 提供的函数包很多,安装等待较长时间是正常现象。
1 | ** 安装函数包 egenmore: 仅首次使用前需要安装 |
上面代码的等效命令如下:
1 | ** 等效命令 |
使用 by() 来指定分组的依据,使用 n() 来指定组内等分组的数量。
转载请联系作者,并注明文章来源 https://fgzfgz.github.io
评论

