数据清洗|样本等分组
1. xtile
命令
使用 xtile
命令,可以对某一个变量数进行等分组。
dis_inc
表示可支配收入,inc_group
表示按照可支配收入分组,生成的收入组变量,取值是
1-5
,1
为低收入组 (20%),2
为中低收入组 (20%),3
为中等收入组 (20%),4
为中高收入组 (20%),5
为高收入组 (20%)。
1 | ** 样本等分组(按样本数量分组), n(5) 表示将样本等分为 5 份 |
2. 组内样本等分组
先按照城乡、省份分组,然后每一组样本根据可支配收入,分为低收入组、中等偏下收入组、中等收入组、中等偏上收入组、高收入组等五组。
1 | // 生成收入组别变量type |
上面是一种很符合直觉的做法,即先计算分段点百分位数处的取值,然后根据大小关系来确定分组。
但是,上面的做法太麻烦!
egenmore
提供的 xtile
函数来计算,一行代码就就可以解决组内等分组的问题!
首次使用前需要安装 egenmore
提供的函数包。egenmore
提供的函数包很多,安装等待较长时间是正常现象。
1 | ** 安装函数包 egenmore: 仅首次使用前需要安装 |
上面代码的等效命令如下:
1 | ** 等效命令 |
使用 by()
来指定分组的依据,使用 n()
来指定组内等分组的数量。
转载请联系作者,并注明文章来源 https://fgzfgz.github.io
评论