中国流动人口动态监测调查数据 (CMDS) 是社会科学领域被广泛使用的公开数据之一,目前公开的数据到2018年。

  点击这个链接,可以申请CMDS数据:数据申请 (chinaldrk.org.cn)

  然而,一些朋友使用的 CMDS 数据,是从公众号获取、闲鱼等平台购买或者经管之家购买的,使用 CMDS 数据时需要注意以下几点:

  • CMDS 不是追踪调查数据,每年的调查数据都是重新抽样的;
  • 使用非官方获取的 2018 年数据,可能存在问题

  这里重点说第二点问题,即非官方获取的 2018 年数据存在的问题。

1. 数据年份错误

  一些非官方获取的 2018 年数据,数据其实是2017年的数据。典型问题是样本总量,2017 年的样本总量是169,899个样本,一些公众号/卖家将2017年数据修改文件名、删除部分变量后,以 2018 年数据的名义售卖。

  因此,在使用非官方数据 (特别是2018年) 时,需要特别注意样本量问题。如下图,某公众号宣称的2018年CMDS数据,实际是169899样本的2017年数据(CSV格式的表格,第一行为表头,即变量名)。

  

  乱码的CSV格式的假数据 (标称2018实为2017)

2. 数据的变量名与问卷不对应

  一些非官方获取的 2018 年 Excel 格式 (.xlsx) 的数据,虽然样本量正确,为 152,000 个样本,但是变量名与数据并不对应,且提供的变量名和变量标签是2017年的变量对应表。

  考虑到各年调查问卷有所调整,使用该数据无疑会导致使用时出错。因此,需要特别注意变量名与数据的对应关系。

  • 样本量正确(为 152,000,与 2017 年的 169,899 有明显区别)
  • 错误的数据与变量名的对应关系,例如,GF 列是“您是去上一份工作的年份”,但回答是职业类型与各种数字。

  

  

3. Stata 格式数据乱码

  官方数据是 152,000 样本的 Stata 格式数据,变量名与数据之间的对应关系正确,但是存在乱码问题。

  

  这里可以使用下面命令进行转码。

1
2
3
4
5
clear
cd "C:\Users\Desktop\转码" // 新建一个转码文件夹,然后修改自己的路径
unicode encoding set gb18030
unicode analyze 流动人口数据个人问卷2018.dta // 文件名根据自己的数据进行调整
unicode translate 流动人口数据个人问卷2018.dta, invalid // 文件名根据自己的数据进行调整

  转码后即可在 Stata 14 及更新的软件版本中打开,不会存在乱码问题。

  


总结:

  使用网络上购买的公开微观数据库,应当检查以下几点:

  1. 数据年份是否对应
  2. 如果数据不是 dta 格式,变量名和数据是否对应
  3. 数据中存在的其他问题