数据清洗专题视频|[直播录屏]用Stata清洗大型微观数据库:方法、实践与思路
视频合集
附件:
录屏文件和 Do File
下载链接:https://pan.baidu.com/s/1F07EPWBqXGRfrPpmnuVTIQ?pwd=9c6h
⚠️特别注意:案例数据已做模糊化处理,不能匹配至CFPS原始数据,仅用于结果复现和学习使用。
内容简介:
数据清洗方法部分:主要介绍常用命令
数据清洗实践部分:基于2018、2020年CFPS生成两期面板数据
数据清洗思路部分:总结数据清洗的方法和实践,梳理数据清洗常遇到的问题,总结数据清洗的思路。
软件相关|R 版本更新方法
这是一份 R 自动更新的简明教程。
1. Windows 系统
在 Windows 系统中,使用下面的做法即可快速更新
R 。
打开 R ,而非 RStudio;
运行以下三行代码
123install.packages("installr")library(installr)updateR()
卸载旧版 R。在 Windows 端,R
不是覆盖安装,因此旧版本仍然会保留。可以在开始栏中找到 R
文件夹,然后找到旧版,右键卸载即可。
2. macOS 系统
打开官网(链接:R
for macOS),找到 macOS 版本的安装包,下载后安装即可。macOS
为覆盖安装,安装后自动覆盖旧版本。M 系列芯片下载左侧 arm64
版本,Intel 芯片下载左侧的 x86_64 版本即可。
相关链接:
谢大飞呀:R
和 Rstudio 版本更新
数据清洗|家庭分户问题解决思路与代码
在以家庭为单位的微观调查中,常使用家庭 fid
作为家庭识别码,并使用 pid
作为家庭成员的识别码。在通常情况下,一个家庭对应多个家庭成员的关系是稳定的。但是在微观调查中,由于对「家庭」和「家庭成员」的定义并不相同(例:视频、代码),在某些定义下,一些成员可能会脱离家庭,组建新的家庭,这种情况一般称作「家庭分户」问题。截面数据不存在分户问题,但在追踪家庭微观调查中,常存在这类分户问题。
这里不再讨论如何定义「家庭」和「家庭成员」,仅讨论如何解决分户问题。
1. 连续变量的分户问题
根据问卷中相关变量设置,CFPS 官方提供了一些综合收入综合指标。我们以
CFPS 的收入数据为例,解决从 2010 年来的连续变量的分户问题。
12345678* 收入相关综合变量及其含义* 家庭工资性收入 fwage_1* 家庭经营性收入 foperate_1* 家庭财产性收入 fproperty_1 * 家庭转移性收入 ftransfer_1 * 家庭其他收入 felse_1 * 家庭纯收入 fincome1 * 家庭人均收入 fincome1_per
根据变量的含义不同,家庭分户问题的处理方式也 ...
数据清洗|生成平衡面板数据
在 Stata 中,可以使用 tsfill 命令或者
xtbalance 命令生成平衡面板数据。两个命令的原理并不相同。
tsfill 通过【补样本】获得平衡面板,
更多用于宏观数据中;xtbalance
通过【删样本】获得平衡面板,更多用于微观数据中。
1. 命令展示
123456** 设置面板数据xtset PID year** tsfill 补样本tsfill, full** xtbalance 删样本xtbalance, range(2012 2022) miss(x1 x2 x3)
注:在使用 tsfill 和
xtbalance 之前,需要使用 xtset
命令设置好面板数据。
2. 结果展示
(1)tsfill 补样本
以涵盖江苏和上海两个省份的三年面板数据为例,其中江苏缺少2020年的样本。可以看到,tsfill
对缺失的样本进行了填补,但是不会填补province
、x 等变量的取值。使用 fillmissing
命令,可以在tsfill
的基础上,进一步填补缺失的宏观地理信息,其原理是根据变量ID分组,组内的每一个省份名称province
都是相同的,使用组内其中一 ...
数据清洗|数据填充(均值法)
在 Stata 中,使用 egen
等命令分组计算后,可以得到一个组内取值相同、组间取值不同的变量。如果在使用
egen 命令分组计算时,使用了 if
条件对特定样本进行计算,那么组内取值有且仅有两种情况:
情况一:两种取值,一是组内样本符合条件的取值相同,不符合条件的都是缺失值
.。
情况二:一种取值,组内因不符合条件,都是缺失值。
在此种情况下,可以使用 ereplace 命令配合
mean 函数补充。
1. 命令展示
12345** 外部命令,首次使用需要安装 ereplacessc install ereplace, replace** 计算条件分组取值egen X_total = total(X) if X==1, by(ID)ereplace X_total = mean(X_total), by(ID)
2. 结果展示
(⚠️注意:不同设备的显示字体不同,可能会出现字符错位的现象。将错位的文本复制到其他文本编辑器
/ Stata do 文件编辑器中,可以解决此问题。)
12345678910111213141516171819202122232425262728293 ...
数据采集|使用海关总署数据分析各省农产品进出口的问题
海关总署的官网,海关统计数据在线查询平台(网址)可以查询到各种商品进出口的详细信息,可以选择输出字段「收发货人注册地」与「商品」,检索分省、分商品种类的进出口数据。
商品的海关编码包括2位、4位、6位、8位检索,如果是2位、4位、6位检索,只能检索到对应商品的进出口金额,原因是进出口商品数量是按照海关8位编码统计的,8位编码不同的商品可能计量单位不同。选择8位编码即可查询到对应品类商品的进口数量。
海关数据使用的几个注意事项:
时间范围:2015年及以后
币制:可以查询人民币与美元,但是不能同时查到两种币制的进出口金额,需要下载数据后进行匹配。
按收发货人注册地划分的依据,是按照企业的注册地划分,无法衡量进口、出口商品的真实来源地与清关地。
例如,近期我在计算各省份粮食消费量,计算方法是:粮食消费量=粮食产量+粮食净进口,1999-2016年主要农产品进出口数量可以从《中国农村统计年鉴》中查询到,但是该年鉴不再汇报2017年及以后的分省分的主要农产品进出口数量。如果使用海关数据补充,会出现「海关数据根据企业注册地划分统计进出口,而非清关地,更非粮食实际消费地」的问题。2016年, ...
资源分享|年鉴、统计资料下载
年鉴清单:
- 点击资料名称下载 -
1. 分省统计年鉴
(1)分省统计年鉴(2000-2023)
全国所有省份的统计年鉴,包含香港、澳门、台湾
除西藏包含2000-2022年的年鉴外,其他所有省份都有2000-2023年的年鉴,部分省份有2000年以前的年鉴
少数省份有部分地级市的年鉴
2. 经济综合
(1)新中国统计资料汇编
新中国 50 年统计资料汇编(1949-1999)
新中国 55 年统计资料汇编(1949-2004)
新中国 60 年统计资料汇编(1949-2009)
新中国 65 年统计资料汇编(1949-2014)
(2)中国统计年鉴(1981-2024)
(3)中国经济普查年鉴(2004、2008、2013、2018)
(4)中国国内生产总值核算历史资料
《中国国内生产总值核算历史资料 (1952-1995) 》,PDF 版
《中国国内生产总值核算历史资料 (1996-2002) 》,光盘版
《中国国内生产总值核算历史资料 (1952-2004) 》,CAJ 版
(5)国际统计年鉴(1995-2023)
3. 区域经济、城乡建设
(1)中国城市统计年鉴( ...
因果推断专题|序章:因果推断概述
附件:
【附件内容】录屏
【附件下载】链接:https://pan.baidu.com/s/1DVrQZnxCHN48iZTo2RrBqw?pwd=kpmg
主要参考资料:
Athey S, Imbens G W. The state of applied econometrics: Causality
and policy evaluation[J]. Journal of Economic perspectives,
2017, 31(2): 3-32.
赵西亮. 基本有用的计量经济学[M]. 北京: 北京大学出版社, 2017.
乔舒亚·安格里斯特, 约恩-斯特芬·皮施克.
基本无害的计量经济学实证研究者指南[M]. 上海: 格致出版社, 2012.
一、识别策略
1. 为何需要因果识别
在理想条件下,对于同一个体,如果能同时观测到实行干预和不实行干预的结果,这两种结果的差异就是这种干预行为的因果效应。然而,现实情况往往是只能观测到一种状态的结果,如果选择干预,就无法观测到未干预的结果,因此无法直接观察到干预行为的因果效应。
为了准确估计干预行为的效果,同时避免 ...
数据清洗|Stata 复合双引号的使用
在 Stata 中,涉及到文本时,需要使用英文直引号框选文本内容,如
"测试文本"引号内文本"引号外文本"。在 do
文件中,该文本会被显示为:
如果运行该代码,只有第一个引号内橘黄色文本会被识别,因此运行会出错:
解决该问题的办法很简单,使用复合双引号即可解决问题:【`"测试文本"引号内文本"引号外文本"'
】
1display `"测试文本"引号内文本"引号外文本"'
也就是说,将左引号改为【`"】,右引号改为【"'】,即可解决问题。运行上述命令的结果如下:
运行不再报错,带引号的文本内容被完整显示。
参考内容:连享会-复合双引号在编程中的应用
数据清洗专题视频|分组计算非参数方法的基尼系数
附件:
录屏、文献 PDF 与 do
文件下载链接:https://pan.baidu.com/s/1wWE3ZmtIGxggSs0uT0p7wQ?pwd=5eyt
数据清洗专题视频|计算当期和上一期ROA差值,并生成平衡面板
视频合集
附件:
录屏文件与do文件,下载链接:
https://pan.baidu.com/s/1kFd2JghyUfSCRKUbNj6vXg?pwd=4ufd
期刊|公开数据与代码的期刊列表
推荐一些公开数据与代码的期刊,以方便大家通过论文复现,学习实证方法与代码使用。
中文期刊:
中国工业经济:论文与附件可在官网免费下载,附件包括数据、代码、正文中未展开的内容
数量经济技术经济研究:论文与附件可在官网免费下载,附件包括数据、代码、正文中未展开的内容
世界经济:论文与附件可在官网免费下载,包括论文全文与因篇幅正文中无法刊发的内容,2023年10月起,附件中将公布的附件包括数据、代码
管理世界:2023年9月10日以后提交的论文,需提交相关数据与代码,论文附件、数据与代码以中国知网的增强出版形式公开
社会:少数论文公开数据与代码,可在左侧的“下载中心”中下载
财经研究:自2023年9月16日起的投稿需提供数据、代码与其他附件
经济学季刊:自2023年9月1日起,向《经济学》(季刊)提交的稿件需要提交数据与代码,数据仅用于验证结果的可重复性,不会向公众公开
- 待更新 -
英文期刊:
American Economic Review:AER,美国经济评论
Quarterly Journal of
Economics:QJE,经济学季刊
Journal of Politic ...
发展经济学|附录A6-要素份额变化的数学分析
⚠️ 注意:本节的分析可能有误!
使用下图来解释要素份额变化的机制,其中曲线 \(m\) 表示等产量线。
假定产出 \(Y\)
由两种要素生产出来:质量调整后的劳动力 \(X=EL\),质量调整后的资本投入 \(Z=HK\)。两种生产要素都使边际效率衡量:
\[
\begin{align}
Y=M(X,Z)
\end{align}
\]
质量调整后的劳动 \(X=EL\):\(E\) 为劳动生产效率,\(L\) 为常规度量的劳动力(如工作时间);
质量调整后的资本 \(Z=HK\):\(H\) 为资本生产效率,\(K\) 为常规度量的资本。
假设上述生产函数与一般生产函数 \(Y =
F(L,K)\) 具有相同的特征(传送门:与一般生产函数的比较):
\(M\) 对 \(X\)、\(M\)
对 \(Z\) 可微
一阶导数为正:\(M_X \gt 0\),\(M_Z \gt 0\)
二阶导数为负:\(M_ {XX} \lt
0\),\(M_ {ZZ} \lt 0\)
假设竞争性的要素市场达到均衡,资本的收入份额为 \(\beta =rK/Y = qZ/Y\)
\ ...
发展经济学|附录A5-利用常规生产函数的解释
1.
调整后的常规生产函数 (meta-production function)
使用常规生产函数可以解释工业化初级阶段到高级阶段增长类型变化。常规生产函数在超长期的生产关系中,包含了因无形资本积累引起的技术创新和投入品质量改进的影响。常规生产函数可以被理解为新古典生产函数的包络线。
假定产出 \(Y\)
由两种要素生产出来:质量调整后的劳动力 \(X=EL\),质量调整后的资本投入 \(Z=HK\)。两种生产要素都使用边际效率衡量:
\[
\begin{align}
Y=M(X,Z)
\end{align}
\]
质量调整后的劳动 \(X=EL\):\(E\) 为劳动生产效率,\(L\) 为常规度量的劳动力(如工作时间);
质量调整后的资本 \(Z=HK\):\(H\) 为资本生产效率,\(K\) 为常规度量的资本。
因此,要素的相对价格为:
\[
\begin{align}
\frac w r =\frac {vE} {qH}= \frac {E} {H} \cdot \frac {v} {q}
\end{align}
\]
2. 要素替代弹性
\(E\) ...
发展经济学|附录A4-诱致性创新的可能性
通过技术引进促进工业化的发展中国家,很可能会因劳动节约型技术进步过快,导致劳动收入份额的下降。(传送门:第六章第二节)
引进和发展中国家的相对资源禀赋条件相符的技术,可以避免不平等的加剧。开发符合相对资源禀赋的适宜技术,不会牺牲经济效率,而且能促进公平。可能的原因是诱致性创新理论。
下图为以引进技术为基础的经济增长类型,劳动节约型技术进步的过程,与资本-劳动比率提高(\(OA \to
OB\))的过程相一致,相对要素价格(工资-利率的比率)保持不变,为
\(( \frac w r )_0\),但均衡点发生变化
\(a \to c\)。
假定 \(i_1\)
是引进到发展中国家的技术,并且这些技术是由发达国家开发、符合发达国家的相对资源稀缺性的适宜技术。因此,\(i_1\) 是一条与创新可能性曲线 \(I\)
相切的单位等产量曲线(创新可能性曲线是无数条等产量曲线的包络线),是在工资-利率比例很高的条件下,满足发达国家
\(P_g\)
生产成本最小化的单位等产量曲线。
如果发展中国家引进符合其相对资源稀缺性的适宜技术,那么就可以通过开发
\(i_2\)
技术(等产量 ...
发展经济学|附录A3-要素价格趋势和要素份额的变化
附录A1的分析表明,在既定技术水平下,资本的增加仍然会引起劳均产出的增加。
在希克斯情形下,技术进步带来的要素价格趋势和要素收入份额的变化特征:
1. 资本-劳动比率的变化
资本-劳动比率 \(K/L\)
在两个阶段都会上升,即直线 \(OA\) 的斜率小于直线 \(OB\)
的斜率。如果技术保持不变,资本-劳动比率 \(K/L\)
的提高会导致资本边际生产率的迅速下降。
2.
要素价格与要素收入份额的变化
2.1
基准情形:希克斯中性技术进步
如下图所示,对固定的技术 \(i_0\),增加投资会导致资本-劳动比率 \(K/L\) 的提高(直线 \(OA \to OB\)),此时的均衡点会发生变化(点
\(a \to
c\)),资本对劳动的边际技术替代率 \(MRTS_{LK}=\frac {MP_L} {MP_K} =\frac w r\)
上升,即等成本线 \(P\)
的斜率发生变化(\(P_0 \to
P_1\))。资本边际产出 \(MP_K\)
继续下降,使得资本的边际报酬率降低与资本供给价格(风险补偿、交易成本和利率等),使得资本积累停止。(联系:可变要素的 ...
发展经济学|附录A2-技术变化的分类
技术变化的倾向和替代弹性,决定资本-劳动比率(\(K/L\))和工资-租金比率(\(w/r\))之间的关系,进而决定劳动和资本的收入份额。
技术变化通常根据使用生产要素的倾向分类。希克斯分类 (John Hicks,
1932),以特定资本-劳动比率下劳动和资本的边际替代率的变化方向为基础。
假设 \(i\) 为等产量线),可以表示为:\(I=F(L,K)\)。等产量线向原点移动 \(i_0 \to i_1\)
表示技术进步,因为技术进步意味着生产单位产出需要的投入要素更少。
1. 要素收入份额的图形分析
如下图所示,\(i\)
为等产量曲线,\(PQ\)
为等成本曲线,两者相切于 \(a\)
点,即为既定产量下最低成本的均衡。
假设等成本线:\(C=wL+rK\),那么
\(Q\) 点坐标 \((0, \frac C r)\),\(P\) 点坐标 \((\frac C w, 0)\)。因此直线 \(PQ\) 的斜率绝对值为 \(\frac w r\),即 \(\frac {aT} {TP} = \frac w r\)。
此时处于均衡状态,因此 \(a\) ...
发展经济学|附录A1-资本-劳动比率的提高和生产函数的移动
技术进步对经济增长贡献的变化,是增长类型变化的主要因素。在现代经济学中,技术进步被定义为生产函数的向上移动。生产函数可以写作:
\[
\begin{align}
Y = F(L,K)
\end{align}
\]
其中,\(F\) 对 \(L\) 和 \(K\) 可微分,且满足:
一阶导数:\(F_L \gt 0\),\(F_K \gt 0\)
二阶导数:\(F_ {LL} \lt 0\),\(F_{KK} \lt0\)
偏导数:\(F_{LK} \gt 0\)
前两个条件即为稻田条件。
假定 \(F\) 是线性齐次生产函数,具有规模报酬不变的特征。那么,劳动生产率
\(y=\frac Y K\) 可以表示为资本-劳动比率
\(k=\frac K L\)
的函数。那么,原生产函数可以写作:
\[
\begin{align}
y= f(k)
\end{align}
\]
1. 技术水平恒定情况
当技术水平恒定(不存在技术进步)时,\(f\) 的图像可以表示为:
假定在初始期 \(t=0\),生产函数为
\(y_0\),资本-劳动比率为 \(k_0\),则 \ ...
实证|Stata数据可视化
相关链接:
注意⚠️:本文为相关链接的收藏合集,链接内容非本人原创文章。
- 待更新 -
模型|门槛回归(Threshold Regression)
相关链接:
注意⚠️:本文为相关链接的收藏合集,链接内容非本人原创文章。
数量经济学 -
Stata: 门槛回归、面板模型、动态面板模型结果输出