FGZ的主页

发表于2022-03-17|更新于2025-07-26|数据清洗|Stata•命令•数据清洗

　　在面板数据中，如果当年数据存在缺失值，在下一年数据不是缺失值的情况下，使用下一年的数据补充。 1234567891011// "F."表示提前一期数据，"L."表示滞后一期数据xtset id year gen y1=F.yreplace y=y1 if y==.drop y1// 效果和上面的相同sort id yeargen y2=ybysort id: replace y=y[_n+1] if missing(y)drop y2 　　将数据滞后一期： 123456xtset id year gen y1=L.y// 效果和上面的相同xtset id year gen y_1=y[_n-1] 　　将数据滞后 2 期： 1gen y_2=y[_n-2]

实证｜为什么使用PSM消除样本选择偏差？

发表于2022-03-16|更新于2025-07-26|实证分析|实证分析•模型

　　要理解为什么用 psm 消除样本的选择偏误，先要理解 psm 的原理。　　在研究一种干预措施的效果时，理想状态是进行随机化实验，也就是控制其他所有条件都相同，仅有是否采取干预措施这一点不同，这样就可以通过比较随机化实验中干预组与对照组的差异，了解干预措施的效果，为排除个体差异，通常使用干预组与对照组的效果的平均值差异来衡量，也就是许多实证研究中许多研究计算的平均处理效应。　　然而，随机化实验往往在医学、生物学等领域更为常见，在经济学相关研究中，经济发展情况、社会制度、文化差异等各方面的不同之处决定了不能随意指定两类样本进行比较，以衡量干预措施的效果。更多的情况是干预措施的效果会受到两组样本之间其他差异的影响，这种情况下，无法准确判断两组之间的差异是不是由这一干预措施带来的，也就是无法准确判断干预措施与结果差异之间的“因果关系”。　　因此，为了可以更准确估计来自干预措施的影响，更准确地识别这种“因果关系”，回归的方式最早被应用，常见的是线性回归。然而，使用回归方法判断的是两个变量之间的统计关系，在需要满足 CIA（条件独立性假设）或 CMI（条件均值独立性假设）的条件下，该统计 ...

实证｜取对数问题

发表于2022-03-16|更新于2025-07-26|实证分析|实证分析•Stata

一、什么时候应该取对数？　　满足以下两个条件之一，可以考虑取对数：被解释变量 Y 与核心解释变量 X 数据的数量级差距很大，例如 Y 取值普遍小于 10，X 的取值一般在 100～1000 之间分布，就可以考虑对 X 取对数，也可以更改 X 的单位；某个变量取值差异极大，例如家庭的工资收入，最低的为 0，普遍为 2～4 万，最高有上百万，这种情况下为避免极端值的影响，可以考虑取对数，同时为了避免工资收入为 0 的家庭取对数后为缺失值（因为对 0 取对数没有意义），可以 +1 元后再取对对数，可以在避免对收入数据造成较大影响的情况下，保留工资收入为 0 的样本。　　但是，取对数的变量不应该有负数。如果一个变量取负数是合理的，取对数会造成样本的选择性偏差。例如可能由于经营企业等亏损，家庭总收入可能小于 0，这是合理的，如果取对数，会造成使用家庭总收入的对数值进行计量时，家庭总收入小于 0 的样本被忽略。　　‍ 二、如何解释取对数后的偏回归系数？　　伍德里奇的《计量经济学导论》第二章，“对于线性模型中取对数后，如何解释片回归系数”这一问题做了很详细的说明。　　在线性回归中， ...

数据清洗｜变量生成与替换

发表于2022-03-16|更新于2025-07-26|数据清洗|Stata•命令•数据清洗

配套视频、笔记与代码一、gen 和 replace 用法 1. 基础用法 123456789** 变量生成、数值替换gen jianyan=. //e.g. 生成一个所有数值都是空缺值“.”的变量replace jianyan=1 //将 jianyan 变量的所有数值都替换为 1** 或者可以写作：gen jianyan=1** 分组累计求和: 根据pcode分组，对CF_gini累计求和sort pcode CF_giniby pcode: gen CF_gini_sum=sum(CF_gini) 2. 常见运算函数 12345678910111213141516171819202122232425** 四则运算、对数、指数、幂运算replace X=X+1 // 加法replace X=X-1 // 减法replace X=X*3 // 乘法replace X=X/3 // 除法replace X=ln(X) // 自然对数replace X=log10(X) // 以10为底的对数replace X=log ...

实证｜相关性、共线性检验

发表于2022-03-16|更新于2025-07-26|实证分析|实证分析•Stata•相关性•多重共线性

一、命令 1234567** 变量相关性，相关性小于 0.6corr x1 x2 x3 x4 x5 x6pwcorr x1 x2 x3 x4 x5 x6** 多重共线性coldiag2 x1 x2 x3 x4 x5 x6 //条件数30collin x1 x2 x3 x4 x5 x6 //VIF值10，条件数30 　　‍ 　　在实证分析中，需要检验相关性和共线性的变量有核心解释变量、其他解释变量(控制变量)。　　corr 或 pwcorr 计算出来变量间的相关系数，如果其绝对值都小于0.3，则一般认为不存在相关性，或认为相关性很低。　　也可以使用回归的的方法计算出 VIF 值（出自陈强老师的《高级计量经济学(第二版)》第九章）：　　　　　　‍ 二、示例　　以下使用美国女性工资的数据，使用 webuse 命令调用即可。 (⚠️注意：不同设备的显示字体不同，可能会出现字符错位的现象。将错位的文本复制到其他文本编辑器 / Stata do 文件编辑器中，可以解决此问题。)　　‍ 1234567891011121314151617181920212223242526 ...

数据清洗｜数据格式转换

发表于2022-03-15|更新于2025-07-26|数据清洗|Stata•命令•数据清洗

配套视频、笔记与代码 1. 格式转换 12345678910**【字符型 --> 数值型】// 将e11、e12 改为数值型变量，并替换之前的变量destring e11 e12, replace// 将e11、e12 改为数值型变量，忽略所有"NA"字符(NA 替换为缺失值)，并替换之前的变量destring e11 e12,ignore(NA) replace// 将e11 改为数值型变量，并生成一个新变量new_e11destring e11, g(new_e11)**【数值型 --> 字符型】将数值型变量 e11、e12 改为字符型变量，并替换之前的变量（replace 命令）tostring e11 e12, replace 　　 2. 数据存储格式变更 123** 将字符型变量A的存储位数改为6位字符型变量recast str6 A/* Note: 存储位数必须不能小于该变量的所有取值的最大位数。 */

数据清洗｜长宽数据转换

发表于2022-03-14|更新于2025-07-26|数据清洗|Stata•命令•数据清洗

配套视频、笔记与代码　　将竖向的列变为横向的行，即为“长转宽”；将横的行变为竖向的列，即为“宽转长”。在 Stata 中，通过 reshape 命令可以实现长宽数据转换。一、基本语法 12345678910111213** 宽数据转化为长数据 (wide to long)reshape long stubnames, i(varlist) [options]** 长数据转化为宽数据 (long to wide)reshape wide stubnames, i(varlist) [options]** 长宽数据转换失败时，列出转换失败的样本reshape error/* Note: stubnames 表示变量前缀名； i(varlist): varlist 是宽数据中可以唯一识别每组样本的变量，如家庭数据中的家庭编码； j(varlist): varlist 是在长数据中，根据宽数据唯一识别码的分组后，每组中每个样本的识别码，如家庭成员数据中的成员顺序码； string: 长宽数据转换时，j(varlist) 中的 varlist ...

数据清洗｜数据匹配、接驳

发表于2022-03-13|更新于2025-07-26|数据清洗|Stata•命令•数据清洗

配套视频、笔记与代码相关命令： "append": 数据纵向接驳 "merge": 精确数据匹配 "reclink"](siyuan://blocks/20220406230229-pmnxtfx): 模糊数据匹配 "joinby": 多对多的匹配 "nearmrg": 相似值的匹配其中，reclink、joinby、nearmrg 的用法来自： Stata：数据合并与匹配-merge-reclink| 连享会主页 (lianxh.cn) 　　‍ 其他命令： mergemany、mergeall mergemany -- 一个灵活的命令来合并许多文件 - 简书 (jianshu.com) mergeall -- 合并多个文件的安全方法 - 简书 (jianshu.com) 　　‍ 一、数据接驳: append 　　数据接驳是数据集的纵向扩展，将不同的数据集纵向拼接在一起。数据匹配使用 append 命令。与 merge 不同，数据接驳 append 命令不需要指定识别变量；当前使用的数据是 master data，append 命令可以生成一个结果变量注明样本的来源；在 ...

数据清洗｜数据打开保存、导入导出、删除

发表于2022-03-12|更新于2025-07-26|数据清洗|Stata•命令•数据清洗

配套视频、笔记与代码一、数据打开、保存 1234567** 定义工作路径cd "C:/Users/wugan/Desktop/演示/CLHLS-HF/Stata_data"** 打开数据use "CLHLS-2014_2018.dta",clear** 保存数据save "CLHLS-2014_2018.dta",replacesave "演示数据.dta",replace 二、删除文件　　使用 erase 和 rm 命令可以删除文件，需要指定路径和准确的文件名。如果路径和文件名中没有空格，可以删除引号。　　使用 erase 和 rm 命令时，引号内需要注明：路径信息：绝对路径 / 相对路径文件名文件格式 12erase "~/Desktop/newdata.dta"rm "~/Desktop/newdata.dta" 　　示例： 1rm "演示数据.dta" 三、导入、导出数据 1. 数据导入　　导入Excel数据： 12345 ...

数据清洗｜If 条件使用

发表于2022-03-11|更新于2025-07-26|数据清洗|Stata•命令•数据清洗

配套视频、笔记与代码 1. 数值型变量 1234567891011121314151617** 大小关系比较replace select=0 if e11==5 //等于号“==”replace select=0 if e11!=5 //不等号“!=”，其中感叹号为英文符replace select=0 if e11>=5 //大于等于号“>=”replace select=0 if e11<=5 //小于等于号“<=”** 集合关系运算replace select=0 if e11==5 | e11==6 //【或】关系：条件为 e11=5 或者 e11=6，select变量取值是 0replace select=0 if e11==5 & e11==6 //【且】关系：条件为 e11=5 并且 e11=6，jianyan 变量取值是 0replace select=0 if (e11==5 & e11==6) | e12==5 //先且后或replace select=0 if e1 ...

数据清洗｜命令安装、查询

发表于2022-03-10|更新于2025-07-26|数据清洗|Stata•命令•数据清洗

配套视频、笔记与代码一、软件介绍　　Stata 版本：IC、BE、SE、MP 　　窗口设置：颜色与字体　　窗口：命令窗口、数据浏览/编辑窗口、Do 文件编辑器窗口 12webuse womenwage.dtawebuse lifeexp, clear // 1998年各国预期寿命数据　　颜色与含义二、命令安装、查询　　命令检索：help、findit、search 123456789** 查找 Stata 命令findit ivqreg2help regress //查看已安装命令regress的使用说明** 在线安装 Stata 外部命令 ivqreg2ssc install ivqreg2ssc install ivqreg2, replace/* Note: 若未安装，则安装该命令; 若已安装，替换当前已有版本，可用于命令版本更新。 */ 　　命令安装：help、ssc install、下载后导入　　外部命令导入位置：Stata 安装路径 — ado — base — 首字母文件夹　　Stata 路径查看：sysdir 二、命令查找、安 ...

实证｜主成分分析

发表于2021-10-19|更新于2025-07-26|实证分析|实证分析•Stata•主成分分析

　　主成分分析的要点：区分正向指标与负向指标累计贡献率最好大于 80% 特征根要大于 1 123456789101112** 已将负向指标正向化global xlist "X1 X2 X3 X4 X5 X6 X7 X8"** 权重确定与载核计算pca $xlistfactor $xlist , pcf** 绘制随碎石图screeplot, yline(1) //yline(1)表示绘制特征根为1的临界线** 根据碎石图或载核表, 选取特征根大于1的主成分predict f1 f2 f3 // 假如有三个主成分的特征根大于1** 生成综合指标: 前面的系数为「pca $xlist」命令运行后的「Proportion」列, 为各主成分的贡献率gen X = a1*f1 + a2*f2 + a3*f3drop f1-f3 　　相关链接：【Stata 写论文】PCA 主成分分析和因子分析命令演示（附代码） - 知乎 (zhihu.com)

实证｜熵权法

发表于2021-10-19|更新于2025-07-26|实证分析|实证分析•Stata•熵权法

　　熵权法的计算要点：区分正向指标与负向指标权重的计算方法 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950** 熵权法global xlist1 "X1 X2 X3 X4 X5 X6" // 正向指标global xlist2 "X7 X8" // 负向指标global newvar "newvarname" // 你需要生成的综合指标变量名global xlist "$xlist1 $xlist2"*** 正向指标foreach v of global xlist1 { egen min_`v'= min(`v') egen max_`v'= max(`v') //正向变量标归一化 gen `v'_n = (`v'-min_`v')/(max_`v'-min_`v& ...

实证｜统计分析

发表于2021-10-18|更新于2025-07-26|实证分析|实证分析•Stata

配套视频、笔记与代码一、tab 和 tabstat 用法 1234567891011** 【tab】查看【某一个】变量的数据分布和累积百分比tab e11 //不带条件tab e11 if jianyan==1 //带条件**【tabstat】// 查看样本数、均值、最大值、最小值、标准差：根据 z13 变量进行分组，保留两位小数（2f）tabstat b1a b1b, statistics(count mean min max sd) f(%9.2f) by(z13)tabstat b1a b1b, statistics(n mean min max sd) f(%9.2f) by(z13)tabstat b1a b1b, stat(n mean min max sd) f(%9.2f) by(z13) //同上一条命令(简写)// 查看分位数：p表示百分位数，q表示四分位数(p25、p50、p75)tabstat b1a b1b，stat(p5 p10 q p90 p95) 二、summ 命令 123//查看变量的均值、最大值、最小值、样 ...

发展经济学｜附录C-土地产权制度选择理论（待更新）

发表于2000-05-24|更新于2025-07-26|发展经济学笔记|发展经济学•发展经济学笔记

待更新

发展经济学｜附录B-消除外部性时征税等价于补贴的理论（待更新）

发表于2000-05-24|更新于2025-07-26|发展经济学笔记|发展经济学•发展经济学笔记

待更新

发展经济学｜第8章：传统和现代化（待更新）

发表于2000-03-24|更新于2025-07-26|发展经济学笔记|发展经济学•发展经济学笔记

待更新

发展经济学｜第7章：社区在经济发展中的作用（待更新）

发表于2000-03-24|更新于2025-07-26|发展经济学笔记|发展经济学•发展经济学笔记

待更新