实证|相关性、共线性检验
一、命令
1234567** 变量相关性,相关性小于 0.6corr x1 x2 x3 x4 x5 x6pwcorr x1 x2 x3 x4 x5 x6** 多重共线性coldiag2 x1 x2 x3 x4 x5 x6 //条件数30collin x1 x2 x3 x4 x5 x6 //VIF值10,条件数30
在实证分析中,需要检验相关性和共线性的变量有核心解释变量、其他解释变量(控制变量)。
corr 或 pwcorr
计算出来变量间的相关系数,如果其绝对值都小于0.3,则一般认为不存在相关性,或认为相关性很低。
也可以使用回归的的方法计算出 VIF
值(出自陈强老师的《高级计量经济学(第二版)》第九章):
二、示例
以下使用美国女性工资的数据,使用 webuse
命令调用即可。
(⚠️注意:不同设备的显示字体不同,可能会出现字符错位的现象。将错位的文本复制到其他文本编辑器
/ Stata do 文件编辑器中,可以解决此问题。)
1234567891011121314151617181920212223242526 ...
数据清洗|数据格式转换
配套视频、笔记与代码
1. 格式转换
12345678910**【字符型 --> 数值型】// 将e11、e12 改为数值型变量,并替换之前的变量destring e11 e12, replace// 将e11、e12 改为数值型变量,忽略所有"NA"字符(NA 替换为缺失值),并替换之前的变量destring e11 e12,ignore(NA) replace// 将e11 改为数值型变量,并生成一个新变量new_e11destring e11, g(new_e11)**【数值型 --> 字符型】将数值型变量 e11、e12 改为字符型变量,并替换之前的变量(replace 命令)tostring e11 e12, replace
2. 数据存储格式变更
123** 将字符型变量A的存储位数改为6位字符型变量recast str6 A/* Note: 存储位数必须不能小于该变量的所有取值的最大位数。 */
数据清洗|长宽数据转换
配套视频、笔记与代码
将竖向的列变为横向的行,即为“长转宽”;将横的行变为竖向的列,即为“宽转长”。在
Stata 中,通过 reshape 命令可以实现长宽数据转换。
一、基本语法
12345678910111213** 宽数据转化为长数据 (wide to long)reshape long stubnames, i(varlist) [options]** 长数据转化为宽数据 (long to wide)reshape wide stubnames, i(varlist) [options]** 长宽数据转换失败时,列出转换失败的样本reshape error/* Note: stubnames 表示变量前缀名; i(varlist): varlist 是宽数据中可以唯一识别每组样本的变量,如家庭数据中的家庭编码; j(varlist): varlist 是在长数据中,根据宽数据唯一识别码的分组后,每组中每个样本的识别码,如家庭成员数据中的成员顺序码; string: 长宽数据转换时,j(varlist) 中的 varlist ...
数据清洗|数据匹配、接驳
配套视频、笔记与代码
相关命令:
"append":
数据纵向接驳
"merge":
精确数据匹配
"reclink"](siyuan://blocks/20220406230229-pmnxtfx):
模糊数据匹配
"joinby":
多对多的匹配
"nearmrg":
相似值的匹配
其中,reclink、joinby、nearmrg
的用法来自:
Stata:数据合并与匹配-merge-reclink|
连享会主页 (lianxh.cn)
其他命令:
mergemany、mergeall
mergemany --
一个灵活的命令来合并许多文件 - 简书 (jianshu.com)
mergeall --
合并多个文件的安全方法 - 简书 (jianshu.com)
一、数据接驳: append
数据接驳是数据集的纵向扩展,将不同的数据集纵向拼接在一起。
数据匹配使用 append 命令。与 merge
不同,数据接驳 append 命令不需要指定识别变量;
当前使用的数据是 master data,append
命令可以生成一个结果变量注明样本的来源;
在 ...
数据清洗|数据打开保存、导入导出、删除
配套视频、笔记与代码
一、数据打开、保存
1234567** 定义工作路径cd "C:/Users/wugan/Desktop/演示/CLHLS-HF/Stata_data"** 打开数据use "CLHLS-2014_2018.dta",clear** 保存数据save "CLHLS-2014_2018.dta",replacesave "演示数据.dta",replace
二、删除文件
使用 erase 和 rm
命令可以删除文件,需要指定路径和准确的文件名。如果路径和文件名中没有空格,可以删除引号。
使用 erase 和 rm
命令时,引号内需要注明:
路径信息:绝对路径 / 相对路径
文件名
文件格式
12erase "~/Desktop/newdata.dta"rm "~/Desktop/newdata.dta"
示例:
1rm "演示数据.dta"
三、导入、导出数据
1. 数据导入
导入Excel数据:
12345 ...
数据清洗|If 条件使用
配套视频、笔记与代码
1. 数值型变量
1234567891011121314151617** 大小关系比较replace select=0 if e11==5 //等于号“==”replace select=0 if e11!=5 //不等号“!=”,其中感叹号为英文符replace select=0 if e11>=5 //大于等于号“>=”replace select=0 if e11<=5 //小于等于号“<=”** 集合关系运算replace select=0 if e11==5 | e11==6 //【或】关系:条件为 e11=5 或者 e11=6,select变量取值是 0replace select=0 if e11==5 & e11==6 //【且】关系:条件为 e11=5 并且 e11=6,jianyan 变量取值是 0replace select=0 if (e11==5 & e11==6) | e12==5 //先且后或replace select=0 if e1 ...
数据清洗|命令安装、查询
配套视频、笔记与代码
一、软件介绍
Stata 版本:IC、BE、SE、MP
窗口设置:颜色与字体
窗口:命令窗口、数据浏览/编辑窗口、Do 文件编辑器窗口
12webuse womenwage.dtawebuse lifeexp, clear // 1998年各国预期寿命数据
颜色与含义
二、命令安装、查询
命令检索:help、findit、search
123456789** 查找 Stata 命令findit ivqreg2help regress //查看已安装命令regress的使用说明** 在线安装 Stata 外部命令 ivqreg2ssc install ivqreg2ssc install ivqreg2, replace/* Note: 若未安装,则安装该命令; 若已安装,替换当前已有版本,可用于命令版本更新。 */
命令安装:help、ssc install、下载后导入
外部命令导入位置:Stata 安装路径 — ado — base —
首字母文件夹
Stata 路径查看:sysdir
二、命令查找、安 ...
实证|主成分分析
主成分分析的要点:
区分正向指标与负向指标
累计贡献率最好大于 80%
特征根要大于 1
123456789101112** 已将负向指标正向化global xlist "X1 X2 X3 X4 X5 X6 X7 X8"** 权重确定与载核计算pca $xlistfactor $xlist , pcf** 绘制随碎石图screeplot, yline(1) //yline(1)表示绘制特征根为1的临界线** 根据碎石图或载核表, 选取特征根大于1的主成分predict f1 f2 f3 // 假如有三个主成分的特征根大于1** 生成综合指标: 前面的系数为「pca $xlist」命令运行后的「Proportion」列, 为各主成分的贡献率gen X = a1*f1 + a2*f2 + a3*f3drop f1-f3
相关链接:【Stata 写论文】PCA
主成分分析和因子分析命令演示(附代码) - 知乎 (zhihu.com)
实证|熵权法
熵权法的计算要点:
区分正向指标与负向指标
权重的计算方法
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849** 熵权法global xlist1 "X1 X2 X3 X4 X5 X6" // 正向指标global xlist2 "X7 X8" // 负向指标global xlist "$xlist1 $xlist2"*** 正向指标foreach v of global xlist1 { egen min_`v'= min(`v') egen max_`v'= max(`v') //正向变量标准化 gen `v'_n = (`v'-min_`v')/(max_`v'-min_`v') egen `v'_sum = sum(`v'_n) // 第j个指标中第i个样本 ...
实证|统计分析
配套视频、笔记与代码
一、tab 和
tabstat 用法
1234567891011** 【tab】查看【某一个】变量的数据分布和累积百分比tab e11 //不带条件tab e11 if jianyan==1 //带条件**【tabstat】// 查看样本数、均值、最大值、最小值、标准差:根据 z13 变量进行分组,保留两位小数(2f)tabstat b1a b1b, statistics(count mean min max sd) f(%9.2f) by(z13)tabstat b1a b1b, statistics(n mean min max sd) f(%9.2f) by(z13)tabstat b1a b1b, stat(n mean min max sd) f(%9.2f) by(z13) //同上一条命令(简写)// 查看分位数:p表示百分位数,q表示四分位数(p25、p50、p75)tabstat b1a b1b,stat(p5 p10 q p90 p95)
二、summ 命令
123//查看变量的均值、最大值、最小值、样 ...