数据清洗｜计算同侪效应

　　在实证研究中，我们常会遇到一些关于同侪效应的研究，即同一组内其他样本的行为或状态可能会影响受访者的行为与状态。一些研究也将其称为同伴效应或伙伴效应。

　　衡量同侪效应的常见方式是组内其他样本的均值。其基本计算原理如下：

　　假设某一组内共有 \(m\) 个样本，对于受访者 \(i\) ，其同侪效应 \(X_p\) (组内其他样本均值) 可以表示为：

\[ \begin {align} X_p= \frac {\sum _{j \ne i} X_j} {m-1} = \frac {\sum _{j =1}^n X_j \ - \ X_i} {m-1} \end{align} \]

　　因此，对于全体样本分出的每一组样本，我们可以分为三个步骤计算：

计算组内样本数量 \(m\)
计算组内所有样本变量 \(X\) 的取值之和
代入上式计算同侪效应 \(X_p\)

** 使用 count 和 total 函数:
egen count_num=count(X), by(CID)  // 分组计算变量 X 的非缺失值样本数量
egen X_total=total(X), by(CID)      // 对 X 的分组求和
gen X_p=(X_total-X)/(count_num-1)

　　当然，上述计算过程比较麻烦，也有学者开发了 peers 函数，可以等效替代上面的命令：

1
2
3

** 使用 peers 函数: 以 CID 分组, 组内其他受访者的 X 均值
ssc install _peers, replace       //安装 peers 函数，仅首次使用需要安装
egen X_peers=peers(X),by(CID)             //CID 为分组变量, 包含 X 为缺失值的样本

　　上面一行命令, 与使用 count 和 total 函数计算的结果往往不同，原因是缺失值样本往往也会被计算在内。解决这一问题的办法是添加一个 if 条件，即可与使用 count 和 total 函数计算的结果相同。

1	egen X_peers=peers(X) if X!=. & CID!=.,by(CID)

　　相关用法："egen"

　　一些研究中也将“同侪效用”用作工具变量。

** 除受访样本外其他样本的均值
gen count=1
egen count_num=total(count), by(county)
egen treat_total=total(treat), by(county)
gen IV=(IV_total-treat)/(count_num-count)

** 使用 peers 函数也可以达到上述效果
egen IV=peers(treat),by(county)