实证｜取对数问题

一、什么时候应该取对数？

　　满足以下两个条件之一，可以考虑取对数：

被解释变量 Y 与核心解释变量 X 数据的数量级差距很大，例如 Y 取值普遍小于 10，X 的取值一般在 100～1000 之间分布，就可以考虑对 X 取对数，也可以更改 X 的单位；
某个变量取值差异极大，例如家庭的工资收入，最低的为 0，普遍为 2～4 万，最高有上百万，这种情况下为避免极端值的影响，可以考虑取对数，同时为了避免工资收入为 0 的家庭取对数后为缺失值（因为对 0 取对数没有意义），可以 +1 元后再取对对数，可以在避免对收入数据造成较大影响的情况下，保留工资收入为 0 的样本。

　　但是，取对数的变量不应该有负数。如果一个变量取负数是合理的，取对数会造成样本的选择性偏差。例如可能由于经营企业等亏损，家庭总收入可能小于 0，这是合理的，如果取对数，会造成使用家庭总收入的对数值进行计量时，家庭总收入小于 0 的样本被忽略。

　　‍

　　伍德里奇的《计量经济学导论》第二章，“对于线性模型中取对数后，如何解释片回归系数”这一问题做了很详细的说明。

　　在线性回归中，对数常应用于“常弹性模型”，因此被解释变量 Y 取对数可以被解释为弹性（Y、X 都取对数）或半弹性（仅 Y 取对数）。

　　【水平值-水平值】如果 X、Y 都是水平值，此时 Y 随 X 发生数值变化，系数可以解释为 X 的数值变化 1 个单位，Y 平均变化 \(\beta_1\)。

　　【水平值-对数】如果只有 X 取对数，Y 是水平值，此时 Y 随 X 发生数值变化，系数可以解释为 X 每变化 1%，Y 平均变化 \(\frac {\beta_1} {100}\)。

　　【对数-水平值】如果只有 Y 取对数，X 是水平值，那就是半弹性，此时 Y 随 X 发生比例变化，也就是说 X 地取值每变化 1 个单位，Y 的取值平均变化 \(100\beta_1\)%；

　　【对数-对数】如果 X 和 Y 都取对数，就可以解释为弹性，此时 Y 随 X 发生比例变化，也就是 X 每变化 1%，Y 平均变化 \(\beta_1\)%；

　　注意：上述所有结论是对【线性回归】结果的解释。

　　‍

　　上面的分析里，伍德里奇的表述比较难理解。可以从以下逻辑理解该问题：

在 X 与 Y 都不取对数时，X 与 Y 的关系是数值的变化关系，即 X 的取值变化 1 单位（如取值增大 1），Y 的取值变化 \(β_1\) 个单位（如均值增大 \(β_1\) ）。
当取对数时，这种数值变化会转变为比例变化。
- 如果 X 取对数，那么就是 X 发生比例变化；
- 如果 Y 取对数，那么就是 Y 发生比例变化。
例如：表 2.3 中的情况 2，X 取对数，Y 不取对数，因此解释该系数是，X 发生比例变化（变化 1%），Y 发生数值变化（变化 \(\frac {\beta_1} {100}\)）。

相关链接：

线性回归模型，哪些变量取对数形式？- 知乎