因果推断导论笔记-Lecture4-Regression Methods for Completely Randomized Experiments

今天的目标是有限->无限,以及引入协变量。

概念

真正关心的可能是super population(近似无限)的因果作用,数据只是i.i.d.抽取出来的子总体而已。

简单地说,个体进入处理组的概率相同,三元组是i.i.d.的

The casual estimand for a super population is(注意和τfsτ_{fs}的区别)

τsp=Esp[Yi(1)Yi(0)]τ_{sp}=E_{sp}[Y_i(1)-Y_i(0)]

Y从没有随机性到有随机性,和之前课程的区别是:这个式子里的Yi(1)Y_i(1)有随机性的,这个随机性来源于抽样,而不是映射。

现在随机性有两层,τspτ_{sp}τfsτ_{fs}中的期望是E(Y,X)E_{(\vec{Y},\vec{X})},而τfsτ_{fs}到最后的因果作用是EWE_W

对于上次课定义的τ^dif\hat{τ}^{dif},仍然是无偏的(利用重期望公式,先选定人群):

E(τ^dif)=Esp[EW(τ^difY)]=Esp[τfs]=τspE(\hat{τ}^{dif})=E_{sp}[E_W(\hat{τ}^{dif}|\vec{Y})]=E_{sp}[τ_{fs}]=τ_{sp}

Vsp(τfs)=Vsp(1N(Yi(1)Yi(0)))=1N2Vsp(Yi(1)Yi(0))=1Nσtc2V_{sp}(τ_{fs})=V_{sp}(\frac1N\sum(Y_i(1)-Y_i(0)))=\frac1{N^2}\sum V_{sp}(Y_i(1)-Y_i(0))=\frac1Nσ_{tc}^2

V(τ^dif)=E(τ^difτsp)2(因为是无偏的)=E(τ^difτfs+τfsτsp)2V(\hat{τ}^{dif})=E(\hat{τ}^{dif}-τ_{sp})^2(因为是无偏的)\\ =E(\hat{τ}^{dif}-τ_{fs}+τ_{fs}-τ_{sp})^2

详细推导如下:

交互项这么算:

E[(τ^difτfs)(τfsτsp)]=Esp[EW[(τ^difτfs)(τfsτsp)Y]]=Esp[(τfsτsp)EW[(τ^difτfs)Y]]=Esp[(τfsτsp)EW[(τ^fsτfs)Y]]=0E[(\hat{τ}^{dif}-τ_{fs})(τ_{fs}-τ_{sp})]\\ =E_{sp}[E_W[(\hat{τ}^{dif}-τ_{fs})(τ_{fs}-τ_{sp})|\vec{Y}]]\\ =E_{sp}[(τ_{fs}-τ_{sp})E_W[(\hat{τ}^{dif}-τ_{fs})|\vec{Y}]]\\ =E_{sp}[(τ_{fs}-τ_{sp})E_W[(\hat{τ}_{fs}-τ_{fs})|\vec{Y}]]=0\\

(第二个等号能拿出来,因为那两个量和分配机制W无关,只和抽样Y有关。)

所以结果是

是Neyman估计的结果

为什么在有限总体里Neyman估计较为保守,而无限总体是无偏的?

因为无限总体多了抽样这种变异性,所以方差要更大一点。

回归模型

如何利用协变量改进估计(减小方差)?

记号

模型

Y对W做回归

这个τ有没有因果意义呢?

化简一下:

结果如下,就是τ^dif\hat{τ}^{dif}

完全随机化试验保证了回归的结果有因果意义

α^obs=Yˉcobs\hatα^{obs}=\bar{Y}^{obs}_c

也就是说Wi=0W_i=0时,回归的结果是α=Yˉcobsα=\bar{Y}^{obs}_c加一个误差。Wi=1W_i=1时,回归的结果是α+τ=Yˉtobsα+τ=\bar{Y}^{obs}_t加一个误差。

是否符合传统的线性回归?

Yi(1)=EspYi(1)+εi=α+τ+εiY_i(1)=E_{sp}Y_i(1)+ε_i=α+τ+ε_i

Yi(0)=EspYi(0)+εi=α+εiY_i(0)=E_{sp}Y_i(0)+ε_i=α+ε_i

我们的模型没有任何附加假设,只是做了一个形式的转换。

线性回归的假设是:ε零均值,同方差,和X独立。

Cov(Wi,εi)=E(Wiεi)0=E[E(WiεiWi)]=0Cov(W_i,ε_i)=E(W_iε_i)-0=E[E(W_iε_i|W_i)]=0

因此,这是一个合格的回归模型。

理解方式

第一种理解方式——Neyman方法

渐进正态

第二种理解方式——填补

意思就是用均值补上那些看不见的值,借助无混杂假设,期望和条件期望一样

算出来就是τ^dif\hat{τ}^{dif}

1Ni=1Nτ^i=1N(i:Wi=1N(Yi(1)Ycˉobs)+i:Wi=0N(YtˉobsYi(0)))=1N(NtYtˉobsNtYcˉobsNcYcˉobs+NcYtˉobs)=τ^dif\frac{1}{N}\sum_{i=1}^{N}\hatτ_i\\ =\frac{1}{N}(\sum_{i:W_i=1}^{N}(Y_i(1)-\bar{Y_c}^{obs})+\sum_{i:W_i=0}^{N}(\bar{Y_t}^{obs}-Y_i(0)))\\ =\frac{1}{N}(N_t\bar{Y_t}^{obs}-N_t\bar{Y_c}^{obs}-N_c\bar{Y_c}^{obs}+N_c\bar{Y_t}^{obs})\\ =\hatτ^{dif}

第三种理解方式——极限

使用导数解出来τ*

最后一步是因为无混杂假设,E(Yi(1)Wi=1)=E(Yi(1))E(Y_i(1)|W_i=1)=E(Y_i(1))

如何引入X?

对于第三种理解:

εiε_i拆成(XiμX)β+ε~i(X_i-μ_X)β+\tildeε_i,多减一个μXμ_X是为了保证后面期望为0

推理完全没有要求X和Y是线性关系。

引入了X,方差比Neyman估计小了。

相当于比较σY2σ_Y^2σYX2σ^2_{Y|X}

利用全方差公式:

Var(Y)=E(Var(YX))+Var(E(YX))Var(Y)=E(Var(Y|X))+Var(E(Y|X))


因果推断导论笔记-Lecture4-Regression Methods for Completely Randomized Experiments
https://bebr2.com/2022/10/17/因果推断导论笔记-Lecture4-Regression Methods for Completely Randomized Experiments/
作者
BeBr2
发布于
2022年10月17日
许可协议