因果推断导论笔记-Lecture3-Fisher's Exact P-Values & Neyman's Repeated Sampling Approach for Completely Randomized Experiments

本课针对的是完全随机化试验。

完全随机化试验

Completely Randomized Experiments

NtN_t事先指定,随机抽样NtN_t个受处理,剩余的NcN_c个受控制。

Fisher’s Exact P-value ( FEP )

本质上是非参的方法,选择统计量有较高的自由度。

需要解决缺失数据的问题。

  1. 平均因果作用的假设是H0:τfs=0H_0: τ_{fs}=0,而这里提出的更强(sharp)的假设是H0:Yi(0)=Yi(1)H_0: Y_i(0)=Y_i(1),对任意的i。

  2. 统计量Stat:T(W,Yobs)=Tdif=YˉtobsYˉcobsT(W,Y^{obs})=T_{dif}=|\bar{Y}_t^{obs}-\bar{Y}_c^{obs}|

  3. 枚举所有可能的W,然后算每一种W的TdifT_{dif},算P-Value(例如真实观测到的统计量是1,在所有可能的W中统计量大于等于1的占比就是P-Value,意思是:How unusual or extreme is the observed test statistics assuming the null hypothesis is true?)

零假设

零假设的构造方法有很多种:

统计量

选择合适的统计量,看功效,下图这些都是非参的。

对于rank,例如有两个最小的值,那这两个值的排名就都是1.5(因为两个排名相加等于3,为了对称性就直接除以2)

下面是两个参数的,和一个非参的。参数比非参在合适范围内的功效更高。

参数模型给错了,FEP方法还有效吗?(先不谈功效)

还是有效的。算出来的P值还是对的,也能算出统计量,只是功效可能很小。

P值的计算

组合数是非常庞大的。

我们是要求P(T>Tobs)=E1{T>Tobs}P(T>T^{obs})=E\bold{1}_{\{T>T^{obs}\}}

由大数定律,可以采样来估计这个值:

p^=1Kk=1K1Tdif,kTdif,obs\hat{p}=\frac{1}{K}\sum_{k=1}^{K}\bold{1}_{T^{dif,k}≥T^{dif,obs}}

由中心极限定理CLT,方差为p(1p)/K1/2K\sqrt{p^*(1-p^*)/K}≤1/2\sqrt{K},所以选择适当的K就可以了。

局限性

  1. 协变量X没有参与
  2. 点估计τ^\hatτ和区间估计CI未知。

扩展

  1. 引入协变量

还可以用除法,或者回归:

  1. CI有三种,称为BFF:

τ∈[1.0 , 3.8],置信区间confidence I,也就是区间是动的,100次实验有95%次能覆盖真实的τ。这是频率学派。

τ∈[1.0 , 3.8],可信区间credible I,也就是τ是动的,而区间是定的。这是贝叶斯学派。

H0:Yi(1)=Yi(0)+CH_0:Y_i(1)=Y_i(0)+C。这个听不太懂。。。。Fiducial Interval。这是信念学派。

Neyman’s approach

Goal: τfs=1ni=1N(Yi(1)Yi(0))τ_{fs}=\frac1n\sum_{i=1}^N(Y_i(1)-Y_i(0)),这是一个客观存在的但未知的参数。称为Estimand,没有随机性。

Estimatior:τdif=YˉtobsYˉcobsτ^{dif}=\bar{Y}^{obs}_{t}-\bar{Y}^{obs}_{c}随机变量,估计量。

τdif=i=1NWiYi(1)Nti=1N(1Wi)Yi(0)Ncτ^{dif}=\frac{\sum_{i=1}^{N}W_iY_i(1)}{N_t} - \frac{\sum_{i=1}^{N}(1-W_i)Y_i(0)}{N_c}

另一种形式

是一个无偏估计:

区间估计

先找方差的理论值。

直观上,VarW(τ^dif)Var_W(\hatτ^{dif})和什么有关?

Var(τ^dif)=Var(iYi+Wi)Var(\hatτ^{dif})=Var(\sum_iY_i^+W_i)

Di=WiEWiD_i=W_i-EW_i

=E[(iYi+Di)2]=i(Yi+)2E(Di2)+ijiYi+Yj+E(DiDj)=E[(\sum_{i}Y_i^+D_i)^2]\\ =\sum_i(Y_i^+)^2E(D_i^2)+\sum_i\sum_{j≠i}Y_i^+Y_j^+E(D_iD_j)

其中E(Di2)=Var(Wi)=NtNcN2E(D_i^2)=Var(W_i)=\frac{N_tN_c}{N^2}

E(WiWj)=P(Wi=1,Wj=1)=NtNNt1N1E(W_iW_j)=P(W_i=1,W_j=1)=\frac{N_t}{N}\frac{N_t-1}{N-1}

E(DiDj)=E(WiWj)E(Wi)E(Wj)=NtN(Nt1N1NtN)=NtNcN2(N1)E(D_iD_j)=E(W_iW_j)-E(W_i)E(W_j)=\frac{N_t}{N}(\frac{N_t-1}{N-1}-\frac{N_t}{N})=-\frac{N_tN_c}{N^2(N-1)}

最终结果,太累了不手打了,(这个结果有点错误)

分解的结果:

Neyman假设了Stc2S_{tc}^2为0,即每个个体的因果作用都相同。

Y(1)和Y(0)正相关,估计的方差更大。

直观上分析,我们只能观测到部分数据,看这个图就知道了。

推导:

方差的两种优化以及置信区间

方差相等的情况

这是假设所有个体的因果效应一致,那么StcS_{tc}项就等于0了。

用相关系数来表示:

上面两种情况都是精确的计算公式,StS_tScS_c都可以用样本方差来估计(这里的比较是基于“是否有上帝视角看到平行世界”这个角度。StS_tScS_c是这个有限总体的精确方差,而分配机制使得我们需要用样本方差来估计),但是StcρtcS_{tc},ρ_{tc}是估计不了的(连一个完整数据都没有),因为要对同一个个体得到Yi(0)Y_i(0)Yi(1)Y_i(1)。所以做了一些假设和放缩,来估计方差。这会导致方差的估计变大,即CI变大:

如果St2=Sc2S_t^2=S_c^2

注意下面全换成V^\hat{V}了,不一样的。S也替换成s了。

对相关系数进行放缩

估计

前文小写是分配机制后的,大写是上帝视角的,但这里又换了过来

很奇怪,因为觉得大写的才是“样本的”,才是分配机制后的才对啊。。。

有时间把过程补上:

EW(St2)=E[1Nt1iWi(Yi(1)Yˉtobs)2]=st2E_W(S_t^2)=E[\frac1{N_t-1}\sum_iW_i(Y_i(1)-\bar{Y}_t^{obs})^2]=s_t^2

置信区间

方差估计的总结

valid是指需要达到名义上的α,比如,至少覆盖住“95%”。

effective是指相同α下CI尽可能短:

第二个"无假设"说法有误,应该是"所有个体因果效应一致时"

为什么这里第二个说更精确呢?因为这里s是pooled了的,样本更大。

两种方法的检验


因果推断导论笔记-Lecture3-Fisher's Exact P-Values & Neyman's Repeated Sampling Approach for Completely Randomized Experiments
https://bebr2.com/2022/10/11/因果推断导论笔记-Lecture3-Fisher's Exact P-Values & Neyman's Repeated Sampling Approach for Completely Randomized Experiments/
作者
BeBr2
发布于
2022年10月11日
更新于
2022年10月17日
许可协议