理论上,哪种研究必须考察协变量的混杂性?
- RE
- OBS
答案:是只有OBS。问题的意思是找到某些X使得在X下W和Y独立,而随机试验中W已经是随机分配的了,已经是和Y独立了。
Design
是在看到Y之前进行的。研究W的分布。
Goal:Valid Inference
Rule:1)Inference Precision:higher、better
2)Valid Range:longer、better
下面三步是一个循环。
0.估计倾向得分
见上节课。
1.Assessing Covariate Balance
How difference are the two distribution?
- 单变量Xi的比较(这里的X应该指的是某一个维度的协变量)(优点:model free):
![除以2的意思是不需要很精确,两个分布相似就行了](/img/article_content/2022-11-14/0.png)
![](/img/article_content/2022-11-14/1.png)
-
总体X的比较,马氏距离(倾向得分本身就体现了协变量的重要性差异,依赖倾向得分的估计,这部分是model的):
![](/img/article_content/2022-11-14/2.png)
![l_hat的意思是样本均值](/img/article_content/2022-11-14/3.png)
p=EWi=P(Wi=1)P(Wi=1∣Xi=x)=E(Wi∣Xi=x)=e(x)所以p=E(e(x))
![](/img/article_content/2022-11-14/4.png)
ftE(e)=f(e(X)=e∣Wi=1)
由上节课知道在e(X)下,W和X是独立的。
所以P(Wi=1∣e(Xi)=e)=P(Wi=1∣e(Xi)=e,Xi=x)=P(Wi=1∣Xi=x)=e(x)=e
![](/img/article_content/2022-11-14/5.png)
由上面的引理得到:
![](/img/article_content/2022-11-14/6.png)
Whether exists similar units?
能不能找到对照?
![](/img/article_content/2022-11-14/7.png)
可能要考虑舍弃一些数据。
2.Improving Balance
如果评估失败,需要平衡。
Trimming
修整:
![](/img/article_content/2022-11-14/8.png)
![每个个体算倾向得分,然后从0-1排列画图如上](/img/article_content/2022-11-14/9.png)
注意这里的倾向得分计算是用那个逻辑回归模型估计的,输入X得到倾向得分。
Blocking
Trimming切完之后内部也可能不均衡
![](/img/article_content/2022-11-14/10.png)
![每次用中位数切,直到t值不超过1或者样本量过小](/img/article_content/2022-11-14/11.png)
![](/img/article_content/2022-11-14/12.png)
![在单个层内是否均衡](/img/article_content/2022-11-14/13.png)
![多个层](/img/article_content/2022-11-14/14.png)
![QQ图的例子](/img/article_content/2022-11-14/15.png)
Matching
找1个相似还是M个相似,选择过程是不是无放回?(即,已经被选走的能不能被别人选走)。
![](/img/article_content/2022-11-14/16.png)
Analysis
Analysis based on Blocking
blocking处理后估计的结果是不是无偏的?
期望
关心E(τ^dif−τfs∣X)是否为0。(简化了,不是τsp)
![无分层的时候,是有偏差的](/img/article_content/2022-11-14/17.png)
第一步第一项哪来的:
E(Nt1i=1∑NWiYi(1)−N1i=1∑NYi(1)∣X)=E[E(Nt1i=1∑NWiYi(1)−N1i=1∑NYi(1)∣X,W)]=E(Nt1i=1∑NWiYi(1)−N1i=1∑NYi(1)∣X,Wi=1)P(Wi=1)+E(Nt1i=1∑NWiYi(1)−N1i=1∑NYi(1)∣X,Wi=0)P(Wi=0)
上式的第一项:
=E(Nt1i=1∑NYi(1)−N1i=1∑NYi(1)∣X)⋅NNt=E(Nt1i=1∑NYi(1)−N1i=1∑NYi(1)∣Xi)⋅NNt=NtNNci=1∑NE(Yi(1)∣Xi)⋅NNt=NNcE(Yi(1)∣Xi)
第二项就比较容易算了。
结果有偏(完全随机化试验下结果也一样,但这个平均差是0,所以无偏)。
分层后:
![](/img/article_content/2022-11-14/18.png)
线性模型假定下:
![](/img/article_content/2022-11-14/19.png)
![这张图不太理解,用回归修正偏差](/img/article_content/2022-11-14/20.png)
如果真实模型不是线性模型,使用回归法调整是否还有帮助?
是。如果是高阶的ΔY=f(ΔX),也能用Taylor展开。
方差
![](/img/article_content/2022-11-14/21.png)
![](/img/article_content/2022-11-14/22.png)
引入回归,不仅可以减少偏差,还能减少方差。(因为ε拆出了Xβ出来)
![](/img/article_content/2022-11-14/23.png)
和Weighting方法的比较
![右边例子是假设第一个个体在j组,且在处理组](/img/article_content/2022-11-14/24.png)
也就是说Blocking是更粗的Weighting方法,用所在层的平均倾向得分e(j)来代替,而不是个体的倾向得分。
Blocking的优点就是更稳定,而Weighting是无偏的。
Analysis base on Matching
![](/img/article_content/2022-11-14/25.png)
配对的顺序、配对的度量方法是很有影响的。
![](/img/article_content/2022-11-14/26.png)
有放回的匹配:
偏差会变小,方差会变大。
![](/img/article_content/2022-11-14/27.png)
反过来就是
![](/img/article_content/2022-11-14/28.png)
![修正偏差](/img/article_content/2022-11-14/29.png)
![](/img/article_content/2022-11-14/30.png)