因果推断导论笔记-Lecture1-The Neyman-Rubin Framework
这门课终于手选成功了!之前立flag手选成功就要做好笔记,而且现在觉得统辅的笔记需要记录下来整理好,不像专业课在之后会时时用到,像上学期学的多元和回归都忘光了(
Introduction
因果推断的难点
相关性 + 前后顺序 ≠ 因果,例如公鸡打鸣->太阳升起
因果也不是“相关”的更强结论:采矿工人的平均寿命与普通人几乎相同(在数据上看不出相关性,问题出在采矿工人本身就是年富力强的人)。
但在一定的假设下,可以从相关认识因果。
因果推断的目的
1.关系:存在性、关系网。
2.因果作用:两个变量之间的因果关系的强弱。
3.发生因果的机制(其他学科的内容)
Data collection
观察性数据、实验性数据。
观察性数据的获取更难。
框架
两套:统计学的Neyman-Rubin框架,计算机的Robins框架
Neyman-Rubin Framework
条件概率P(Y | X)是因果吗?
- 因果是对比,同一个个体(unit)在不同原因(action)下的不同结果。
- 而条件概率,X=1和X=2时,已经是不同的范围了。
定义
Unit:可以理解为个体。
Action:a manipulation, treatment or intervention that can be potentially applied to a unit . 例如吃药等。本课重点关注二元的Action,即treatment和control。
The key idea is that causality is tied to an action applied to a unit.
而把结果Outcome视为映射的结果,这种结果称为潜在结果(potential outcome),在action和unit确定的情况下,潜在结果固定。
因果效应定义为两种潜在结果的比较:或
S
Challenge & Solution
真实世界只能看到一个潜在结果,也就是说,我们注定会缺失数据。
个体的处理之间可能有关系,比如两位病人、分别是否吃阿司匹林,那么共有4种处理,导致了有4种潜在结果,导致了有6种比较。
因此增加假设/约束 SUTVA:
-
No Interference:个体间没有干涉,即
注意,这不是说处理相同,个体不同则结果相同!!之前理解错了,是各不相同的。
-
No Hidden Variations of Treatments:处理只有明确的两种,即。
SUTVA是关于Action和Potential outcomes的假设。
Q : 潜在结果是随机变量吗?
不是,映射本身不具有随机性,这里先认为潜在结果是确定的,随机性来自于action的选择。(随机变量是样本空间到实数轴的映射)
分配机制
示意如图,有p的概率为0,有1-p的概率为1.
分配机制是否合理会直接导致结果是否正确。