因果推断导论笔记-Lecture1-The Neyman-Rubin Framework

这门课终于手选成功了!之前立flag手选成功就要做好笔记,而且现在觉得统辅的笔记需要记录下来整理好,不像专业课在之后会时时用到,像上学期学的多元和回归都忘光了(

Introduction

因果推断的难点

相关性 + 前后顺序 ≠ 因果,例如公鸡打鸣->太阳升起

因果也不是“相关”的更强结论:采矿工人的平均寿命与普通人几乎相同(在数据上看不出相关性,问题出在采矿工人本身就是年富力强的人)。

在一定的假设下,可以从相关认识因果。

因果推断的目的

1.关系:存在性、关系网。

2.因果作用:两个变量之间的因果关系的强弱。

3.发生因果的机制(其他学科的内容)

Data collection

观察性数据、实验性数据。

观察性数据的获取更难。

框架

两套:统计学的Neyman-Rubin框架,计算机的Robins框架

Neyman-Rubin Framework

条件概率P(Y | X)是因果吗?

  • 因果是对比,同一个个体(unit)在不同原因(action)下的不同结果。
  • 而条件概率,X=1和X=2时,已经是不同的范围了。

定义

Unit:可以理解为个体。

Action:a manipulation, treatment or intervention that can be potentially applied to a unit . 例如吃药等。本课重点关注二元的Action,即treatment和control。

The key idea is that causality is tied to an action applied to a unit.

而把结果Outcome视为映射的结果,这种结果称为潜在结果(potential outcome),在action和unit确定的情况下,潜在结果固定。

因果效应定义为两种潜在结果的比较:YtYcY_t - Y_cYt/YcY_t / Y_c
S

Challenge & Solution

真实世界只能看到一个潜在结果,也就是说,我们注定会缺失数据。

个体的处理之间可能有关系,比如两位病人、分别是否吃阿司匹林,那么共有4种处理,导致了有4种潜在结果,导致了有6种比较。

因此增加假设/约束 SUTVA:

  1. No Interference:个体间没有干涉,即Yi(t)=Yi(ti)Y_i( \vec{t})=Y_i(t_i)

    注意,这不是说处理相同,个体不同则结果相同!!之前理解错了,YiY_i是各不相同的。

  2. No Hidden Variations of Treatments:处理只有明确的两种,即Yi(ti){Yi(t),Yi(c)}Y_i(t_i)∈\{Y_i(t),Y_i(c)\}

SUTVA是关于Action和Potential outcomes的假设。

Q : 潜在结果是随机变量吗?

不是,映射本身不具有随机性,这里先认为潜在结果是确定的,随机性来自于action的选择。(随机变量是样本空间到实数轴的映射)

分配机制

示意如图,WiW_i有p的概率为0,有1-p的概率为1.

分配机制是否合理会直接导致结果是否正确。


因果推断导论笔记-Lecture1-The Neyman-Rubin Framework
https://bebr2.com/2022/09/22/因果推断导论笔记-Lecture1-The Neyman-Rubin Framework/
作者
BeBr2
发布于
2022年9月22日
更新于
2022年9月29日
许可协议