变量选择方法(工具变量的选择必须满足的条件)

变量选择方法(工具变量的选择必须满足的条件)

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于工具变量,可以参看如下文章:1.内生性问题操作指南, 广为流传的22篇文章,2.看完顶级期刊文章后, 整理了内生性处理小册子,3.如何寻找工具变量?得工具者得实证计量,4.内生性处理的秘密武器-工具变量估,5.工具变量在社会科学因果推断中的应用,6.为你的”工具变量”合理性进行辩护, 此文献可以作为范例,7.没有工具变量、断点和随机冲击,也可以推断归因,8.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析,9.工具变量IV与内生性处理的精细解读,10.我的”工具变量”走丢了,寻找工具变量思路手册,11.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性,12.豪斯曼, 拉姆齐检验,过度拟合,弱工具和过度识别,模型选择和重抽样问题,13.工具变量先锋 Sargan,供参考,14.AEA期刊的IV靠不靠谱?,15.计量大焖锅: iv, clorenz, rank, scalar, bys, xtile, newey, nlcom,16.GMM是IV、2SLS、GLS、ML的统领,待我慢慢道来,17.IV和GMM相关估计步骤,内生性、异方差性等检验方法,18.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?,19.内生变量的交互项如何寻工具变量, 交互项共线咋办,20.面板数据、工具变量选择和HAUSMAN检验的若干问题,21.IV和Matching老矣, “弹性联合似然法”成新趋势,22.IV回归系数比OLS大很多咋回事, 怎么办呢?23.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献,24.找不到IV, RD和DID该怎么办? 这有一种备选方法,25.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS,26.内生性, 工具变量与 GMM估计, 程序code附,27.GMM和工具变量在面板数据中的运用,28.关于工具变量的材料包, 标题,模型,内生变量,工具变量,29.必须使用所有外生变量作为工具变量吗?30.工具变量精辟解释, 保证你一辈子都忘不了,31.毛咕噜论文中一些有趣的工具变量!32.为你的”工具变量”合理性进行辩护, 此文献可以作为范例,33.内生变量的交互项如何寻工具变量, 交互项共线咋办等等。

今天,我们引荐一份“如何通过因果图选择合适的工具变量?一份关于IV的简短百科全书”。

人员发现烟草税和健康状况是相关的,这可能被视为吸烟导致健康变化的证据。

三、选择合适的工具变量由于

是不可观测的,因此

独立于

的要求不能从数据中推断出,而必须从模型结构中确定。假设我们希望评估大学辅导对GPA的影响。参加辅导和GPA之间的关系可能被一些因素干扰,如参加辅导课程的学生可能更关心他们的成绩,或者在学习上有困难。图1-3通过辅导和GPA之间的双向弧线描述了这种干扰。

假设辅导地点在大学图书馆,距离可能导致学生花更多的时间在图书馆,进而提高他们的平均绩点,如图1所示。

在图2中,我们看到,距离不符合工具变量,因为它可通过以下路径与GPA产生联系:

。然而,如果我们通过把图书馆时间作为协变量来控制,那么距离就变成了一个工具变量,因为给定的图书馆时间下,距离与GPA是独立的。假设一个学生的“自然能力”影响了他在图书馆的时间和GPA,如图3所示,

。此时,距离就不能用作工具变量。

最后,假设图书馆的学习时间并不影响GPA,因为不在图书馆学习的学生在其他地方学习,如图4所示。在这种情况下, 控制图书馆的开放时间仍然会产生距离影响GPA的假象。然而,如果我们不控制图书馆的时间并将其作为协变量,那么距离又可以被用作工具变量。

六、工具变量估计量的解释上面的论述假设因果效应不随观察的不同而变化,即是一个常数。一般来说,不同的个体对“处理”x的变化会有不同的反应,因此x对y的变化在总体中的平均效应可能与在给定的子群体中的效应不同。标准IV估计值可以解释局部平均效果(LATE),而不是平均效果(ATE)。Imbens和Angrist(1994)证明,在弱条件下,线性IV估计量可以解释为局部平均效果的加权平均值,其中权重取决于内生回归变量对工具变量变化的弹性。这意味着IV估计量只解释了受到工具变量影响的子群体中变量产生的影响,且对工具变量的变化反应最大的子群体对估计量的影响最大。例如,如果一个研究者将赠地大学(政府资助的低学费大学)的存在作为大学教育对收入回归的工具变量,研究群体为如果存在大学就会获得学位,如果不存在大学就不会获得学位的人。在没有进一步假设的情况下,这种实证结果并不能告诉研究人员大学对于那些无论当地是否有大学都能获得或永远得不到大学学位的人的影响。七、潜在的问题如果工具变量与方程中的误差项相关,则工具变量估计通常是不一致的。另一个问题是由“弱”工具变量的选择引起的,这些工具变量在第一阶段回归中预测较差。因此,当它们被用来代替第二阶段方程中的问题预测变量时,它们得出的最终预测结果也较差。在上面讨论的吸烟和健康的例子中,如果吸烟状况在很大程度上对税收的变化没有反应,那么烟草税就是弱吸烟工具变量。如果更高的税收并没有促使人们戒烟(或不开始吸烟),那么税率的变化并没有告诉我们吸烟对健康的影响。如果税收通过影响吸烟之外的其他渠道影响健康,那么这些工具是无效的,可能产生误导的结果。例如,拥有相对健康意识的人群的地方和时期可能会实施高烟草税,甚至在保持吸烟率不变的情况下也会表现出更好的健康状况,所以我们可以观察到健康和烟草税之间的相关性,即使吸烟对健康没有影响。在这种情况下,我们将错误地根据烟草税和健康之间的相关性来推断吸烟对健康的因果影响。八、抽样性质和假设检验工具变量估计量只有期望的渐近性质,推断是基于估计量的抽样分布的渐近近似。即使当工具变量与被解释方程的误差不相关且工具变量不弱时,工具变量估计量的有限样本性质也可能较差。例如,恰好识别的模型产生没有矩的有限样本估计量,该估计量可以说既不偏也不无偏,t统计量的大小可能远离真实的参数值。九、工具变量的强度和过度识别的限制工具变量的强度可以直接评估,对于只有一个内生回归变量的模型,常见的经验法则是:在第一阶段回归中,被排除的不相关的工具变量的f统计量应大于10。工具变量与方程中的误差项不相关在恰好识别的模型中是无法检验的。而对于过度识别,最常见的检验为Sargan-Hansen检验,原理为:如果工具变量是外生的,那么残差应该与外生变量不相关。通过残差对外生变量集的OLS回归,可以计算出Sargan-Hansen检验的T*R平方统计量。在误差项与工具变量不相关的情况下,这个统计量将是m – k自由度的渐近卡方。

计量使用时间去均值变量(time-demeaned variables)来移除未观察到的效果。因此,如果解释变量中包括定常变量,那么FEIV估计的作用将是有限的。

长按以上二维码可以查看PDF版本

关于因果推断,我们引荐了①关于各种因果识别方法的120份经典实证文献汇总”,②哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code,③因果推断的统计方法总结, 177份文献,④政策评估的计量方法综述, 包括最新因果推断方法,⑤在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献,⑥看完顶级期刊文章后, 整理了内生性处理小册子,⑤工具变量精辟解释, 保证你一辈子都忘不了,⑦DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征,⑧关于双重差分法DID的32篇精选Articles专辑!⑨关于(模糊)断点回归设计的100篇精选Articles专辑!⑩匹配方法(matching)操作指南, 值得收藏的16篇文章等,??MIT广为流传的政策”处理效应”读本,??DID的研究动态和政策评估中应用的文献综述,??最新政策效应评估的四种方法,??政策效应评估的基本问题等。

1.用”因果关系图”来进行因果推断的新技能,2.因果推断专题:因果图,3.因果推断专题:有向无环图DAG,4.confounder与collider啥区别? 混淆 vs 对撞,5.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系,6.中介效应检验流程, 示意图公布, 不再畏惧中介分析,7.图灵奖得主Pearl的因果推断新科学,Book of Why?8.前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑!因果关系研究的图形工具!9.前沿: 卫星数据在实证研究中的应用, 用其开展因果推断的好处!10.7大因果推断大法精选实证论文, 可用于中国本土博士课堂教学!11.随机分配是什么, 为什么重要, 对因果关系影响几何?12.应用计量经济学现状: 因果推断与政策评估最全综述,13.疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用,14.Python做因果推断的方法示例, 解读与code,15.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS,16.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献等等。

Reference:Wikipedia,otheronline sources.

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

Econometrics Circle

数据系列:空间矩阵|工企数据|PM2.5|市场化指数|CO2数据|夜间灯光|官员方言|微观数据| 内部数据计量系列:匹配方法|内生性|工具变量|DID|面板数据|常用TOOL|中介调节|时间序列|RDD断点|合成控制|200篇合辑|因果识别|社会网络|空间DID数据处理:Stata|R|Python|缺失值|CHIP/ CHNS/CHARLS/CFPS/CGSS等|干货系列:能源环境|效率研究|空间计量|国际经贸|计量软件|商科研究|机器学习|SSCI|CSSCI|SSCI查询|名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

发表评论

登录后才能评论