相关性能预测未来,但只有因果能决定未来
《原因与结果的经济学》
为什么要讲究因果?因为只有因果才能决定未来
可能在相关性盛行的大数据时代,因果关系也成为了一种稀缺
但科学研究一直提倡的是因果🤔 可以从数据中的规律出发,找寻因果关系(相关性 $\Rightarrow$ 因果)
与此同时,经济学中还有个流派——从公理出发,经过一顿操作(逻辑推演),得到相应的结论。
或许这是“研究范式”的不同吧。按照邓小平爷爷的“猫论”,研究成果能造福人类就好。
本文是《原因与结果的经济学》的读书笔记,全书主要分为两大部分:1是提出因果推理并强调“反事实”是其必经之路;2是例举一些构建“反事实”的方式方法
因果推理
两个变量的关系是否真的是因果关系?解答这个问题所需的思维方法便是“因果推理”。
而判断因果关系有三个要点:
- 是否“纯属巧合”;
- 是否存在“第三变量”
- 是否存在“逆向因果关系”
两个变量之间为因果关系时才能画如上图中的实线指向箭头,原因指向结果
而推翻以上三点的方法便是 对现实和“反事实”进行对比
反事实是指对过去未曾发生的事实所做的假设,例如“如果当时没有……,那么……”。我们将现实中实际发生的事称为“事实”,所以将设想的与现实完全相反的情况称为“反事实”。
这方面比较好操作的便是自然科学领域的各种实验了,比如这根试管加 xxx,另一根试管不加 xxx,观察两者之间的差异,验证假设之类的
但到了人文社科领域,要想像自然科学领域做实验,可谓是 “噫!吁嚱…”
所以作为因果科普文的《原因与结果的经济学》所介绍的方法也是有很多被challenge的地方。
后面的章节便是按照“证据等级”排序介绍了相应构建“反事实”的方法,与事实进行对比,进而判断因果关系
如何构建“反事实”
说到这个不禁想起硕士导师和我说过的话,只有实验才能得因果关系
至于构造“反事实”的方式方法,书中也简单罗列了几点
但不得不说,人文社科领域要想完全的像自然科学的实验那样严谨是比较难的,毕竟有时候个体之间也很难保持独立,即互相之间是会有影响的。
所以呢,CB(consumer behavior)以及心理学相关领域在评判学术文章时,除了idea 之外,还会看实验设计的是否巧妙。
此时针对此次实验研究(问卷形式)收集的数据便是“一手数据”,而非此次实验研究目的收集的那种便是“二手数据”。比如研究涉及电商评论,现有电商平台的评论数据对于我们的研究而言便是二手数据。
后续采取相应的分析方法常见有两种:一种是基于线性回归的 Conditional Process Analysis;另一种就是结构方程。可根据数据形式灵活采取相应的方法。
业界的增益
20世纪末美国陆陆续续将统计模型引入信贷领域风控业务1,贯彻“数据驱动”的理念,一直沿袭至今。从早些年基于 logistics回归的评分卡到现在的“GBDT”树类模型,但均未涉及因果。
在目前中国政府进一步压缩借贷利率上限的背景下,对风控业务而言便需要更加精细化的管理,在基于相关性搜寻风控策略的基础上进一步探究产生信用风险的因果关系,在总用户被压缩的情况下,在风险可承受范围内,进一步提高“进水口处”的“进水量”(/批核率/通过率)。
所以,在工具方面,是不是可以尝试或探究下“因果推断” 🤔