相关性通过测量变量共同变化的程度帮助我们找到因果关系。相关性并不意味着因果关系;变量共同变化的原因可能不止一个,而是一个变量影响另一个变量。但是,如果两个变量相关,且两个变量都不影响另一个变量,我们可以得出结论,一定有第三个变量同时影响这两个变量。这个变量被称为混杂变量。当我们看到相关性时,我们确实知道存在一个原因——它可能只是一个我们尚未弄清楚的混杂变量。 我们如何利用关联数据?让我们考虑一个非 示例。 有证据表明,怀孕期间偶尔饮酒的女性生下的孩子比不饮酒的女性更聪明,社交能力也更好。
相关性很明显,但因果关系却不清楚。如果变量之间存在因果关系,那么少量饮酒会使孩子更聪明。如果这是一个混杂变量,少量饮酒可能没有影响,甚至会使孩子的智力略低(这是通过推断怀孕期间大量饮酒会使孩子的 伯利兹数字数据 智力大大降低的数据得出的)。 尽管这些相关性很有趣,但它们并不是行为需要改变的黑白证据。人们需要考虑哪种解释更合理:因果解释还是混杂变量解释。为了使类比简单化,我们假设只有两种可能的解释——一种是因果解释,一种是混杂变量解释。因果解释是酒精使母亲压力减小,这有助于未出生的婴儿。 混杂变量解释是性格较为放松的女性在怀孕期间更有可能饮酒,而且压力不太可能对孩子的智力产生负面影响。
鉴于此,由于相关证据,我可能更有可能在怀孕期间喝酒,但还有一个更大的结论:这两种可能的解释都与压力有关。因此,由于有关饮酒的相关证据,我会努力避免压力大的情况。* 这个类比清楚吗?我建议,作为 ,我们应该像孕妇考虑饮酒一样对待相关性统计数据 谨慎行事,但不要有太大压力。 *尽管我是一名才华横溢的程序员,并在 行业工作,但请不要听从我的医疗建议,请注意,我为了简单起见解释了可能的解释 关于数据和方法的一些说明 在选择分析 的方法时,我们有两个目标: 选择能够传达最有意义的数据的测量方法 使用其他人可以轻松理解和复制的技术 这些目标有时会发生冲突,但我们通常会选择最常用的方法,并且仍然符合我们的问题。