hga030皇冠welcome hga030皇冠welcome hga030皇冠welcome

模型统计模型22因果分组和虚拟变量

Grouped and Pseudo-Regression 分组数据的回归

并非所有数据点都是平等的。如果我们再次查看我们的 ENEM 数据集,我们会更相信大学校的分数而不是小学校的分数。这并不是说更大的学校更好或其他什么,只是它们更大的规模意味着更少的差异。

sql语句分组统计数量_统计分组的作用为_简述统计分组的作用

在上面的数据中,凭直觉,左边的点对我的模型的影响应该比右边的点小。从本质上讲,右边的点实际上是许多其他数据点组合成一个。如果我们可以拆分它们并对未分组的数据进行线性回归,那么它们确实会比左侧的未捆绑点对模型估计的贡献更大。

这种同时具有一个低方差区域和另一个高方差区域的现象称为异方差性。简而言之,异方差性是指因变量的方差在各特征变量的取值范围内不是恒定的。在上面的例子中,我们可以看到因变量方差随着特征样本量的增加而减小。再举一个我们有异方差的例子,如果你按年龄绘制工资,你会发现老年人的工资差异大于年轻人的差异。然而,到目前为止,不同方差的最常见原因是分组数据。

像上面这样的分组数据在数据分析中很常见。原因之一是保密。政府和公司不能泄露个人数据,因为这会违反他们必须遵守的数据隐私要求。如果他们需要将数据导出给外部研究人员,他们只能通过对数据进行分组来完成。通过这种方式,个体被组合在一起,不再是唯一可识别的。

对我们来说幸运的是,回归适用于这些类型的数据。为了了解如何,让我们首先获取一些未分组的数据,例如我们的工资和教育数据。在这些数据集中,每个工人对应一行数据,所以我们知道这个数据集中每个人的工资以及他或她受教育的年限。

sql语句分组统计数量_简述统计分组的作用_统计分组的作用为

如果我们运行回归模型来找出教育程度与对数小时工资之间的关系,我们会得到以下结果。

统计分组的作用为_简述统计分组的作用_sql语句分组统计数量

现在,让我们暂时假设此数据具有某种机密性限制,并且其提供者无法提供个性化数据。所以我们让他把每个人按受教育年限分组,然后只给我们平均对数小时工资和每组人数。这让我们只有 10 个数据点。

sql语句分组统计数量_简述统计分组的作用_统计分组的作用为

不要害怕!回归不需要大数据就可以工作!我们可以做的是为我们的线性回归模型提供权重。这样,模型将更多地考虑样本量较大的组而不是样本量较小的组。请注意我如何用 smf.wls 替换 smf.ols 以获得加权最小二乘法。一种新的方法可以使一切变得不同,即使它不容易被注意到。

sql语句分组统计数量_简述统计分组的作用_统计分组的作用为

请注意,分组模型中 edu 的参数估计值与未分组数据中的完全相同。此外,即使只有 10 个数据点,我们也设法获得了具有统计显着性的系数。这是因为,虽然我们的点数较少,但分组也会大大减少方差。另请注意,参数估计的标准误差越来越大,t 统计量也是如此。那是因为丢失了一些关于方差的信息,所以我们必须更加保守。一旦我们对数据进行分组,我们就不知道每组内有多少方差。将上面的结果与我们使用下面的未加权模型得到的结果进行比较。

统计分组的作用为_sql语句分组统计数量_简述统计分组的作用

参数估计值相对较大。这里发生的是回归对所有点应用相同的权重。如果我们沿着分组点绘制模型,我们会看到未加权模型对左下角的小点施加了比应有的更多的权重。因此,该模型的回归线具有更高的斜率。

归根结底,回归是处理单个数据或聚合数据的绝佳工具,但在最后一种情况下,您必须使用权重。要使用加权回归,您需要均值统计量。不是总和,不是标准差,不是中位数,而是均值!这是针对自变量和因变量完成的。除了对单个自变量进行回归的情况外,对分组数据进行加权回归的结果不会与对未分组数据进行回归的结果完全匹配,但会非常相似。

sql语句分组统计数量_简述统计分组的作用_统计分组的作用为

我将以在分组数据模型中使用附加自变量的最后一个示例结束。

简述统计分组的作用_统计分组的作用为_sql语句分组统计数量

在此示例中,除了我们之前添加的受教育年限之外,我们还包括 IQ 作为一项功能。操作机制几乎相同:取均值并计数,回归均值并使用计数作为权重。

虚拟变量回归

虚拟变量是我们编码为二进制列的分类变量。例如,假设您有一个要包含在模型中的性别变量。该变量被编码为 3 类:男性、女性和其他性别。

性别

男性

女性

女性

其他

男性

由于我们的模型只接受数值,因此我们需要将此类别转换为数字。在线性回归中,我们为此使用虚拟变量。我们将每个变量编码为 0/1 列,表示存在一个类别。我们还将其中一个类别设为基本类别。这是必要的,因为最后一个类别是其他类别的线性组合。换句话说,如果有人给我们关于其他类别的信息,我们就可以知道最后一个类别。在我们的例子中,如果某人既不是女性也不是其他性别,我们可以推断这个人的班级是男性。

性别 女性 其他

男性

女性

1个

女性

1个

其他

1个

男性

在处理 A/B 测试时,我们已经处理了一种简单形式的虚拟回归。更一般地说,当我们处理二元处理时,我们将其表示为虚拟变量。在这种情况下,该虚拟变量的回归系数是回归线中截距的增量,或者处理和未处理之间的均值差异。

为了更具体地说明这一点,请考虑估计高中毕业(12 年级毕业)对小时工资的影响的问题(让我们暂时忽略混杂因素)。在下面的代码中,我们创建了一个处理虚拟变量“T”,指示受教育年限是否大于 12。

sql语句分组统计数量_统计分组的作用为_简述统计分组的作用

虚拟变量用作一种开关。在我们的示例中,如果虚拟变量的值为 1,则预测值是截距加上虚拟变量对应的系数。如果虚拟变量的值为 0,则预测值就是截距。

sql语句分组统计数量_简述统计分组的作用_统计分组的作用为

在这种情况下,当此人未完成 12 年级(虚拟变量为 0)时,平均收入为 19.9。当他或她完成 12 年级(虚拟变量为 1)时,预测值或平均收入为 24.8449 (19.9405 + 4.9044)。因此,虚拟系数反映了均值的差异,在我们的例子中为 4.9044。

用更正式的术语来说,当因变量是二元的时,如干预指标的情况统计分组的作用为,回归完美地捕捉了 ATE。这是因为回归是条件期望函数 (CEF) 的线性近似,在这种特殊情况下是线性的。即,我们可以定义 和 ,这导致以下 CEF

是随机数据的均值或 ATE 的差值

如果我们使用额外的变量,虚拟变量系数将是条件均值的差异。例如,假设我们将 IQ 添加到之前的模型中。现在,虚拟系数告诉我们在保持智商不变的情况下,12 年级的学生应该期望提高多少。如果我们绘制预测图,我们将看到两条平行线。从一行跳到下一行代表我们高中毕业后平均期望获得的收入。而且,这种差异效应是恒定的。也就是说,无论你的智商如何,每个人都可以平等地从高中毕业中受益。

如果我们将这个模型放入一个方程中,我们可以明白为什么:

这里,是均值的条件差,它是一个常数值,在我们的例子中是 3.16。我们可以通过添加交互项使该模型更加灵活。

统计分组的作用为_sql语句分组统计数量_简述统计分组的作用

事情变得有点复杂,所以让我们看看每个参数在此模型中的含义。第一,拦截。对于这个坏小子,没有特别有趣的解释。这是待遇为零(此人未从12年级毕业)且智商为零时的期望薪水。由于我们不希望任何人的智商为零(实际上……这无关紧要),因此该参数没有多大意义。现在,当我们转向时,我们有类似的情况。这个参数是当我们完成 12 年级**当智商为零**时我们应该期望加薪多少。话又说回来,由于智商永远不会为零,因此它没有特别有趣的含义。现在,它有点有趣。它告诉我们智商增加了多少**未治疗**的工资。所以,在我们的例子中,它大约是 0.11。这意味着每增加 1 个 IQ 点,未完成 12 年级的人应该期望每小时增加 11 美分。最后,最有趣的参数是。它告诉我们智商对 12 年级毕业有多大影响。在我们的例子中,这个参数是 0.024,这意味着对于每一个额外的 IQ 点,从 12 年级毕业给予 2 美分。这可能看起来并不多,但将智商为 60 的人与智商为 140 的人进行比较。第一个将获得 1.44 (60 * 0.024) 的加薪,而智商为 140 的人将在 12 年级毕业时额外获得 $3.36 (60 * 0.024)。这意味着对于每一个额外的智商点,从 12 年级毕业给予 2 美分。这可能看起来并不多,但将智商为 60 的人与智商为 140 的人进行比较。第一个将获得 1.44 (60 * 0.024) 的加薪,而智商为 140 的人将在 12 年级毕业时额外获得 $3.36 (60 * 0.024)。这意味着对于每一个额外的智商点,从 12 年级毕业给予 2 美分。这可能看起来并不多,但将智商为 60 的人与智商为 140 的人进行比较。第一个将获得 1.44 (60 * 0.024) 的加薪,而智商为 140 的人将在 12 年级毕业时额外获得 $3.36 (60 * 0.024)。

在简单的建模术语中,这个交互项允许治疗效果根据特征水平(在这个例子中只是智商)而变化。结果是,如果我们绘制预测线,我们将看到它们不再平行统计分组的作用为,并且 12 年级 (T=1) 毕业的人的智商斜率更高,高智商比低智商受益更多。这有时被称为效果修改或异构处理效果。

最后,让我们看看模型中所有变量都是虚拟变量的情况。为此,我们将 IQ 离散化为 4 个 bin,并将受教育年限视为一个类别。

sql语句分组统计数量_统计分组的作用为_简述统计分组的作用

简述统计分组的作用_sql语句分组统计数量_统计分组的作用为

统计分组的作用为_简述统计分组的作用_sql语句分组统计数量

把教育作为一个范畴来对待,我们不再将教育的效果局限在一个参数上。相反,我们让每一年的教育都有其独特的影响。通过这样做,我们获得了灵活性,因为教育的影响不再是参数化的。该模型简单地计算每一年教育的平均工资。

统计分组的作用为_简述统计分组的作用_sql语句分组统计数量

首先,请注意这如何消除了关于教育如何影响工资的函数形式的任何假设。我们不再需要担心处理对数函数。本质上,这个模型是完全非参数的。它所做的只是计算每一年教育的样本平均工资。这可以在上图中看到,其中拟合线没有特定的形式。取而代之的是对每一年教育的样本均值进行插值。我们也可以通过重新格式化参数来看到这一点,比如 17 年教育水平的分组。对于此型号,它是“9.5905”。下面,我们可以看到基线教育年限 (9) 和 17 年教育水平的个体之间的差异

权衡是,当我们允许这种更大的灵活性时,我们同时失去了统计意义。请注意某些教育年限的 p 值有多大。如果我们在模型中包含更多虚拟协变量,则教育参数将成为对每个虚拟组影响的加权平均值:

它不是常数,而是与样本组中干预因素的方差成正比,即。由此自然产生的一个问题是,为什么不使用组权重为样本大小的完整非参数估计器呢?这确实是一个有效的估计量,但这不是回归所做的。通过使用干预因素的方差,回归对样本之间干预差异很大的组赋予更多权重。这是直观的。如果干预几乎不变(例如,1 人接受治疗而其他人未接受治疗),则其样本量无关紧要。它没有提供太多关于干预效果的信息。

统计分组的作用为_sql语句分组统计数量_简述统计分组的作用

关键思想

我们从查看某些数据点如何比其他数据点更重要开始本节。也就是说,在估计一个线性模型时,应该给样本量越大、方差越小的样本更多的权重。然后我们检查线性回归如何优雅地处理分组的匿名数据,前提是我们在模型中使用样本权重。

之后,我们继续讨论虚拟回归。我们看到了如何将虚拟回归设计为非参数模型,这是一种不假设干预如何影响结果的函数形式的模型。最后,我们探讨了虚拟回归背后的直观含义。

资源