Page 1 of 1

偏差和方差可以用以下例子

Posted: Mon Mar 24, 2025 7:52 am
by roseline371274
统计理论通过两个概念来平均评估这种误差,分别是偏差和抽样方差。假设我们通过应用给定的采样方法,连续且独立地抽取大量样本,并计算与获得的不同样本相关的不同估计值的平均值:该平均值与感兴趣的参数之间的数值差异称为采样偏差。可以定义第二个指标来测量与样本相关的估计值围绕其平均值的变化。

这就是抽样方差,它越大,产生数值上远离平均值的估计值的风险就越大。(图 1)简单地说明 :当向目标投掷飞镖时,飞镖的撞击部分是由偶​​然因素引起的。如果投掷的不同飞镖和谐地围绕目标的中心,那么我们就进行了“无偏”射击 。如果飞镖大多位于镖盘的右上角(举例来说),则存在偏见。此外,如果射击是成组的,也就是说如果飞镖几乎都位于目标上的同一点附近,则差异就 赌博数据 会很小。另一方面,如果我们发现飞镖散布在目标各处,则方差就会很高。调查统计员的主要目标显然是得出偏差和抽样方差尽可能小的估计值。

图 1 – 偏差和方差
图例:目标涵盖了所有可能的估计。目标的中心代表真实值。每个红点代表一个估计值,对应一个特定的样本。
抽样框架对于避免偏差至关重要
公共统计样本是由称为抽样框架的信息系统产生的。实际上,这些文件列出了构成调查范围的人口中的所有个人,并提供了找到和联系他们所必要的和充分的信息(例如,自然人的姓氏、名字和地址或电话号码)。抽样框架(几乎)总是包含描述个体的其他信息。因此,对于家庭和个人调查,INSEE 目前使用基于税收数据来源的称为“住房和个人人口统计文件”(Fidéli)的抽样框架。该数据库包含丰富的个人信息,包括家庭和个人的某些社会人口统计特征(年龄、性别、家庭人数等。