数据和统计学常识

数据的几种本质用途

监控、验证、决策

伯克松悖论selection bias和辛普森悖论confounding bias

伯克送悖论:本质就是样本选择不够随机(幸存者偏差)

点击查看伯克送悖论的例子 ->

辛普森悖论:本质就是存在一个干扰因子(unmeaseured confunder),而这个干扰因子在实验组和控制组之间的分布不相似,造成了用干扰因子分组后的分组结果和总体结果不一致👉解决方法就是控制干扰因子:a.用干扰因子分组,看分组结果 b.赋予每一个样本一定的权重,使得赋权后的干扰因子在实验组和控制组之间的伪分布相似。

点击查看辛普森悖论的例子 ->


完全随机试验CRD(Completely Randomized Design)和随机区组实验RCB(RCB Randomized Complete Blocking)

CRD和RCB是什么

CRD可以理解为互联网经常使用的AB Test,即做一个完全随机分流的实验,就能知道一个功能/策略效果的好坏了。

但是在我们做了很多AB test的实验后,我们会发现结果不显著,这时候我们就可以用RCB来下钻。

举一个例子,当我们上线a策略,发现CRD之后效果不显著,但是我们不想浪费这次实验的效果,我们就可以对人群进行下钻,我不需要在所有人群上都显著,只要在某一类人群显著的话就OK了,这样这个功能就有用。所以我就尝试去把人群再划分为“活跃人群”和“沉默人群“,在不同的人群里去做比较,发现”活跃人群“的实验组和对照组数据有显著的差异,因此我可以把这个a策略只上线给活跃用户。

所以我们可以理解为,RCB就是在CRD的基础上进行分类/下钻,本质是其实是贝叶斯的思想,即当获取到一个额外的信息时,能对结果进行更准确地推断,从而提高核心变量的统计值,让结果更显著。

怎么找到下钻的分类指标呢?

1.基于业务知识去下钻;2.可以用多个指标跑一个随机森林等算法,然后用shapley value、feature importance等机制来找到对预测结果贡献最大的几个指标进行下钻



常用的三大检验:t/z检验,F检验,卡方检验

两个总体参数检验:t/z检验(需满足正态分布)

  • t和z检验的差异:

    • 个人理解z分布其实是t分布衍生而来的,t分布由三个参数组成:自由度、离散程度(方差)、均值,也就是说每一个自由度都会有自己的t分布,在这种情况下,算每一个自由度的t分布就真的很麻烦,于是统计学家为了简便,就人为的(也可以说是根据中心极限定理)设置了n>=30为大样本,且大样本时t分布趋近于标准正态分布(z分布),于是大样本时就可以用z分布来代替t分布了。同时,根据大数定理,大样本时样本方差可以作为总体方差的无偏估计,因此即使方差未知,也可以用z分布来验证假设检验;

    • 观察一下t分布的图形,就会发现当自由度(n-变量数)比较小时,t分布会比z分布扁平,也就是比较保守。这是因为当n比较小时,用样本均值去估计总体均值参数,误差会比较大,所以要用比较保守的t分布。但是如果我们能知道总体方差这个参数时,我们就能不需要用样本的方差去估计总体的方差,又因为统计量的本质其实是总体均值参数和样本均值之间的偏离程度,我们知道总体方差参数,知道样本均值,就能知道在样本均值的Z分布(均值为样本均值,方差为总体方差)中,总体均值参数相对于样本均值的偏离程度,所以我们可以用z统计量;综上:大样本时用z统计量,已知总体方差时用z统计量,小样本+未知总体方差时用t统计量。

  • t检验的实际应用

    • 单样本t检验:用于比较一组数据与一个特定数值之间的差异情况。

    • 配对样本t检验:用于检验有一定对应关系的样本之间的差异情况。

    • 独立样本t检验:用于检验独立的两组样本之间的差异情况。

*tip:t和z的选择,其实可以一直用t统计量,反正1.比较保守 2.t分布在自由度较大的时候趋近于z分布

*统计量本质:在样本均值的Z分布中,总体均值参数相对于样本均值的偏离程度

*P value的本质:在接受H0的情况下,总体参数比现有样本均值还极端的概率

*大数定律讲的是样本均值收敛到总体均值,中心极限定理讲的是样本大的时候趋于正态分布

*正态性的检验方法有:正态图、正态性检验、P-P图/Q-Q图等。


多个总体参数的检验:F检验(需满足正态分布)

  • 跟t检验的差异:t检验适用于两个变量均数间的差异检验,多于两个变量间的均数比较要用F检验(又叫方差分析)。

  • F检验的实际应用

    • 单因素方差分析

    • 多因素方差分析


非参数检验:卡方检验(不需满足特定分布)

  • 卡方检验实际应用

    • 卡方优度检验:对一列数据进行统计检验,分析单个变量实际观测的比例与期望的比例是否一致。

    • 交叉表卡方:研究两组变量的关系,如性别与看不看直播是否有关系。

    • 配对卡方:研究实验过程中,用不同方法检测同一批人,看两个方法的效果是否有显著差异。

  • 实际中使用例子:如果要检验DAU的话,因为软件的DAU一般就不会服从正态分布,所以一般就要用卡方检验会更加符合统计科学。



假设检验中的各种概念

假设检验:是根据样本来推断总体的一些给定陈述是否成立的过程

第一类错误(type I error):拒绝了正确零假设

第二类错误(type II error):接受了不正确零假设

显著性水平(level of significance) : 拒绝了正确零假设的最大概率(事先给定)

检验功效(power) : 拒绝了不正确零假设概率

检验的p值:根据样本,在原假设成立的前提下,出现与样本相同或者更极端的情况的概率



常见的分布汇总

高斯分布:就是平时最常用的正态分布

伯努利分布

二项分布:二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

多项式分布:多项式分布(Multinomial Distribution)是二项式分布的推广。二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。把二项分布公式推广至多种状态,就得到了多项分布。

beta分布:beta的本质是概率的概率分布



协方差与相关系数的关系

相关系数就是标准化的协方差。

方差和标准差衡量的是一个变量(一组数据)的离散程度,也就是变量和均值之间的偏离程度。协方差衡量的是则是两个变量之间的相关性,协方差描述的是两个变量是否同时偏离期望值(或均值),偏离的方向相同就是正相关,偏离的方向相反就是负相关。





Always to be continued…

Previous
Previous

常见因果推断方法梳理

Next
Next

怎么设计月报指标体系 - 月报、周报、日报到底在解决什么问题?