统计数据分析-1

统计分析的领域划分:

统计分析分为统计描述和统计推断;统计描述容易理解,描述所研究对象的样本、总体的统计学特征,分布特征或者概率特征;统计推断则包含了假设检验和总体估计,是基于随机获取的样本来推断试图研究的总体的一系列统计学特征。

关于统计检验,以下内容绝大部分摘自知乎和微信,作为知识卡片留存:

1.$H_0$假设
也称零假设(null hypothesis),是在假设检验中被用来检验的假设,一般是我们希望能被推翻的假设。通常表述为“……是……”、“两总体没有差异”或“……无效”。比如,“总体身高的均值是1.75m”,这就是一个零假设。随便提一句,正因为有了零假设,我们才拥有了进行深入验证的数字基础,比如这里我们假设总体身高的均值是1.75,从而我们才可以利用这个1.75进行一系列运算。

2.$H_1$假设
也称备择假设(alternative hypothesis)。它与零假设相互对立,比如“总体身高的均值不是1.75m”。两个假设结合起来,我们就获得了一个完整的判断,拒绝零假设就自然接受备择假设。

3.小概率事件
一般指概率小于等于0.05的事件,并且认定其在一次试验中基本上不会发生。

4.P值
P比较的对象,$\alpha$=0.05称为显著性水平,是该假设检验设置的一个固定值,也可以是0.01或者0.1,通常为0.05,这个值是由人为设置的,并不具备绝对正确性。“犯错概率”指的是出现极端事件的概率,即P值大小。该假设检验规定当零假设为真时出现该事件的概率(p值)低于5%显著性水平时,拒绝零假设。

还是以身高为例子,我们的零假设是:总体身高均值为1.75,此时是单样本检验,我们计算了统计量,得到了一个P值是0.002。这时,P的意思是,在零假设成立的情况下,出现“身高为1.75”这件事情的概率只有0.002,这是一个极端概率,几乎不可能出现。反过来理解就是,如果零假设正确,那么我们只有0.002的概率抽到样本的身高均值是1.75,既然已经是小概率事件,我们可以“合理认为”这是不可能发生的,因此是零假设出了问题,则我们拒绝零假设“总体身高均值为1.75”,采用被择假设“总体身高不为1.75”,而且该结论具备统计学上的显著性。

但是注意上面的表述,一个很有意思的反向思考,既然我们拒绝了原假设,那我们这里能不能这样说呢:在被择假设成立的前提下,我们只有0.002的概率抽到的样本身高均值为1.75?

那肯定不行,这是两个完全不同意思,统计检验是一个固定路线:在零假设成立的情况下,我们得到多大的概率在样本中发现零假设事件。如果是小概率,那么拒绝零假设,如果不是小概率则接受零假设。此时检验已经完成,得到的结果是接受或者拒绝零假设,而不能重新回去说”在被择假设成立的前提下,balabala“。也即,一切的前提都是零假设,如果更换了零假设,那么整个后面的计算过程都要跟着换掉。

为什么呢?

因为这涉及到统计量的计算,至少在均值的假设检验上,我们其实并不是比较的$\overline X$和$\mu$是否直接相等,而是比较的$\overline X$-$\mu$ = 0是否在统计上成立;由于中心极限定理的应用,我们知道均数的分布能够近似于正态分布,由此可以计算t统计量,但是如果假设是“总体身高不为1.75”,那这就不确定了,这不能对应一个唯一的结果,总体身高不为1.75意味着可能大于1.75,也可能小于1.75,那么就没法构建要检验的对象了,而且拒绝这个原假设也没有意义,因为即便你拒绝1.75,仍然不能够说“接受备择假设,样本的身高均值1.75与总体一致”这个结论,因此这样的假设检验就没有意义。所以,原假设一定要能够导出唯一的结论,也即原假设和备择假设一定要是非此即彼,相互对立且完备的。

说完了统计推断和 最关心的P值,先不说具体的统计量怎算,先来看看假设检验过程中可能出现的两种错误:第一类错误和第二类错误。

上面已经说了,我们最后的衡量就是P,而P本身是一个概率,那么,既然是概率,本身就有可能出现偏倚的问题,也即,即便理论上P很小,符合小概率时间,但我们的样本就是有可能抽到。由此产生抽样带来的错误。

第一类错误。统计学上把原假设$H_0$为真而拒绝原假设称为犯了第一类错误。

看一个计算简单的例子。比如,某公司生产的100台手机里有5台是次品,所以次品率就是5%,这是总体的性质。但质检团队事先不知道这个信息,于是需要通过假设检验来验证。

首先,质检团队假设次品率不超过5%(即$\alpha<0.05$),那么可以认为,在一次抽样中是抽不到次品的(统计学中小概率事件的定义:概率小于5%的事件被认为在一次试验中不会发生)。然后,团队对样本进行抽样检查,当随机抽取一个手机来验证假设时,由于总体里面确实是存在次品,谁也无法保证绝对就抽不到次品。所以,现实中恰好就抽中了一个次品(抽中的概率是5%),那么根据假设检验的原理,在这种场景下就会下结论:“在只有5个次品的情况下,一次抽样我们认为是抽不到次品的,但现在我们真实地就抽到了次品,于是,我们拒绝次品率不超过5%的假设,怀疑这100台手机里的次品超过5台。”

很明显,他们犯错了,而犯错的概率就是那5个次品在总体中所占的比例:在原假设为真的情况下,仍有5%的可能性抽中次品,所以犯错的概率也就是5%。因为只要抽中次品,我们就会拒绝原假设,拒绝原假设,我们就犯了第一类错误:$H_0$实际为真而拒绝$H_0$,所以,此时犯错的概率就等于抽中次品的概率。

类似的,如果我们人为地规定低于5%的事件是小概率事件,在一次试验中不会发生,那么我们就注定了会有5%的可能性犯错,因为人为规定的那些小概率事件在现实中是可能发生的,而发生的概率就是我们规定的5%。因此一类错误的概率的最大允许的概率就是$\alpha$,没错,就是那个假设检验里最常见的$\alpha$,而我们计算出来得到的p值就是一类错误当前的实际概率。正因为如此,为了尽量减少一类错误发生的可能,我们就习惯于减小显著水平或者得到尽可能小的p值,从0.05减小到0.01乃至0.001,但是不管怎么减小,肯定不可能完全避免,同时这会增加第二类错误的概率。

第二类错误,统计学上把在$H_0$为假时但没有拒绝$H_0$称为犯了第二类错误。

仍然用上述例子进行说明,唯一变化的是现在100个手机中实际有10个次品,即同样的$H_0$假设(次品率不超过5%)现在变成假了。于是,质检团队仍先假设这100台手机中次品小于5个(H0),一次抽样,如果获得了一个正品,根据刚才同样的推断,就说现在还不能拒绝$H_0$,可以默认里面的次品数低于5个。同样地,他们又犯错了,因为实际上的次品有10个,即$H_0$是假的,理论上需要拒绝$H_0$可他们没有。

那他们犯这个错误的概率是多大呢?90%,这是个非常大的概率。这其中的逻辑是,在这个检验中,他们要做出正确的判断就需要拒绝$H_0$,而拒绝$H_0$需要他们一次抽样就抽中次品,因为次品个数是10个,正品是90个,所以,只要他们抽中正品就会犯错,因而犯错的概率就是抽中正品的概率,即90%。在这个例子中,他们只有10%(次品率)的可能性不犯第二类错误,这个数值常称为“检验功效”。结合这个例子,“检验功效”也就很好理解,就是防止犯第二类错误的概率,即这个检验有效的概率:在$H_0$为假拒绝$H_0$的可能性。

因此,第一类错误和第二类错误实质上是一个跷跷板,如果我们要方便地减少第一类错误,那么就要降低显著性标准,从0.05降低为0.01、0.001,但是如果这样做,我们就会增大第二类错误的出现的概率。而如果不降低显著性,那么就又会出现第一类错误概率较高的问题。

因此,最佳解决方案,是增大样本量,形象的解释,无论是第一类错误,还是第二类错误,实际上都是因为我们从总体中抽取到了不合适的样本而出现的,第一类错误对应的是我们恰好抽取到了极端的样本分布(就是正态分布里两侧的狭小分布),第二类错误则是因为抽到了H0对应的“错误总体”和实际总体之间重叠的那部分样本导致的。而增大样本量带来的结果就是,样本分布会变得细长,因而两侧的分布会变小,既使得进一类错误对应的两侧的狭小区域变小,又能使得样本分布与“错误分布”之间重合的部分变小,进而同时降低第一类和第二类错误出现的概率。

但是无论如何,我们只能降低概率,而无法完全避免概率事件的发生。也即,一类和二类错误无法避免。

在统计实践中,通常优先考虑控制显著性,其次才会考虑样本量对于二类错误的避免问题,而且因为很多实际性的问题,无限增大样本量不可取,因此才会有在某种可信度下,“最低样本量”计算的问题。

了解了统计检验的基本框架,下面就是具体怎么进行统计应用。

首先,是假设检验:

假设检验的统计学方法无论看上去多么奇怪,归根到底就是无非就是为了比较样本和总体、样本和样本之间的差距究竟是因为采样这个过程出现的,还是因为二者对应的总体有本质的不同,由于总体的性质,抽样方法,指标的设置产生了很多衍生类型,但常用的也就那几种。

最最最常见的,最实用的,t检验

t检验是参数检验,适用于来自正态分布,或者近似正态分布,总体方差未知的“小”样本与总体、样本与样本之间的均值的检验。

从定义可知t检验的适用范围,首先是总体要是正态分布,如果总体不是正态分布则需要进行矫正或者非参数检验;其次,则是t检验适用于小样本,具体来说,如果样本数小于30则适用于t检验;然后就是总体方差要是未知的,如果总体方差已知,则直接使用U/Z检验即可。

这里有个小细节,虽说t检验是适用于样本<30的均数检验,但实际应用中,在样本>=30时常见的也是直接用了t检验,因为实际上,总体是正态分布这个条件是很难满足的,但是应用大数定理和中心极限定理的时候认为,在样本量较大的时候,分布可近似为正态分布,由此认为样本量大于30的时候就能直接用z检验,但实际上,如果确实发现总体是正态分布,用z检验是没什么问题,但实际不太可能,一般都是近似正态分布,由此则直接满足了t检验的条件,而且无需对检验进行矫正,因此在样本量>=30的时候的均数检验反而能够更直接地使用t检验。

t检验一般有4种类型:

  1. 单样本均值检验(One-sample _t_-test)用于检验 总体方差未知、正态数据或近似正态的 单样本的均值 是否与 已知的总体均值相等

  2. 配对样本均值检验(Dependent _t_-test for paired samples)用于检验 一对配对样本的均值的差 是否等于某一个值

  3. 两独立样本均值检验(Independent two-sample _t_-test)用于检验 两对独立的 正态数据或近似正态的 样本的均值 是否相等,这里可根据总体方差是否相等分类讨论

  4. 回归系数的显著性检验(t-test for regression coefficient significance)用于检验 回归模型的解释变量对被解释变量是否有显著影响

第一种最简单,为了比较一次抽样的样本,能否代表某个总体,样本均数是否与总体均数相等,则进行单样本的t检验。

步骤分为4步:

  1. 确定原假设,判断检验形式,选择检验方法:根据实际情况,设定原假设,选择正确的检验方法,这里已经预设了,单样本的t检验;
  2. 确定检验水平,比如$\alpha$<0.05,确定检验是单边还是双边,通常直接使用单边即可,但如果有专业知识能够确定,为了加强检验效果,则应当使用单边检验;
  3. 计算/列出总体和样本所需要的统计量,在这里主要是均值,样本数,自由度,样本方差;
  4. 计算t统计量,查表查表确定结果,接受或者拒绝原假设。

这里主要问题在计算上,在单样本t检验中,我们需要计算的主要是:(latex真难打)

总体均值:一般是直接给出的;记为$\mu_0$

样本数:一般也是直接给出,记为n

样本均数:需要计算,记为$\overline X$ = $\frac{\sum_{n=1}^nx_n}{n}$

样本方差:需要计算,记为$S$ = $\sqrt{\frac{\sum(X_i - \overline X)^2}{n - 1}}$

由此,即可以构建t统计量:

t = $\frac{\sqrt{n}(\bar X - \mu)}{S}$ ~ t( $n - 1$ )

其中$n - 1$就是自由度,计算得到t统计量之后,就能够通过自由度、t统计量进行查表,得到此条件下的p值,然后将p与$\alpha$进行比较,从而得出接受或者拒绝原假设的结论。

这是一种很简单的t检验的形式,一般一眼即明,无非也就是需要注意如果总体的标准差已知则需要采用Z检验,如果总体不符合正态分布则应当采用非参数检验。