分布,分位数,密度与随机生成
R中提供一个模板的函数体,用于快速生成和访问各种数据统计分布的各种属性。
函数体范式为
[do_what]distribution_name
前面的部分,代表你想获取分布的什么属性,后面代表分布类型,取值范围如下:
do_what:
d:density,代表取密度函数
p:distribution function,代表取分布函数曲线下面积
q:quantile function,代表取分位数函数对应的分位点值
r:random,代表生成随机数
distribution_name:
norm:正态分布
exp:指数分布
binorm:二项分布
chisq:非中心卡方分布
sigrank:wilcoxon符号秩分布
nbinorm:负二项分布
t、f、beta:t、F、beta分布
…
分布类型很容易能够获取到,基本统计学中全部的基础分布都有,而且基本都是对应的英文的前面几个字符,非常容易查询。
因此,现在再来看我们最常见的一个生成正态分布随机数的函数:
rnorm
是不是就很容理解它干了啥,就是r+norm
所有的对分布的操作函数都遵循该组合原则。
再看:
qnorm(0.975),代表取正态分布的0.975分位点值是多少;
pnorm(1.96),代表取正态分布分布函数x=1.96左侧的曲线下面积
因此,对于任何统计分布,我们都能通过R的base来检查其性质,直观地观察其曲线形状!
样本量估计
说是样本量估计,其实真正想得到的是“有xx%的把握,观察Y样本能获得统计学显著的表现。”这个结果。
与样本量相关的因素很多,刨去运气因素,样本量是严格可估计的,凡是一开始压根不考虑这个问题的实验设计都是辣鸡,统计检验即便显著,把握度也可想而知,简单说就是懂得都懂。
一般而言,在进行计算时,样本量与如下因素有关:
1.研究对象本身出现的概率,概率越低,需要的理论样本量越大,这个容易理解;
2.研究因素的有效率,有效率越高,所需要的样本量越小,有效率可以理解为效应组和空白组的指标差异,这个也容易理解。
3.约定的检验水平$\alpha$,$\alpha$本身既是显著水平,也是I类错误的概率,这个水平要的越小,需要的样本量越大。
4.二类错误概率$\beta$:$\beta$直接关系到检验效能($1 - \beta$),这个值希望越小,样本量需要的越大。
5.总体信息:包括总体的一些指标,如果有历史数据,则一般以此为总体,否则一般需要进行推断,这个推断的误差也和需要的样本量有关。
6.容许误差$\delta$,即处理组之间,处理组和总体之间统计量的天然误差,如果需要越小的容许误差,则需要更大的样本量。
7.检验方法:关系到选择什么分布,进行什么检验,单边还是双边,检验什么统计量;
综上可以看到,如果希望对统计量进行计算或者估计,则需要选择和统计量相关的因素才能进行衡量,因此,一般选择四个因素:
$\alpha$、$\beta$、总体信息和容许误差。
样本量,显著性水平,检验功效和效应值这四个统计基本量紧密相连,只需要知道三个即可计算第四个,因此通常我们的选择是保持一个可接受的显著性水平,一个可接受的效应值和把握度,来确定合适的样本量,由此达到统计和成本的均衡。
R的pwr包就能够干这件事情,所以理论上,我们做的一些分析都是应该经受这个包的检查的,看来的确,平时的分析非常不严谨,所以研究水平也就一般。
甚至,有这个包理论上是能够对实验设计进行直接分析的,特别是组学的实验,通常用公用数据时样本量是已知的,检验方式也是已知的,那我们理论上是能够通过这个包来计算我们有多大把握能达到什么显著性水平的。