R方差分析

最关键的关注点:

1.因素

打算研究的自变量到底是什么。简单的例子,打算研究药物A、B、C对于治疗癌症是否有显著的疗效,现在打算进行细胞实验,就是随机选了一些癌细胞培养,然后将药物加入其中,测量细胞的生长速率是否受到抑制。

这里,我们最关心的,就是药物类型对生长速率到底有没有显著影响,基本所有的实验设计最终都能转换成这么一句话,A(BCDE…..)对于xxxx(研究对象)有无影响。

因此,所谓因素,绝大多数都是自变量,当然,如果有必要,协变量或者交互因素在实际分析的时候也会被视为因素。

但是,在说到实验设计的时候,肯定是“理想化”的主因素。

2.水平

要知道水平,必须首先确定因素。确定了因素后,因素有多少种相互独立的类型,就说有多少水平,通常因素被记为大写字母,水平则用数字脚标表示。

例如上面的例子,药物ABC,则药物这个因素有三个水平,这意味着只有药物类型这样一个指标在发生变化,因此通常记为药物因素A有三个水平:A1、A2、A3

但是,如果我们加一个因素,癌症类型B,我们打算对三种癌症,研究三种药物对细胞生长速率是否有显著影响,那么我们现在就有了两个因素,药物类型A和癌症类型B,它们各有三个水平,记为A1、A2、A3以及B1、B2、B3,此时我们做的,就是双因素的方差分析(简单来说)。

3.随机化

随机化,实质上是一个思想,或者标准,意味着在实验设计和进行过程中,需要确保不同组间的样本是随机分布的,即确保不同组间的影响结局的变量是均匀相近的,最后确保不同组间具有可比性。

通常,随机化的方法有简单随机化,分层随机化和区组随机化。还有一些动态随机化的方法。

这里只说最常用的一些随机化方法:

1.简单随机化

最最常用的随机化,基本就是利用一些日常的随机化方法,例如抛硬币、随机数、抽签等方法,将实验材料进行完全随机的区分。

例如,按照生日的尾数单数和双数将病人分为AB两组,然后分别使用不同的疗法,探究对某疾病的疗效。这就是一种最简单的随机化方法。

但是,很显然,这样可能会导致一个最简单的结果:两组的人数不统一,这是简单随机化的大弊端,但是,如果在设计的实验组上,用这种方法来进行分组还是挺合适的。

2.分层随机化

3.区组随机化