R方差分析

最关键的关注点：

1.因素

打算研究的自变量到底是什么。简单的例子，打算研究药物A、B、C对于治疗癌症是否有显著的疗效，现在打算进行细胞实验，就是随机选了一些癌细胞培养，然后将药物加入其中，测量细胞的生长速率是否受到抑制。

这里，我们最关心的，就是药物类型对生长速率到底有没有显著影响，基本所有的实验设计最终都能转换成这么一句话，A(BCDE…..)对于xxxx(研究对象)有无影响。

因此，所谓因素，绝大多数都是自变量，当然，如果有必要，协变量或者交互因素在实际分析的时候也会被视为因素。

但是，在说到实验设计的时候，肯定是“理想化”的主因素。

要知道水平，必须首先确定因素。确定了因素后，因素有多少种相互独立的类型，就说有多少水平，通常因素被记为大写字母，水平则用数字脚标表示。

例如上面的例子，药物ABC，则药物这个因素有三个水平，这意味着只有药物类型这样一个指标在发生变化，因此通常记为药物因素A有三个水平：A1、A2、A3

但是，如果我们加一个因素，癌症类型B，我们打算对三种癌症，研究三种药物对细胞生长速率是否有显著影响，那么我们现在就有了两个因素，药物类型A和癌症类型B，它们各有三个水平，记为A1、A2、A3以及B1、B2、B3，此时我们做的，就是双因素的方差分析（简单来说）。

随机化，实质上是一个思想，或者标准，意味着在实验设计和进行过程中，需要确保不同组间的样本是随机分布的，即确保不同组间的影响结局的变量是均匀相近的，最后确保不同组间具有可比性。

通常，随机化的方法有简单随机化，分层随机化和区组随机化。还有一些动态随机化的方法。

这里只说最常用的一些随机化方法：

最最常用的随机化，基本就是利用一些日常的随机化方法，例如抛硬币、随机数、抽签等方法，将实验材料进行完全随机的区分。

例如，按照生日的尾数单数和双数将病人分为AB两组，然后分别使用不同的疗法，探究对某疾病的疗效。这就是一种最简单的随机化方法。

但是，很显然，这样可能会导致一个最简单的结果：两组的人数不统一，这是简单随机化的大弊端，但是，如果在设计的实验组上，用这种方法来进行分组还是挺合适的。