常用统计学基本知识

五月 26, 2014 数理统计 por DeanGao

前言

这里主要介绍下基本的统计知识以及如何利用Excel及其它工具进行具体的数据分析,主要是结合实际情况,讲解各种分析方法的实际意义,希望对大家平时实验数据的分析有一定的帮助。个人能力有限,如果大家发现有不容易理解的或者错误的地方,请及时反馈( gaowenhui2012@gmail.com ),后面还会陆续更新些其它的统计知识。下面也列举了网上已经有的一些参考资料,比如:

728915243186942831_副本

这里附上对应的pdf文件:统计基本知识.pdf

  1. Excel 数据分析图解:http://blog.sina.com.cn/s/articlelist_1298777923_0_1.html
  2. 统计基础知识:http://xmujpkc.xmu.edu.cn/tongjixue/sub05.html
  3. 加载excel数据分析工具: http://www.itongji.cn/article/092G1392012.html
  4. 箱线图-异常值http://wiki.mbalib.com/wiki/%E7%AE%B1%E7%BA%BF%E5%9B%BE
  5. 多重比较方法选择及表示方法http://www.360doc.com/content/10/1130/13/4853420_73694845.shtml
  6. 多重比较 http://blog.sciencenet.cn/blog-438230-567230.html
  7. 多重比较http://wenku.baidu.com/view/10b96f7102768e9951e738b3.html
  8. SPSS方差分析与多重比较http://zhibao.swu.edu.cn/epcl/spss/anova/anova_1.html
  9. 多重比较字母表示法 http://hualiushuai.blog.sohu.com/174931714.html

一、标准差与标准误

意义

标准差与标准误的意义、作用和使用范围均不同。标准差(亦称单数标准差)一般用s 表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误一般用Sx 表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。

样本标准差:1

样本平均数的标准误:2

 EXCEL 计算步骤

函数

在用EXCEL计算标准偏差中:STDEV,STDEVA,STDEVP函数功能和区别
1.STDEV:用途:估算样本的标准偏差。它不计算文本值和逻辑值(如 TRUE 和 FALSE)。它反映了数据相对于平均值(mean)的离散程度。

2.STDEVP:用途:返回整个样本总体的标准偏差。它反映了样本总体相对于平均值(mean)的离散程度。

  1. STDEVA :基于样本估算标准偏差。标准偏差反映数值相对于平均值 (mean) 的离散程度。文本值和逻辑值(如 TRUE 和 FALSE)也将计算在内。

简单说函数stdev的根号里面的分母是n-1,而stdevp是n,如果是抽样当然用stdev. 在十个数据的标准偏差如果是总体时就用STDEVP,如果是样本是就用STDEV。至于STDEVA与STDEV差不多,只不过它可以把逻辑值当数值处理。
相对来说,STDEV用的比较多点。

图解

1.数据输入

3

2.公式

4

回车

5

标准误就可以根据上面的公式自己算下。

 

二、方差齐次性检验

意义

在进行后续的一些统计检验时,样本间的方差齐次性(即样本间方差是否显著相等)是部分检验的基础,所以应该先进行样本方差齐次性检验,根据检验结果再选取适当的方法进行后续的分析。此处采用的方法是F检验 —— 检验双样本的方差差异是否显著性(原假设是:两个样本的方差是没有显著差异的)

Excel计算方法

如何调出Excel数据分析工具,上面的网页有介绍,具体为先加载相应的模块(加载

excel数据分析工具 http://www.itongji.cn/article/092G1392012.html),再打开对应的窗口。菜单:数据-》数据分析弹出框。

6

 

7

8

9

从分析结果可以看出P值为0.0086<0.05,即拒绝原假设, 那么应该认为两组数据的方差是具有显著差异的,根据这个结果,如果在后面要比较两组数据的平均值是否有显著差异的话,那么应该选择异方差的双样本t检验。

多样本的方差齐次性检验有其它的方法,这里不做详细的介绍了,可以用R语言中的bartlett.test方法(后续会做出相应的网页供大家在线使用)。

三、剔除异常值

意义

在平时的实验数据采集过程中,有些数据相比于其它数据来说比较异常,过大或者过小,这种数据应该谨慎考虑,并不能简单的删除一些数据,这里就需要利用一些统计方法来判断异常值。现在假设实验数据的分布一般服从正态分布,这里利用正态分布的特性来剔除异常值。

在这种情况下,异常值是指一组测定值中与平均值偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。

10

Excel 计算方法

11

B2单元格这样输入公式,后面下拉单元格填充公式, 这里4000就是异常值,也可以设置2倍的标准差。

四、t检验

意义

t检验主要是比较均值是否显著相同,分不同的情况,但是原理都是一样的。主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。对于样本容量大(n>30)、总体标准差已知的有对应的Z检验来处理。

 单个样本的t检验

目的:比较样本均数所代表的未知总体均数μ和已知总体均数μ0

适用条件:

(1) 已知一个总体均数;

(2) 可得到一个样本均数及该样本标准误;

(3) 样本来自正态或近似正态总体。

实例:已知样本量n=35、样本均值为3.42、样本标准差S=0.40,现在得知一般的婴儿出生体重μ0=3.30,问样本的均值是否和一般均值显著相同。

配对样本t检验

配对设计:将受试对象的某些重要特征按相近的原则配成对子,目的是消除混杂因素的影响,一对观察对象之间除了处理因素/研究因素之外,其它因素基本齐同,每对中的两个个体随机给予两种处理。

  • 两种同质对象分别接受两种不同的处理,如性别、年龄、体重、病情程度相同配成对。
  • 同一受试对象或同一样本的两个部分,分别接受两种不同的处理
  • 自身对比。即同一受试对象处理前后的结果进行比较。
  • 适用条件:配对资料

目的:判断不同的处理是否有差别

实例:100棵树2年前和2年后的树高是否有显著差异

双样本t检验

比较任意两组数据(样本数可以不相同)间均值是否显著差异

实例:两个班的平均成绩是否具有显著差异

 t检验中的单尾(单侧)与双尾(双侧)的区别

单侧在t检验中具体为判断μ1 > μ2 或者μ1 < μ2,双侧为判断μ1 = μ2

实例:判断同一群孩子的平均身高在两年的时间里是否具有显著的增高,这时应该采取单尾t检验即判断μ1 < μ2;同样,比较两个班平均成绩时可以采取双尾t检验(判断平均成绩是否显著相等时)或者单尾检验(判断某个班的平均成绩是否显著高于或低于另外一个班的平均成绩)

 EXCEL 计算步骤

注:原则上一般是需要先进行两个样本的方差齐次检验(即两个样本的方差是否在统计学上相等),但我们一般是假设方差是齐次的(即相等的),不相等的情况下可以使用excel中t检验:双样本异方差假设。

单样本t检验一般较少使用,这里主要讲解下双样本的t检验(成对与不成对)

成对:(这里假设方差齐次)

12

13

14

看单尾和双尾的p值,都是小于0.05,所以是平均身高是显著差异的。

第二节所举例子中两样本的方差是不齐次的,要做t检验的话,应该选择数据分析中的“t-检验:双样本异方差假设”:

 15

16

17

不成对:

 18

19

20

看p值结论是两个班的平均成绩没有显著差异

 

五、方差分析

意义

目的:t检验可以比较单个样本的平均值是否与给定的总体平均值显著相等或者两个样本的平均值是否显著相等, 那么当我们要比较多个样本间(或者多组间)的平均值是否显著差异呢(不同组的平均值是否都相等,即u1=u2=u3=…=un),就需要方差分析。

在做方差分析时,严格意义上一般是要先检验各组间的方差是否齐次(方差是否显著相等),再做各组均值是否显著相等的检验,但是在实际中默认方差齐次。根据分析数据情况不同,分为单因素方差分析、无交互作用的双因素方差分析、有交互作用的双因素方差分析等(有无交互作用取决于先验知识或者统计检验结果)。

方差分析的假定条件为

(1)各处理条件下的样本是随机的。

(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。

(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。

(4)各处理条件下的样本方差相同,即具有齐效性。

单因素方差分析:

实例:比较8个班级的平均成绩是否都完全相等

有重复的双因素方差分析:

为了要验证交互作用是否显著,两个因素的每个组合至少要做2次重复。

实例:导弹在不同燃料(因素A)和不同推进器(因素B)下的射程是否具有显著差异(每种组合重复三次),以及是否有交互作用存在。

 

无重复的双因素方差分析:

结合实际,确定没有交互作用后,就不必对每个组合进行重复试验。

实例:同上面的有重复的差不多,只是没有重复

EXCEL 计算步骤

单因素方差分析

21

22

23

P值为0.49>0.05 , 即接受原假设, 认为平均值没有显著差异

有重复的双因素方差分析(Excel默认检验交互作用)

24

25

26

由结果P值可以看出样本(即行:因素A)和交互作用显著,而列(因素B)不显著:即因素A 和两者的交互左右对指标有显著影响。

 

无重复双因素方差分析

附链接:http://xmujpkc.xmu.edu.cn/tongjixue/online/5/c6_4.htm

 

六、多重比较及其表示法

意义

目的:在上面的方差分析结果中,我们可以得到不同样本之间的平均值是否显著地都相同, 如果不相同的话, 进一步的工作就是找出具体哪些样本间的平均值有显著差异,并用合适的方法展示这些有显著差异的样本,这时不能直接使用t检验方法作两两间的比较,这里就需要方差分析后的多重比较。

多种比较有不同的方法,也各有优点和缺点,常见的有LSD法、q法、SSR法等。三种方法的显著尺度不同,LSD 法最低,SSR 法次之,q 法最高。故LSD 测验犯α错误的概率最大,q 法最小,SSR 法介于两者之间,因此,对于试验结论事关重大或有严格要求的,宜用q 法;一般试验可用SSR 法。

如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个或几个组间(和对照组)的比较,宜用Bonferoni(或LSD)法;若需要进行的是多个平均数间的两两比较(探索性研究),且各组样本数相等,宜用Tukey法,其他情况宜用Scheffe法。

 

SPSS计算方法

Excel中不能直接进行方差分析后的多重比较分析,这里介绍如何利用SPSS进行多重比较。

27

28

LSD方法结果

29

Mean Difference标 ’ 的组合为平均值具有显著差异

Duncan方法结果

30

Duncan方法多重比较比较表显著性差异差异的判读:在同一列的平均数表示没有显著性差异,反之则具有显著性的差异。例如,品种3横向看,平均数显示在第3列“2”小列,与它同列显示的有品种2的平均数,说明与品种2差异不显著(0.05水平),再往右看,平均数显示在第3列“3”小列,与它同列显示的有品种4的平均数,说明与品种4差异不显著(0.05水平)。则品种3与品种5和品种1具有显著性的差异(0.05水平)。

 

LSD法多重比较表明:

品种1与品种2、品种3和品种5之间存在显著性差异;
品种2与品种1和品种4之间存在显著性差异;
品种3与品种1和品种5之间存在显著性差异;
品种4与品种2和品种5之间存在显著性差异;
品种5与品种1、品种3和品种4之间存在显著性差异。

Duncan法多重比较表明:

品种5与品种3、品种4和品种1之间存在显著性差异。
品种2与品种4和品种1之间存在显著性差异;
品种3与品种5和品种1之间存在显著性差异;
品种4与品种5和品种2之间存在显著性差异;
品种1与品种5、品种2和品种3之间存在显著性差异;

 

多重比较字母表示法

如何在文章中表示多重比较的结果呢,主要是采取字母表示法。

操作步骤:

在实际应用时,一般以大写字母 A.B.C…… 表示α=0.01显著水平,以小写字母a.b.c……表示α=0.05显著水平。

1)将全部平均数从大到小顺序排列,然后在最大的平均数上标上字母a;
2)将该平均数依次和其以下各平均数相比,凡差异不显著的都标字母a,直至某一个与之相差显著的平均数则标以字母b。
3)再以该标有b的平均数为标准,与上方各个比它大的平均数比,凡不显著的也一律标以字母b;
4)再以当前标有b的最大平均数为标准,与以下各未标记的平均数比,凡不显著的继续标以字母b,直至某一个与之相差显著的平均数则标以字母c;
5)……如此重复下去,直至最小的一个平均数有了标记字母为止。
这样各平均数间,凡有一个标记相同字母的即为差异不显著,凡具不同标记字母的即为差异显著

实例:

胡乱编一个例子,假设差值大于10显著,小等于10不显著,则100与80显著,80与70不显著。

——————————————————————–

编号   均值   字母

1   100    a
2   80     b
3   79     b
4   78     b
5   70     bc
6   60      cd
7   50       d
8   30       e
9   29       e

100标a,
100与80显著80标b,
80与79不显著79标b,
80与78不显著78标b,
80与70不显著70标b,
80与60显著60标c,
60与70不显著70标c,
60与78显著78已经和60不同不标,
7050显著50d(编号5对应的70是当前标有c的,从这里开始,而不是编号6)
50与60不显著60标d,
50与70显著70已经和50不同不标,
60与30显著30标e
30与29不显著29标e

注: 后面我会陆续开发在线的网页,大家把数据提交上去, 就可以得到结果了,就不用安装SPSS了,但是还是建议大家安装下SPSS。

 

七、相关性分析

意义

相关性分析主要是分析两组数据之间是否存在着一定的相关性,以及如何去度量这种相关性。例如通常上一个公司的收入和一个公司的广告投入成正相关等。根据情况不同相关系数的计算也不同,这里主要讲的是两个变量间的简单相关系数。

 Excel及SPSS计算方法

Excel中可以进行简单的计算

31

32

33

结果为a 和 b间具有较强的正相关性。

Excel可以进行的简单相关性分析,但是并没有给出统计学上的一些检验假设结果,这里介绍几种其它的方法,如皮尔森相关系数、斯皮尔曼相关系数,以下以SPSS中皮尔森相关性分析为例:

step1:建立数据文件

34

Step2:进行数据分析:在spss最上面菜单里面选中Analyze——correlate——bivariate(双变量)

35

结果分析

36

这里结果表示T 和 G 具有高度的相关性,且P值很低。

原创文章,转载请注明: 转载自rabbit gao's blog
本文链接地址: 常用统计学基本知识