❶ 什么是生物统计
生物统计(shengwu tongji,biostatistics,biometry,biometrics)含义 应用于中的数理统计方法。即用数理统计的原理和方法,分析和解释生物界的种种现象和数据资料,以求把握其本质和规律性。
发展简况
最早提出生物统计思想的是比利时数学家L.A.J.凯特莱,他试图把统计学的理论应用于解决生物学、医学和社会学中的问题。1866年,揭示了遗传的基本规律,这是最早运用数理统计于生物实验的一个成功的范例(见)。1889年,在《自然的遗传》一书中,通过对人体身高的研究指出,子代的身高不仅与亲代的身高相关,而且有向平均值“回归”的趋势,由此提出了“回归”和“相关”的概念和算法,从而奠定了生物统计的基础。高尔顿的学生K.皮尔逊进一步把统计学应用于生物研究,提出了实际测定数与理论预期数之间的偏离度指数即卡方差()的概念和算法,这在属性的统计分析上起了重要作用。1899年,他创办了《生物统计》杂志,还建立了一所数理统计学校。他的学生W.S.戈塞特对样本标准差作了许多研究,并于1908年以“Student”的笔名将t-检验法发表于《生物统计》杂志上。此后,t-检验法就成了生物统计学中的基本工具之一。英国数学家指出,只注意事后的数据分析是不够的,事先必须作好实验设计。他使实验设计成了生物统计的一个分支。他的学生G.W.斯奈迪格把变异来源不同的均方比值称为F值,并指出当值大于理论上 5%概率水准的值时,该项变异来源的必然性效应就从偶然性变量中分析出来了,这就是“方差分析法”。上述这些方法对于农业科学、生物学特别是的研究,起了重大的推动作用,20世纪20年代以来,各种数理统计方法陆续创立,它们在实验室、田间、饲养和临床实验中得到广泛应用并日益扩大到整个工业界。70年代,随着计算机的普及,使本来由于计算量过大而不得不放弃的统计方法又获得了新的生命力,应用更为广泛,并在现代科技中占有十分重要的地位。
❷ 生物统计附试验设计
第一章绪论
1.生物统计学的内容:统计原理、统计方法和试验设计。
2.生物统计的作用:a.科学地整理分析数据;b.判断试验结果的可能性;c.确定事物之间的相互关系;d.提供试验设计的原理。
3.样本容量常记为n,通常把n≤30的样本称为小样本,n.>30的样本称为大样本。
4.名解:(重)①生物统计:生物统计是应用概率论和数据统计的原理和方法来研究生物界数量变化的学科;
②总体:是被研究对象的全体,据所含的个体的多少,总体分为有限总体和无限总体。
③样本:是指总体内随机抽取出来若干个体所组成的单位。
④随机误差:由于许多无法控制的内在和外在的偶然因素所造成的误差,内在如个体差异,外在如环境,它影响试验的精确性。
(了)①参数:从总体计算出来的数量特征值,它是一个真值,没有抽样变动的影响,一般用平均数u,标准差s。
②统计量:是从样本计算出来的数量特征值,它是参数的估计值,受样本变动的影响,一般用拉丁字母表示,如平均数。
③系统误差:主要是试验动物的初始条件不同,试验条件相差较大,仪器不准,标准试剂未经校正,药品批次不同,药品用量与种类不符合试验计划要求,以及观察,记录抄案,计算中的错误所引起的误差,它影响试验的准确性。
④准确性:指在试验或调查中某试验指标或形状的观测值与其真值接近的程度。
⑤精确性:指试验或调查中一试验指标或形状的重复观测值彼此接近的程度。
第二章资料的整理
1.统计资按性质分为:计量资料、次数资料和半定量资料。
2.计量资料是指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测量获得的数量性状资料。计量资料整理的五步骤如下:
(1)求全距,即资料中最大值和最小值之差R=Max(x)—Min(x);
(2)确定组数即按样本大小而定;
样本含量与组数
样本含量 组数
30~60 6~8
60~100 8~10
100~200 10~12
200~500 12~17
500以上 17~30
(3)确定组距,每组最大值与最小值之差记为i ,公式:组距(i)=全距(R)/组数k ;(4)确定组中值及组限,各组的最大值和最小值称为组限,最小值为下限,最大值为上限,每组的中点值称为组中值,组中值=(下限+上限)/2=下限+组距/2=上限-组距/2;(5)归组划线计数,作次数分布表。
3.常用的五种统计图为长条图、圆图、线图、直方图、折线图,掌握直方图和折线图的绘制。
4.原始资料的检查核对主要进行下面三性的检查:①检查资料的完整性;②检查资料的正确性;③检查资料的精确性。
5大样本资料需整理成次数分布表。
第三章资料的统计描述
1.平均数包括以下五种算术平均数、中位数、众数、几何平均数及调和平均数。
2.用来度量资料变异程度的指标主要有极差、方差、标准差、变异系数。
3.平均数的基本性质是(1)样本各观测值与平均数之差的和为零,简述为离均差之和为;(2)样本各观测值与平均数之差的平方和为最小,简述为离均差平方和为最小。
4.10头母猪第一胎产仔数为9、8、7、10、12、10、11、14、8、9(头)计算10头母猪第一胎产仔数的平均数、中位数、标准差和变异系数。
解:①平均数Σx=9+8+7+10+12+10+11+14+8+9=98,n=10
②资料数据按小到大排列如:7、8、8、9、9、10、10、11、12、14
中位数
③标准差
④变异系数
第四章常用概率分布
1.事件概率具有以下性质:①对于任何事件A,有0≤P(A)≤1;②必然事件的概率为1,即P(Ω)=1:③不可能的事件概率为0,即P(Ø)=0。
2.(1)正态分布:若连续型随机变量X的概率分布密度函数为
其中 为平均数,σ2为方差,则称随机变量X服从正态分布,记为X~ 。相应的概率分布函数为
正态分布密度曲线为:
(2)标准正态分布::当μ=0、σ=l时,正态总体称为标准正态总体,其相应的函数表示式是,(-∞<x<+∞)
其相应的曲线称为标准曲线;.标准正态总体的概率问题:
对于标准正态总体N(0,1), 是总体取值小于 的概率,
即 ,
其中 ,图中阴影部分的面积表示为概率 只要有标准正态分布表即可查表解决.从图中不难发现:当 时, ;而当 时,Φ(0)=0.5;标准正态总体 在正态总体的研究中有非常重要的地位,为此专门制作了“标准正态分布表”.在这个表中,对应于 的值 是指总体取值小于 的概率,即 , .
若 ,则 .
利用标准正态分布表,可以求出标准正态总体在任意区间 内取值的概率,即直线 , 与正态曲线、x轴所围成的曲边梯形的面积 .
(3)有关概率计算的公式:
P(0≤u<u1)=Φ(u1)-0.5
P(u≥u1) =Φ(-u1)
P(|u|≥u1)=2Φ(-u1)
P(|u|<u1)=1-2Φ(-u1)
P(u1≤u<u2)=Φ(u2)-Φ(u1)
注:用曲线图和面积来理解记忆。
(4)关于标准正态分布要熟记下列几种常用概率:
P(-1≤u<1)=0.6826
P(-2≤u<2)=0.9545
P(-3≤u<3)=0.9973
P(-1.96≤u<1.96)=0.95
P (-2.58≤u<2.58)=0.99
(5)例:①已知u~N(0,1),试求: (1) P(u<-1.64)=? (2) P (u≥2.58)=? (3) P (|u|≥2.56)=? (4) P(0.34≤u<1.53) =?
利用(4-12)式,查附表1得:
(1) P(u<-1.64)=0.05050
(2) P (u≥2.58)=Φ(-2.58)=0.024940
(3) P (|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468
(4) P (0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389
②已知u~N(0,1)试求:
(1) P(u<- )+P(u≥ )=0.10的
(2) P(- ≤u< ﹚=0.86的
因为附表2中的α值是:
所以
(1) P(u<- )+ P(u≥ )=1- P(- ≤u< ﹚=0.10=α
由附表2查得: =1.644854
(2) P (- ≤u< )=0.86 ,α=1- P (- ≤u< )=1-0.86=0.14
由附表2查得: =1.475791
对于x~N(μ,σ2),只要将其转换为u~N(0,1),即可求得相应的双侧分位数。
③已知猪血红蛋白含量x服从正态分布N(14.52, ), 若P(x<1.1) =0.025, P(x> )=0.025,P(x< ) =0.005,P(x> )=0.005,求 , , , 。
由题意可知,α/2=0.025,α=0.05 又因为
P(x> )=
故 P(x< =+ P(x> )= P(u<- =+ P(u> )
=1- P(- <P< )=0.05=α
由附表2查得: =1.959964,所以
( -14.52)/1.68=-1.959964, ( -14.52)/1.68=1.959964
即 ≈11.23, ≈17.81。
同理 =2.575829,所以
( -14.52)/1.68=-2.575829, ( -14.52)/1.68=2.575829
即 ≈10.19, ≈18.85。
④已知猪血红蛋白含量x服从正态分布N(12.86, ), 若P(x< ) =0.03, P(x≥ )=0.03,求 , 。
由题意可知,α/2=0.03,α=0.06 又因为
P(x≥ )=
故 P(x< =+ P(x≥ )= P(u<- =+ P(u≥ )
=1- P(- ≤P< )=0.06=α
由附表2查得: =1.880794,所以
( -12.86)/1.33=-1.880794, ( -12.86)/1.33=1.880794
即 ≈10.36, ≈15.36。
3. ①双侧概率(重):把随机变量X落在平均数 左右标准差σ一定倍数区间之外的概率记作σ;②单侧概率:指所求得随机变量X小于平均数 左侧标准差σ一定倍数或大于平均数 右侧标准差σ一定倍数的概率记作σ/2。
第五章假设检验
1.显着性检验:就是指在对资料进行统计分析时,先提某一问题对样本所在总体的参数提出一个统计假设,然后根据从样本获得的统计量所服从的概率分布,对这一假设进行检验;其目的是主要是看样本是否来自于均数相同的总体即通过对样本的研究来对总体作出统计推断;检验的对象是在统计学中,是以样本平均数差异x1- x2的大小时样本所在的总样本平均数 1、 2是否相同作出推断。
2.为什么以样本均数作为检验对象呢?是因为样本平均数具有下述特性:
(1)离均差的平方和 (xi- )2最小。说明样本平均数与样本各个观测值最接近,平均数是资料的代表数。
(2)样本平均数是总体平均数的无偏估计值,即E( )= 。
(3)根据统计学中心极限定理,样本平均数 服从或逼近正态分布。
所以,以样本平均数作为检验对象,由两个样本平均数x1和x2的差异去推断样本所属总体平均数是否相同时有依据的。
3.(了) ①标准误(平均数抽样总体的标准差) 的大小反映样本平均数 的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数 间差异程度大,样本平均数的精确性低。反之, 小,说明 间的差异程度小,样本平均数的精确性高。 的大小与原总体的标准差σ成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数 的抽样误差。在实际工作中,总体标准差σ往往是未知的,因而无法求得 。此时,可用样本标准差S估计σ。于是,以 估计 。记 为 ,称作样本标准误或均数标准误。②区别:样本标准差与样本标准误是既有联系又有区别的两个统计量, = 已表明了二者的联系。二者的区别在于:样本标准差S是反映样本中各观测值 , ,…, 变异程度大小的一个指标,它的大小说明了 对该样本代表性的强弱。样本标准误 是样本平均数 的标准差,它是 抽样误差的估计值, 其大小说明了样本间变异程度的大小及 精确性的高低。
4. ①小概率事件通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显着性检验)的基本依据。
②一统计资料进行统计推断判断的原则如下:
Ⅰ、当 < ,P>0.05 时,差异不显着,用“NS”表示,不能否H0 ;
Ⅱ、当 ≤ ≤ ,0.01< P <0.05时,差异显着,用“*”表示,接受HA,否定H0 ;
Ⅲ、当 ≥ ,P≤0.01时,差异极显着,用“**”表示,接受HA,否定H0 。
5.计算题:了解样本均数与总体均数的差异性显着检验及两样本均数的差异性显着检验;重点知道正态总体平均数 的置信区间。
例:①计算下列资料总体平均数的95%,99%置信区间,119、22、104、32、53、31、118、57、30、101、、58、48、68、70。
解:资料总体平均数的95%,99%置信区间
df=n-1=14-1=13,故 =2.160, =3.012
=65.0714 ,S=33.3293, 9.2431
所以⑴95%置信半径为 =19.9668
95%置信下限为 — =45.1046
95%置信上限为 — =85.0382
即该资料总体平均数u 的95%置信区间为45.1046≤u≤85.0382
⑵99%置信半径为 =27.8426
99%置信下限为 — =37.2288
99%置信上限为 — =92.9140
即该资料总体平均数u 的99%置信区间为37.2288≤u≤92.9140 。
②随机抽测了10只兔的直肠温度,其数据为:38.7、39.0、38.9、39.6、39.1、39.8、38.5、39.7、39.2、38.4℃。已知该品种兔直肠温度的总体平均数为 ℃,检验该样本平均数温度与 是否有显着性差异?
解:⑴提出无效假设与备择假设
H0 : =39.5,HA: <39.5
⑵计算t值 经计算得 =39.09,S=0.4909
t=( - )/ =-2.6411
⑶统计推断
由df=n-1=10-1=9,查附表得临界t值
=2.262 =3.250, <︱t︱< ,0.01< P < 0.05
否定H0,HA接受,表明样本平均数 与已知总体平均数 差异显着。
❸ 生物统计题:用LSD法、SSR法、和q法对数据进行多重比较
SSR(新复极差法):假设H0:设两者治愈率相同,即π1=π2,H1:两者治愈率不同,即π1≠π2。α=0.05。T最小值为30×70÷145=14.5>5,不需校正。
χ2=(53×13-17×62)(53×13-17×62)×145/(115×30×70×75)=1.07 自由度v=1。然后查卡方届值表得p>0.05,所以不可以拒绝H0,接受H1即可以认为两者治愈率有差别。
LSR法检验统计量计算有Duncan于1955年提出的新复极差法(SSR法)和Tukey于1949年提出的q法:
SSR=(xi.-xj.)/SE~SSR(p,fe)
q=(xi.-xj.)/SE~q(p,fe)
SE=(MSe/r)开平方
(3)生物统计中常用的平均数计算方法扩展阅读:
多重比较法要求的条件与方差分析法相同,即随机变量服从正态分布,方差相齐和观测值的独立性。
多重比较法的方法
(一)LSD(Least Significant Difference)法
要求组间的标本数必须相同,适用于被指定组间的比较检定。
(二)Tukey法
这个方法也被称作Tukey(a)法,适用于将进行比较的组间完全对等关系的情况,具有相同的标本数是进行检定的前提。
(三)Bonferroni法
这个方这是LSD法的改良法,适用于全体组间比较检定。
(四)Scheffe法
适用于需要进行全体组间比较检定。Scheffe技在需要进行比较的个数多于平均值个数时,比BonfeDoni法更容易得到明确的判断。另外,在万检定的结果不存在有意差时,也可以判断某组间是否存在有意差等特点。
❹ 生物统计中常用于描述集中性度量的统计量有哪些
反映变量集中性的特征数是平均数,平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要有算术平均数、中位数、众数、几何平均数及调和平均数。
❺ 生物统计的统计量
是 个独立标准正态分布统计量的平方和,它的分布与自由度V有关(表9[表]表" class=image>,图4[分布]分布" class=image>)。在生物学研究中用处很大,常用于衡量某种理论与实际计数的吻合性,或按两种指标分组的列联表的独立性。实际观察到的分配在表中每个小格里的计数数据,可以假定是服从泊松分布规律的数据──它的特点是方差等于平均数,且当样本不很小时,近似于正态分布。由此可以理解下列这个常用的基本公式。
=[1436-01] (22)其中的理论数可按欲检验的生物学理论或零假设计算,自由度 =中蕴含独立统计量的个数。对于普通的只有一行格的单向表──1×表,因受合计的约束,
V=-1而双向的有行列的×表,则因受行合计与列合计的约束,
=(-1)(-1)对计算结果的分析可参照差异的显着性检验。
例如番茄的真实紫茎、缺刻叶植株AACC与真实绿茎、马铃薯叶植株aacc杂交,子2代得如下结果(株数):紫茎缺刻叶 紫茎马铃薯叶 绿茎缺刻叶绿茎马铃薯叶
24790 83 34上述观察频数是否与遗传学的独立分配定律的理论比例:9:3:3:1相符,可用分布来衡量实验观察结果与理论频数之间的吻合度。将上述理论比例改为构成比即:
[1436-02]或0.5625:0.1875:0.1875:0.0625子2代总株数为247+90+83+34=454;理论频数是总株数与构成比的乘积,故得255.375:85.125:85.125:28.375,代入(22)式:
=[1437-01]自由度=4-1=3,查表9[表]表" class=image>,[x053]=2.37>1.72,故>0.5,高度吻合。衡量吻合度不能用小样。
❻ 生物统计中的误差怎么计算啊
你是要知道具体的公式还是计算用什么软件?
统计学上的数据经常用平均值+/-SD表示。SD就是标准差。SD的平方叫做方差。
方差的公式为=[(x1-x拔)^2+(x2-x拔)^2+(x3-x拔)^2+…+(xn-x拔)^2]/n
x拔的意思是一组数据的平均数,^2表示2次方
但是我理解你的这个问题的意思,是不是还想问怎样计算两组数据是否存在显着差异??
如果是这样可以用T-检验或者单因素(双因素)方差分析来进行
具体应用软件很多,Origin或者SPSS都可以的。可以直接给出你想要的数据!
❼ 生物统计学要考试,老师出了几个问题,找不到答案,求高手帮忙啊
参考《生物统计学》李春喜等主编。
1、进行统计推断的时候,双尾概率取得某一显着水平时的临界值。一般都可查表。比如P=0.05,双侧临界值u0.05=1.96
2、生物是有机体,与非生物相比具有特殊的变异性,随机性和复杂性。生物有机体生长发育过程中受外界变化影响大,会使实验结果有较大差异,这种差异会掩盖生物本身所含的规律,而生统就是要找出这样的规律。
3、标准差是变异数之一,由方差开根号而得,方差的单位与原始数据的数值和单位都不相适应,需要将方差开方。就得标准差。公式,好难写啊,你网络一下,两个常用公式,一个是按方差开根号,一个是不含有平均数的公式。
4、样本平均数,符号X(上面加一横),极差R,样本标准差s。
5、研究某一因素的影响,将总变异来源分成处理间变异和处理内变异,再进行F检验差异显着性。
6、研究一个学校学生课余活动内容,在学校随机抽取1000学生做统计。全校学生即总体,1000名学生即样本。样本是通过一定方法随机抽样而得。
7、当比较两个样本的时候,平均数相差悬殊或者单位不同的时候,标准差就不适合用来说明变异程度了,变异系数就是克服这样的缺点儿产生的。计算公式,标准差除以样本平均数,得出的百分比就是变异系数。
8、正态分布又称高斯分布,是一种连续型随机变量的概率分布。比如说1000株玉米的株高
9、1、提出假设(无效假设和备择假设)2、确定显着水平3、计算概率,u检验或者t检验等等。4、推断是否接受假设。根据小概率原理判断是否接受H0的判断。
10、样本不随机不具有代表总体的特性,也就没有研究的意义。样本达到3个即可统计,大样本一般30个。p值就是显着水平吧,如何分析,小于0.05是显着,小于0.01是极显着。
❽ 平均种群密度的计算公式
种群密度的计算公式:N=M×n/m(捕捉数量为n,被捕捉个体中被标记个体为m)。估算公式:种群总数/标记个体数=重捕个数/重捕中标记个体数。
种群在单位面积或单位体积中的个体数就是种群密度。种群密度是种群最基本的数量特征。不同的种群密度差异很大,同一种群密度在不同条件下也有差异。
标志重捕法是指的是在一定范围内,对活动能力强,活动范围较大的动物种群进行粗略估算的一种生物统计方法,是根据自由活动的生物在一定区域内被调查与自然个体数的比例关系对自然个体总数进行数学推断。
在被调查种群的生存环境中,捕获一部分个体,将这些个体进行标志后再放回原来的环境,经过一段时间后进行重捕,根据重捕中标志个体占总捕获数的比例来估计该种群的数量。
是种群密度的常用调查方法之一。适用于活动能力强,活动范围较大的动物种群。
由于种群密度的总数量调查比较困难,研究者只计数种群的一小部分,用以估计种群整体,这种方法称为取样调查法。常用的取样调查法有样方法和标志重捕法。
1.
样方法
原理:是指在被调查种群的生存环境内随机选取若干个样方,通过计数每个样方内的个体数,求得每个样方的种群密度,以所有样方种群密度的平均值作为该种群的种群密度。这种方法常适用于对植物种群密度的取样调查。
样方法具体步骤如下:
①确定调查对象;
②选取样方:必须选择一个该种群分布较均匀的地块,使其具良好的代表性;
③计数:计数每个样方内该种群数量;
④计算:取各样方平均数。
❾ 求《生物统计附实验设计》明道绪第四版 课后习题答案
《生物统计附实验设计》(课后习题答案)
第一章 绪论
一、名词解释
1、总体:根据研究目的确定的研究对象的全体称为总体。
2、个体:总体中的一个研究单位称为个体。
3、样本:总体的一部分称为样本。
4、样本含量:样本中所包含的个体数目称为样本含量(容量)或大小。
5、随机样本:从总体中随机抽取的样本称为随机样本,而随机抽取是指总体中的每一个个体都有同等的机会被抽取组成样本。
6、参数:由总体计算的特征数叫参数。
7、统计量:由样本计算的特征数叫统计量。
8、随机误差:也叫抽样误差,是由于许多无法控制的内在和外在的偶然因素所造成,带有偶然性质,影响试验的精确性。
9、系统误差:也叫片面误差,是由于一些能控制但未加控制的因素造成的,其影响试验的准确性。
10、准确性:也叫准确度,指在调查或试验中某一试验指标或性状的观测值与真值接近的程度。
11、精确性:也叫精确度,指调查或试验研究中同一试验指标或性状的重复观测值彼此接近的程度。
二、简答题
1、什么是生物统计?它在畜牧、水产科学研究中有何作用?
答:(1)生物统计是数理统计的原理和方法在生物科学研究中的应用,是一门应用数学。
(2)生物统计在畜牧、水产科学研究中的作用主要体现在两个方面:一是提供试验或调查设计的方法,二是提供整理、分析资料的方法。
2、统计分析的两个特点是什么?
答:统计分析的两个特点是:①通过样本来推断总体。②有很大的可靠性但也有一定的错误率。
3、如何提高试验的准确性与精确性?
答:在调查或试验中应严格按照调查或试验计划进行,准确地进行观察记载,力求避免认为差错,特别要注意试验条件的一致性,即除所研究的各个处理外,供试畜禽的初始条件如品种、性别、年龄、健康状况、饲养条件、管理措施等尽量控制一致,并通过合理的调查或试验设计,努力提高试验的准确性和精确性。
4、如何控制、降低随机误差,避免系统误差?
答:随机误差是由于一些无法控制的偶然因素造成的,难以消除,只能尽量控制和降低;主要是试验动物的初始条件、饲养条件、管理措施等在试验中要力求一致,尽量降低差异。系统误差是由于一些可以控制但未加控制的因素造成的,一般只要试验工作做得精细是可以消除的。避免系统误差的主要措施有:尽量保证试验动物初始条件的一致(年龄、初始重、性别、健康状况等),尽量控制饲料种类、品质、数量、饲养条件等,测量仪器要准确,标准试剂要校正,要避免观测、记载、抄录、计算中的错误。
第二章 资料的整理
一、名词解释
1、数量性状资料:数量性状是指能够以量测或记数的方式表示其特征的象状,观察测定数量性状而获得的数据称为数量性状资料。
2、质量性状资料:质量性状是指能观察到而不能直接测量的性状,观察质量性状而获得的资料称为质量性状资料。
3、半定量(等级)资料:是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得到的资料。
4、计数资料:指用计数方式获得的数量性状资料。
5、计量资料:指用量测手段得到的数量性状资料,即用度、量、衡等计量工具直接测定的数量性状资料。
6、全距(极差):是资料中最大值与最小值之差。
7、组中值:分组后每一组的中点值称为组中值,是该组的代表值。
二、简答题
1、资料可以分为哪几类?它们有何区别与联系?
答:资料一般可以分为数量性状资料、质量性状资料、半定量资料三大类,其中数量性状资料又包括计量资料和计数资料。区别:数量性状资料是能够以量测或计数的方式获得的资料,质量性状资料是只能观察而不能直接测量的资料,半定量资料既有计数资料的特点又有程度或量的不同。联系:三种不同类型的资料有时可根据研究目的和统计方法的要求将一种类型资料转化成另一种类型的资料。
2、为什么要对资料进行整理?对于计量资料,整理的基本步骤怎样?
答:(1)由调查或试验收集来的原始资料往往是零乱的,无规律可循。只有通过统计整理,才能发现其内部的联系和规律性,从而揭示事物的本质。资料整理是进行统计分析的基础。
(2)计量资料整理的基本步骤包括:①求全距,全距即为资料中最大值与最小值之差。②确定组数,一般根据样本含量及资料的变动范围大小确定组数。③确定组距,通常根据等距离分组的原则,组距等于全距除以组数。④确定组限和组中值,各组的最大值为组上限,最小值为组下限;每一组的中点值称为组中值。⑤归组划线计数,作次数分布表。
3、在对计量资料进行整理时,为什么第一组的组中值以接近或等于资料中的最小值为好?
答:在对计量资料进行整理时,第一组的组中值以接近或等于资料中的最小值可以避免第一组中观察值过多的情况,同时也确保资料中最小值不会遗漏。
4、统计表与统计图有何用途?常用统计图有哪些?常用统计表有哪些?列统计表、绘统计图时,应注意什么?
答:(1)统计表用表格形式来表示数量关系;统计图用几何图形来表示数量关 系。用统计表和统计图可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。
(2)常用的统计图有长条图、圆图、线图、直方图和折线图等。
(3)常用的统计表有简单表和复合表两大类。
(4)列统计表的注意事项:①标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。②标目分横标目和纵标目两项,横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位。③数字一律用阿拉伯数字,数字小数点对齐,小数位数一致,无数字的用“—”表示,数字是“0”的须写“0”。④表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可以省去,表的左上角一般不用斜线。
(5)绘统计图的注意事项:①标题简明扼要并列于图的下方。②纵、横两轴应有刻度,注明单位。③横轴由左至右,纵轴由上而下,数值由小到大;图形长宽比例约为5:4或6:5。④图中需用不同颜色或线条表示不同事物时应有图例说明。
第三章 平均数、标准差与变异系数
一、名词解释
1、算术平均数:是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数。
2、无偏估计:当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计。
3、几何均数:n个观测值相乘之积开n次方所得的方根称为几何均数,记为G。
4、中位数:将资料内所有观测值从小到大依次排列,位于中间的那个观测值称为中位数,记为Md。
5、众数:资料中出现次数最多的那个观测值或次数最多一组的组中值称为众数,记为Mo。
6、调和平均数:资料中各观测值倒数的算术平均数的倒数称为调和平均数,记为H。
7、标准差:统计学上把样本方差S2的平方根叫做样本标准差,记做S。
8、方差:统计量Σ(x - )2/(n - 1)称为均方,又称样本方差,记为S2。
9、离均差平方和(平方和):各个观测值与平均数的离差(x - )称为离均差,各个离均差平方再求和即为离均差平方和,简称平方和,记为SS。
10、变异系数:标准差与平均数的比值称为变异系数,是衡量资料中各观测值变异程度的另一个统计量,记做C.V。
二、简答题
1、生物统计中常用的平均数有几种?各在什么情况下应用?
答:生物统计中常用的平均数有算术平均数、几何平均数、调和平均数、中位数和众数。算术平均数较常用,简称平均数,当资料呈正态分布时可用算术平均数描述其中心位置。几何均数主要应用于畜牧、水产业的动态分析,畜禽疾病及药物效价的统计分析,如畜禽、水产养殖的增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等。调和均数主要用于反映畜群不同阶段的平均增长率或畜群不同规模的平均规模。当所获得的数据资料呈偏态分布时中位数的代表性优于算术平均数。众数也适用于资料呈偏态分布的情况。
2、算术平均数有哪些基本性质?
答:算术平均数的两个基本性质是:①离均差之和等于零。
②离均差平方和最小。
3、标准差有哪些特性?
答:标准差的特性主要表现在四个方面:
①标准差的大小受资料中每个观测值的影响,若观测值间变异大求得的标准差也大,反之则小。
②在计算标准差时,在各观测值加上或减去一个常数,其数值不变。
③当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。
④在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右1倍标准差 ( ±S)范围内;约有95.43%的观测值在平均数左右2倍标准差 ( ±2S)范围内;约有99.73%的观测值在平均数左右3倍标准差 ( ±3S)范围内。
4、为什么变异系数要与平均数、标准差配合使用?
答:变异系数是标准差与平均数的比值,是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,若度量单位与平均数相同,可以直接利用标准差来比较;若单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而要用变异系数。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
第四章 常用概率分布
一、名词解释
1、必然现象:某类现象是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,这类现象称为必然现象。
2、随机现象:某类现象事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同,这类现象称为随机现象。
3、随机试验:一个试验若满足下述三个特性则称为随机试验,简称试验:①试验可以在相同条件下多次重复进行。②每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果。③每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪个结果。
4、随机事件:随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件,简称事件。
5、概率的统计定义:在相同条件下进行n次重复试验,若随机事件A发生的次数为m,那么m/n称为随机事件A的频率;当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值P,那么就把P称为随机事件A的概率。这样定义的概率称为统计概率,也叫后验概率。
6、小概率原理:若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件;在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,简称小概率原理。
7、随机变量:作一次试验,其结果有多种可能,每一种可能结果都可以用一个数来表示,把这些数作为变量x的取值范围,则试验结果可用随机变量x来表示。
8、离散型随机变量:如果表示试验结果的变量x,其可能取值至多为可数个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量。
9、连续型随机变量:如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量。
9、标准正态分布:μ = 0,δ2 = 1 的正态分布称为标准正态分布。
10、标准正态变量(标准正态离差):任何一个服从正态分布N(μ,δ2)的随机变量x,都可以通过标准化变换:u = (x –μ)/δ,将其变换为服从标准正态分布的随机变量u,u称为标准正态变量。
11、双侧概率(两尾概率):随机变量x落在平均数μ加减不同倍数标准差δ区间之外的概率称为双侧概率。
12、单侧概率(一尾概率):随即变量x小于μ-kδ或大于μ+kδ的概率称为单侧概率。
13、贝努利试验:对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与A之一,在每次试验中出现A的概率是常数p(0
14、返置抽样:由总体随即抽样时,每次抽出一个个体后,这个个体还返置回原总体,则称为返置抽样。
15、不返置抽样:由总体随即抽样时,每次抽出的个体不返置回原总体,则称为不返置抽样。
16标准误:即平均数抽样总体的标准差,其大小反映样本平均数 的抽样误差的大小,即精确性的高低。
17、样本平均数的抽样总体:样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布,由样本平均数 构成的总体称为样本平均数的抽样总体。
18、中心极限定理:若随机变量x服从正态分布N(μ,δ2),x1,x2,……,xn是由总体得来的随机样本,则统计量 = Σx/n的概率分布也是正态分布,且有μ = μ,δ =δ/ n ,即 服从正态分布N(μ,δ2/n);若随机变量服从平均数是μ,方差是δ2的分布(不是正态分布),x1,x2,……,xn是由总体得来的随机样本,则统计量 = Σx/n的概率分布,当n相当大时逼近正态分布N(μ,δ2/n)。
二、简答题
1、事件的概率具有那些基本性质?
答:事件的概率一般具有以下三个基本性质:
①对于任何事件A,有0≤ P(A) ≤1
②必然事件的概率为1,即P(Ω)=1
③不可能事件的概率为0,即P(Ф)=0
2、离散型随机变量概率分布与连续型随机变量概率分布有何区别?
答:离散型随机变量概率分布常用分布列来表示,其具有Pi ≥0和ΣPi = 1两个基本性质。连续型随机变量的概率分布不能用分布列来表示,其可能取的值是不可数的,一般用随机变量x在某个区间内取值的概率P(a ≤x )
3、标准误与标准差有何联系与区别?
答:样本标准差与样本标准误是既有联系又有区别的两个统计量,二者的联系是:样本标准误等于样本标准差除以根号下样本含量。二者的区别在于:样本标准差是反映样本中各观测值x1,x2,……,xn变异程度大小的一个指标,它的大小说明了 对该样本代表性的强弱。样本标准误是样本平均数 1, 2,…… k的标准差,它是 抽样误差的估计值,其大小说明了样本间变异程度的大小及 精确性的高低。
4、样本平均数抽样总体与原始总体的两个参数间有何联系?
答:①样本平均数抽样总体的平均数等于原始总体的平均数。
②样本平均数抽样总体的标准差等于与原始总体的标准差除以根号下样本含量。
5、t分布与标准正态分布有何区别与联系?
答:t分布与标准正态分布曲线均以纵轴为对称轴,左右对称。与标准正态分布曲线相比t分布曲线顶部略低,两尾部稍高而平;df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布,当n>30时,t分布与标准正态分布的区别很小;n>100时,t分布基本与标准正态分布相同;n→∞时,t分布与标准正态分布完全一致。
第五章 t检验
一、名词解释
1、假设检验(显着性检验):主要包括提出无效假设和备择假设,再根据小概率实际不可能性原理来否定或接受无效假设,实际上是应用“概率性质的反证法”对试验样本所属总体所做的无效假设的统计推断。
2、无效假设:是显着性检验中被检验的假设,其意义是试验的表面效应是试验误差,处理无效,记作H0。
3、备择假设:显着性检验时在无效假设被否定时准备接受的假设,其意义是试验的表面效应是处理效应,处理有效,记做HA。
4、显着水平:显着性检验中用来确定否定或接受无效假设的概率标准叫显着水平,记做α,在生物学研究中常取α=0.05或α=0.01。
5、Ⅰ型错误:真实情况是H0成立却否定了它,犯了“弃真”错误,称为Ⅰ型错误。
6、Ⅱ型错误:真实情况是H0不成立却接受了它,犯了“纳伪”错误,称为Ⅱ型错误。
7、检验功效(检验力、把握度):犯Ⅱ型错误的概率用β表示,而1-β称为检验功效,其意义是当两总体确有差别(即HA成立)时,按α水平能发现它们有差别的能力。
8、双侧检验(双尾检验):利用两尾概率进行的检验叫双侧检验,tα为双侧检验的临界t值。
9、单侧检验(单尾检验):利用一尾概率进行的检验叫单侧检验,此时tα为单侧检验的临界t值;显然单侧检验的tα=双侧检验的t2α。
10、非配对设计(成组设计):是指当进行只有两个处理的试验时,将试验单位完全随机地分成两组,然后对两组随机施加一个处理,两组的试验单位相互独立,所得的两个样本相互独立,其含量不一定相等。
11、配对设计:是指先根据配对的要求将试验单位两两配对,然后将配成对子的两个试验单位随机地分配到两个处理组中去;配对的要求是配成对子的两个试验单位的初始条件尽量一致,不同对子间试验单位的初始条件允许有差别。
12、自身配对:指同一试验单位在两个不同时间上分别接受前后两次处理,用其前后两次的观测值进行自身对照比较;或同一试验单位的不同部位的观测值或不同方法的观测值进行自身对照比较。
13、同源配对:指将来源相同、性质相同的两个个体配成一对,如将畜别、品种、窝别、性别、年龄、体重相同的两个试验动物配成一对,然后将配对的两个个体随机地实施不同处理。
14、参数估计:是统计推断的一个重要内容,就是用样本统计量来估计总体参数。
15、点估计:将样本统计量直接作为总体相应参数的估计值叫点估计。
16、区间估计:在一定概率的保证下指出总体参数的可能范围叫区间估计。
17、置信区间:区间估计时所给出的可能范围叫置信区间。
18、置信度(置信概率):区间估计时给出的概率保证称为置信度。
二、简答题
1、为什么在分析试验结果时需要进行显着性检验?检验的目的是什么?
答:通过样本来推断总体是生物统计的基本特点,即通过抽样研究用样本信息来推断总体的特征。由一个样本平均数来估计总体平均数时,样本平均数包含抽样误差,用包含抽样误差的样本平均数来推断总体,其结论并不是绝对正确的。所以在分析试验结果时需要进行显着性检验。显着性检验的目的是通过样本对其所在的总体作出符合实际的推断,即分析试验的表面效应是由试验处理效应还是由试验误差引起的,推断试验的处理效应是否存在。
2、什么是统计假设?统计假设有哪几种?各有何含义?
答:统计假设(统计推断)是根据样本和假定模型对总体作出的以概率形式表述的推断。统计假设主要包括假设检验(显着性检验)和参数估计两个内容。假设检验(显着性检验)的含义:提出无效假设和备择假设,再根据小概率实际不可能性原理来否定或接受无效假设,实际上是应用“概率性质的反证法”对试验样本所属总体所做的无效假设的统计推断。参数估计的含义:用样本统计量来估计总体参数。
3、显着性检验的基本步骤是什么?根据什么确定显着水平?
答:1、显着性检验的基本步骤:
(1)首先对试验样本所在的总体作假设。
(2)在无效假设成立的前提下,构成合适的统计量,并研究试验所得统计量的抽样分布,计算无效假设正确的概率。
(3)根据“小概率实际不可能性原理”否定或接受无效假设。
2、确定显着水平的标准通常采用小概率事件的标准,即0.05和0.01。选择显着水平应根据试验的要求或试验结论的重要性而定。若试验中难以控制的因素较多,试验误差可能较大,则显着水平标准可选低些,即α值取大些;反之若试验耗费较大,对精确度的要求较高,不容许反复,或者试验结论的应用事关重大,则所选显着水平标准应高些,即α值取小些。
4、什么是统计推断?为什么统计推断的结论有可能发生错误?有哪两类错误?如何降低两类错误?
答:(1)统计推断是根据样本和假定模型对总体作出以概率形式表述的推断。
(2)统计推断是根据“小概率实际不可能性原理”来否定或接受无效假设的,所以不论是接受还是否定无效假设都没有100%的把握,会发生错误。
(3)在检验无效假设H0时可能犯两种错误,其中真实情况是H0成立却否定了它,犯了“弃真”错误,称为Ⅰ型错误;真实情况是H0不成立却接受了它,犯了“纳伪”错误,称为Ⅱ型错误。
(4)犯Ⅰ型错误的概率用α表示,犯Ⅱ型错误的概率用β表示。α即是显着水平,β的大小与α值的大小有关,所以在选用检验的显着水平时应考虑犯Ⅰ、Ⅱ型错误所产生后果严重性的大小,还应考虑到试验的难以及试验结果的重要程度。降低α值可降低犯Ⅰ型错误的概率但会加大犯Ⅱ型错误的概率(在其他因素确定时,α值越小β值越大)。若一个试验耗费大,可靠性要求高,不允许反复,或试验结论的使用事关重大,容易产生严重后果,α值应取小些;对于一些试验条件不易控制、试验误差较大的试验α值取大些。同时,在提高显着水平即减小α值时,为了减小犯Ⅱ型错误的概率可适当增大样本含量。
5、双侧检验、单侧检验各在什么条件下应用?二者有何关系?
答:(1)选用双侧检验还是单侧检验应根据专业知识及问题的要求在试验设计时确定。一般若事先不知道所比较的两个处理效果谁好谁坏,分析的目的在于推断两个处理效果有无差别,则选用双侧检验;若根据理论知识或试验经验判断甲处理的效果不会比乙处理的效果差(或相反),分析的目的在于推断甲处理是否比乙处理好(或差),则用单侧检验。一般情况下不做特殊说明均用双侧检验。
(2)二者的关系:单侧检验的tα=双侧检验的t2α,可见双侧检验显着单侧检验一定显着,单侧检验显着双侧检验未必显着。
6、进行显着性检验应注意什么问题?如何理解显着性检验结论中的“差异不显着”、“差异显着”、“差异极显着”?
答:(1)显着性检验中应注意的问题:
①为了保证试验结果的可靠及正确,要有严密合理的试验或抽样设计,保证各样本是从相应同质总体中随机抽取的,并且处理要有可比性,即除比较的处理外,其他影响因素应尽可能控制相同或基本接近。
②选用的显着性检验方法应符合其应用条件。
③要正确理解差异显着或极显着的统计意义。
④合理建立统计假设,正确计算检验统计量。
⑤结论不能绝对化。
⑥报告结论时应列出,由样本算得的检验统计量值,注明是单侧检验还是双侧检验,并写出P值的确切范围,如0.01
(2)显着性检验结论中的“差异不显着”表示P>0.05,接受H0,否认HA,处理无效,记作“ns”;“差异显着”表示0.010,接受HA,处理有效,记作“*”;“差异极显着”表示P≤0.01,更加否认H0,接受HA,处理有效,嘉作“**”。
7、配对试验设计与非配对试验设计有何区别?
答:非配对设计(成组设计)是指当进行只有两个处理的试验时,将试验单位完全随机地分成两组,然后对两组随机施加一个处理,两组的试验单位相互独立,所得的两个样本相互独立,其含量不一定相等。配对设计是指先根据配对的要求将试验单位两两配对,然后将配成对子的两个试验单位随机地分配到两个处理组中去。非配对设计要求试验单位尽可能一致,配对设计要求配成对子的两个试验单位的初始条件尽量一致,不同对子间试验单位的初始条件允许有差别。一般说来,相对于非配对设计,配对设计能够提高试验的精确性。
❿ 生物统计学什么是多重比较多重比较有哪些方法
多重比较法是指多个等方差正态总体均值的比较方法。经过方差分析法可以说明各总体均值间的差异是否显着,即只能说明均值不全相等,但不能具体说明哪几个均值之间有显着差异。
多重比较法包括:
1、图基法
这种方法的基础是学生化的极差分布( studentized range distribution)。令r为从均值为μ、方差为σ2的正态分布中得到的一些独立观察的极差(即最大值减最小值),令v为误差的自由度数目(多重比较中为N-G)。
2、谢弗法
谢弗法( Scheffé's method) 又称S多重比较法,也为多重比较构建一个100(1 -α) %的联立置信区间( Scheffé,1953,1959)。
(10)生物统计中常用的平均数计算方法扩展阅读:
图基法和谢弗法的比较
1、谢弗法可应用于样本量不等时的多重比较,而原始的图基法只适用于样本量相同时的比较。
2、在比较简单成对差异( simple pairwise differences)时,图基法最具效力,给出更窄的置信区间,虽然它对于广义比对( general contrasts) 也可适用。
3、与此相比,对于涉及广义比对的比较,谢弗法更具效力,给出更窄的置信区间。
4、如果F检验显着,那么谢弗法将从所有可能的比对(contrasts)中至少检测出一对比对是统计显着的。
5、谢弗法应用起来更为方便,因为F分布表比图基法中使用的学生化极差分布更容易得到。
6、正态性假定和同方差性假定对于图基法比对于谢弗法更加重要。
参考资料来源:网络-多重比较法