统计学期末复习
第一章
P2_统计学:统计学是手机、处理、分析、解释数据并从数据中得出结论的学科。
P5_数据的分类类型:按照采用的计量尺度不同,可以将统计数据分为分类数据(文字表述)、顺序数据(文字又有序)和数值型数据(数值)。
按照统计数据的收集方法,可以将其分为观测数据(无人为控制)和实验数据(控制对象)。
按照被描述的现象与时间的关系,可以将统计数据分为截面数据(不同空间)和时间序列数据。
P7_总体:总体是包含所研究的全部个体(数据)集合,它通常由所研究的一些个体组成。
P8_样本:样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目成为样本量。
P9_参数:参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。
P9_统计量:统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量的样本的函数。
P11_1.4 解释分类数据、顺序数据和数值型数据的含义。【见上】
P11_1.5 举例说明总体、样本、参数、统计量、变量这几个概念。【见上】
第二章
P14_数据来源:统计数据主要来自两条渠道:间接来源(由别人搜集,只需重新加工、整理)【搜集容易,成本低,很快得到,作用广泛——相关性不够】和直接来源(自己调查)【耗时,费力,成本高——相关性高】。
P40_2.1什么是二手资料?使用二手资料需要注意些什么?【见上】
第三章
条形图:宽度相同,高度表示数据
直方图:高宽均有意义,一般连续排列
茎叶图:反应原始数据分布
散点图:二维坐标
P78_3.4直方图与条形图有何区别?
答:首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,举行的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
P79_3.2
第四章
P86~95_集中趋势的度量
P96~104_离散程度的度量
P91_平均数:也成为均值,它是一组数据相加后除以数据的个数得到的结果。【知道怎么算,include简单平均数;加权平均数;几何平均数;】
P109_4.5简述众数、中位数和平均数的特点和应用场合。
答:众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。
中位数主要用于测量顺序数据的集中趋势,适用于测量数值型数据的集中趋势,但不适用于分类数据。
平均数是集中趋势的最主要测度值,主要适用于数值型数据,而不适用于分类数据和顺序数据。
P111_4.9一家公司在招收职员时,首先要通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者哪一项测试更为理想?
第六章
P157_常用统计量:样本均值;样本方差;样本变异系数;样本k阶矩;样本k阶中心矩;样本偏度
P159_抽样分布:在总体X的分布类型已知时,若对任意自然数n,都能导出统计量T=T(X1,X2,……,Xn)的分布的数学表达式,这种分布称为精确的抽样分布。
P165_中心极限定理:设从均值为μ、方差为σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽样分布近似服从均值为μ、方差为σ2 / n的正态分布。【要求会算】
第七章
P177_图7-1 区间估计示意图:能说清楚图意,知道数字等的来源,能自己推出来【做题要用】(建议对应表7-1 常用置信水平的Zα/2值看)
P182_总体均值的区间估计
总体分布
样本量
σ已知
σ未知
正态分布
大样本(n≥30)
小样本(n<30)
非正态分布
大样本(n≥30)
P199_总体和样本的区别:估计总体均值时样本量n
估计总体比例时样本量n
P201_7.4解释95%的置信区间。
答:由100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参数的真值,而5%则没包含,则95%这个值被称为置信水平。
P201_7.5 的含义是什么?
答:是估计总体均值时的估计误差。(P182)
P201_7.8简述样本量与置信水平、总体方差、估计误差的关系。
答:样本量与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需的样本量也
就越大;样本量与总体方差成正比,总体的差异越大,所要求的样本量也就越大;样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所要求的样本量也就越小。
P202_7.10从一批零件中随机抽取36个,测得其平均长度为149.5cm,标准差为193cm。
(1)试确定该种零件平均长度的95%的置信区间。
(2)在上面的估计中,你使用了统计中的那一个重要定理?请简要解释这一定理。
第八章
P209_参数估计与假设检验的差别以及联系:是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。而在假设检验中,则是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。
P210_两类错误:一类错误是原假设H0为真却被我们拒绝了,犯这种错误的概率用α表示,所以也称α错误或弃真错误;另一类错误是原假设为伪我们却没有拒绝,犯这种错误的概率用β表示,所以也称β错误或取伪错误。
P214_利用P值进行决策:P值就是当原假设为真时所得到的样本观察结果或更极端结果实现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。
P217_一个总体参数的检验
P231_两个总体比例之差的检验
P241_8.1假设检验和参数估计有什么相同点和不同点?【见上】
P242_8.5解释假设检验中的P值。【见上】
P242_8.6显著性水平与P值有何区别?
答:
P242_8.2一种元件,要求其使用寿命不得低于700小时。现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。已知该元件寿命服从正态分布,σ=60小时,试在显著性水平0.05下确定这批元件是否合格。
第十章
P266_方差分析的基本思想和原理:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
图形描述误差分解(考察误差来源;全部数据误差大小的平方和——总平方和SST;组内误差大小的平方和——组内平方和【误差平方/残差平方和】SSE;组间误差大小的平方和——组间平方和【因素平方和】SSA)误差分析
P272~274_计算:SST;SSA;SSE;MSA=SSA/(k-1);MSE=SSE (n-k)。
P276_方差分析表:要求可以自己填出数字(可能考到空出几个数让填)
P292_10.1什么是方差分析?它研究的是什么?【见上】
P10.13_解释R2的含义和作用。
答:行平方和SSR和列平方和SSC加在一起度量了两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为R
2,其平方根R则反映了这两个自变量合起来与因变量之间的关系强度。即R2直方图与条形图有何区别=(SSR+SSC)/SST。
P294_10.7某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析得到下面的结果:
差异源
SS
df
MS
F
P-value
F crit
组间
210
0.245946
3.354131
组内
3836
-
-
-
总计
29
-
-
-
-
要求:
(1)完成上面的方差分析表。
(2)若显著性水平α=0.05,检验三种方法组装的产品数量之间是否有显著差异。
第十一章
P301_相关关系的描述与测度:绘制散点图来判断变量之间的关系形态对相关系数进行显著性检验。
P302_图11-1 不同形态的散点图:要求掌握(解释清楚)
P317_估计标准误差:度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差(MSE)的平方根,用se来表示。==MSE。
P326_残差分析:在回归模型y=中,假定ε是期望值为0、方差相等且服从正态分布的一个随机变量。但是,如果关于ε的假定不成立,那么,此时所做的检验以及估计和预测也许站不住脚。确定有关ε的假定是否成立的方法之一就是进行残差分析。【残差;残差图;标准化残差】
P329_11.1解释相关关系的含义,说明相关关系的特点。
答:变量之间存在的不确定的数量关系称为“相关关系”,是对两个变量之间线性关系的描述
与度量。有两个假定:两个变量之间是线性关系;两个变量都是随机变量。
P330_11.9简述参数最小二乘估计的基本原理。
答:用最小化图中垂直方向的里查平方和来估计参数β1和β2
P330_11.10解释总平方和、回归平方和、残差平方和的含义,并说明它们之间的关系。
答:SST:全部观测值与总均值的误差平方和;
    SSR:反映y的总变差中由于x与y之间的线性关系引起的y的变化部分;
      SSE:各实际观测点与回归值的残差平方和,是除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的变差部分。
关系:SST=SSR+SSE
P330_11.16简要说明残差分析在回归分析中的作用。
答:可以通过对残差图的分析来判断对误差项ε的假定是否成立。若对所有的x值,ε的方差都相同,而且假定描述变量x和y之间关系的回归模型是合理的,那么残差图中的所有点都应落在一条水平带中间。但如果对所有的值,ε的方差都不同,这就意味着违背了ε方差相等的假设。表明所选择的回归模型不合理,这时应考虑曲线回归或多元回归模型。
P333_11.9某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。通过计算得到下面的有关结果: