统计学知识点(前四章)
第1章导论
1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
2.按数据分析方法分类:↗描述统计—数据收集、处理、汇总、图表描述
↘推断统计—利用样本数据推断总体特征
3.统计数据是对现象进行测量的结果。
4.按照计量尺度的不同,将统计数据分为分类数据、顺序数据和数值型数据。
1)分类数据:对事物分类的结果,用文字表述,数据表现为类别(男女);
2)顺序数据:有序的类别,如,一等品二等品、小学初中高中、同意;
3)数值型数据:按数字尺度测量的观察值,具体的数值。
5.数据的计量尺度:
1)定/分类尺度:数据表现为类别,按照事物的属性平行的分类,计量层次
最低,具有“=”或“≠”的数学特性;
2)定/顺序尺度:数据表现为有序的类别,具有“>”或“<”的数学特性;
3)定距/间隔尺度:数据表现为数字,没有绝对零点;
4)定比/比率尺度:数据表现为数字,有绝对零点。3、4统称数值型数据。
6.定性/品质数据:分类数据和顺序数据统称。
定量/数量数据:数值型数据。
7.按照数据的收集方法:观测数据和实验数据。
按时间状况:截面数据和时间序列数据。(统计数据的分类)
8.总体:是包含所研究的全部个体(数据)的集合。组成总体的每个元素成为
个体。按包含数目是否可数,分为有限总体和无限总体。
9.样本:是从总体中抽取的一部分元素的集合。构成样本的元素的数目成为样
本量。抽样的目的是为了根据样本提供的信息推断总体的特征。
10.参数:是用来描述总体特征的概括性数字度量。是研究者想要了解的总体的
某种特征值,如,总体平均数μ、总体标准差σ。
11.统计量:是用来描述样本特征的概括性数字度量。是根据样本数据计算出来
的量,如,样本平均数χ 、样本标准差s。
12.变量:是说明现象某种特征的概念。如,商品销售额、受教育程度。变量的
具体值称为变量值,比如商品的销售额可以是20万、30万。
13.变量的分类——分类变量:性别、行业;顺序变量:产品等级、受教育程度;
数值型变量:↗离散型变量:产品数量、企业数(取值以整数位断开)
↘连续性变量:年龄、温度、零件尺寸(取值连续不断)随机变量和非随机变量,经验变量和理论变量
第2章数据的搜集
1.数据的来源:间接来源和直接来源
2.间接来源的数据:对原信息重新加工、整理,数据可以取自系统外部或内部。
外部的渠道:各级政府部门,统计年鉴、期刊、报纸、会议、互联网;
内部的渠道:业务资料、单据、记录、统计报表、会计核算。
3.间接来源的数据(二手资料)的特点:①搜集容易,成本低;②作用广泛;
③二手资料是研究者首先考虑并采用的。
4.二手资料的评估?
5.直接来源的数据:调查数据和实验数据
6.调查数据:通过调查方法获得的数据。包括概率抽样和非概率抽样(会区别)6.1概率抽样(随机抽样)的特点:(共十种)↗
1)抽样时按一定的概率以随机原则抽取样本;
2)总体中每个单位被抽中的概率是已知的或是可以计算出来的;
3)用样本对总体目标量进行估计时要考虑每个样本单位被抽中的概率。
6.2概率抽样的方式:五种(知道选择哪种抽样方法,包括非概率五种)
1)简单随机抽样:从包括总体N个单位的抽样框中随机地、一个个地抽
取n个单位作为样本,每个单位的入样概率是相等的。
特点:简单、直观,估计及计算误差量比较方便。
2)分层抽样:将抽样单位按某种特征划分为不同的层,然后从不同的层
中独立的随机地抽取样本。
优点:包含有各种特征的抽样单位,提高估计的精度,可以对隔层的
目标量进行估计。
3)整抽样:将总体中的若干单位合并为组,抽样时直接抽取,然后
对中的所有单位全部实施调查。(省、市体)
4)系统抽样:将总体中的所有单位按一定顺序排列,从1~k中随机取数
字r作为初始单位,以后依次取r+k,r+2k,…。
5)多阶段抽样:二阶段、三阶段,先抽取,再进一步分层之类的。
6.3非概率抽样的方式:五种
1)方便抽样:自行确定,如,调查员在街头、公园进行拦截式的调查。
2)判断抽样:研究人员根据经验、判断,有重点抽样、典型抽样、代表
抽样。判断抽样是主观的,没有依据随机原则,不能推断总体。
3)自愿样本:被调查者自愿参加,成为样本的一分子。如,参与互联网
上的调查问卷。样本组成是对调查活动感兴趣的人,样本是有偏的。
4)滚雪球抽样:用于对稀少体的调查。如,对冬泳爱好者进行调查,
先到若干冬泳爱好者,然后通过他们到更多冬泳爱好者。
5)配额抽样:类似于分层抽样,将总体分为若干类,然后在每个类中采
用方便抽样或判断抽样。单一、交叉变量控制。
6.4概率抽样与非概率抽样的比
1)非概率抽样:不是依据随机原则,样本总计量的分布不确切,因而不
能用于推断总体的参数。操作简单、时效快、成本低。
2)概率抽样:依据随机原则,可以根据调查结果对总体的参数进行估计,
计算估计误差。
6.5搜集数据的基本方法(五种)
样本单位确定以后对这些单位实施调查的方法
1)自填式:调查员分发、邮寄、网络方式。回收率比较低。
2)面访式:调查成本高,如调查员的培训费用。
3)电话式(搜集数据不同方式的特点Page24)
7.实验数据(不考)
8.数据的误差:抽样误差和非抽样误差
1)抽样误差:抽样的随机性引起的样本结果与总体真值之间的误差。样本
量越大,抽样误差越小。总体的变异性越大,抽样误差越大。
2)非抽样误差:除去抽样误差之外的其他原因引起的差异。①抽样框误差;
②回答误差:理解、记忆、有意识误差;③无回答误差;④调查员误差:
记录出错、语气影响;⑤测量误差:测量工具、视力测量误差。
3)误差的控制:只要采用概率抽样,抽样误差就不可避免,但是可以计算
的。非抽样误差与随机性无关,在概率抽样与非概率抽样中都会存在。
第3章数据的图表展示
1.数据的预处理:包括数据的审核、筛选和排序。
1)数据审核:原始数据:完整性和准确性;二手数据:实用性和时效性。
2)数据筛选:出复合条件的数据。
3)数据排序:分类数据①字母型:升序、降序;②汉字型:拼音字母、笔画;数
值型数据:递增、递减。顺序统计量(排序后的数据)
4)数据透视表
2.对品质数据主要做分类整理,对数值型数据主要做分组整理。
适应于低层次的整理与展示方法也适应于高层次数据,反之不能。↓
3.分类数据的整理与展示
在整理时首先列出所分类别,然后计算出每一类别的频数、频率等,形成一张频数分布表,然后选择适当的图形进行展示,对数据特征有一个初步了解。
1)频数:落在某一特定类别或组中的数据
个数。频数分布:把各个类别及落在其中的
相应频数全部列出,并用表格的形式来表现。
2)比例:也称构成比,一个样本中各个部
分的数据与全部数据之比。比率:样本中不
同类别数据之间的比值,可能大于1。
3)分类数据的图示
①条形图:纵置时称柱形图;
②帕累托图:按各类别数据出现的频数多少
排序后绘制的条形图,左侧的纵轴为频数,
右侧为累计百分比。容易看出哪类数据出现的多。
③饼图:比例;④环形图:挖去中间部分。
4.顺序数据的整理与展示
1)累积频数:将各有序类别或组的频数逐级累加
起来得到的频数。①向上累积:从类别顺序开
始的一方向最后累加频数(从小向大);
②向下累积:从最后一方向开始累加(从大向小)。
2)累计频率/百分比:向上、向下
3)分类数据的图示:累积频数分布图或频率图
5.数值型数据的整理与展示
5.1数据分组:数据经分组后再计算出各组中数据出现的频数,形成频数分布表。
包括单变量值分组和组距分组。
1)单变量值分组:把每一个变量值作为一组。组距分组:将全部变量值依
次划分为若干区间,一个组的最小值称为下限,最大值称为上限。
2)组距分组:①确定组数:5≤K≤15;②确定组距:组距是一组上下限的差,
组距=(最大值-最小值)÷组数。如,max237,min141,10组,组距=
(237-141)÷10=9.6。组距一般取5或10。
3)采用组距分组时规定a≤x<b,“上组限不在内”。对离散型变量采用相邻
两组间断的方法,如140~149,150~159,但组中矩是145、155。↓
可以设置开口组,xx以上。存在不等距分组,0~6岁,7~17岁。
4)组中值=(下限值+上限值)÷2 (闭口组)
组中值= 下限值+组距÷2 (缺上限的开口组)
组中值= 上限值-组距÷2 (缺下限的开口组)
5.2数值型数据的图示:条形图、饼图、环形图及累积分布图都适用。
1)分组数据—直方图
折线图下方面积和直方图的面积相等。条形图是用条形的长度表示频数,宽度无意义;直方图用矩形面积表示频数,高度表示频数或频率,宽度表
示组距;直方图各矩形通常是连续排列,条形图则是分开排列;条形图用
于展示分类数据,直方图用于展示数值型数据。
2)未分组数据—茎叶图和箱线图
a)茎叶图:是反映未分组的原始数据分布的图形。茎叶图既能给出数据
的分布状况,又能给出每一个原始数值。直方图适用于大批量数据,
茎叶图适宜于小批量数据。(20≤n≤300)
b)箱线图:是由一组数据的最大值、最小值、中位数、两个四分位数这
五个特征值绘制而成的。
3)时间序列数据—线图
a)时间序列数据:数值型数据是在不同时间上取得的。
b)线图:用于反应现象随时间变化的特征。
4)多变量数据的图示:散点图、气泡图、雷达图
6. 统计表的设计
统计表由四个主要部分组成,即表头、行标题、列标题和数据资料。统计表的下方可以加上表外附加,包括数据来源、变量的注释和必要的说明等。
第4章 数据的概括性度量
利用图表展示数据,可以对数据分布的形状和特征有一个大致的了解,但要全面把握数据分布的特征,还要到反映数据分布特征的各个代表值。数据的分布特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
1. 集中趋势:是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心
点的位置所在。
1.1 分类数据—众数:是一组数据中出现次数最多的变量值,用M 0表示。①不
唯一性,可能没有众数或有几个众数;②不受极端值的影响。
众数
双众数
无众数
1.2 顺序数据:中位数和分位数
1) 中位数:一组数据排序后处于中间位置上的变量值,用M e 表示。
频率分布直方图和条形图的区别中位数从中间点将全部数据分为两部
分,每部分包含50%的数据,一部分数
据比中位数大,另一部分比其小。先对
数据进行排序,再确定位置。中位数位置=(n +1)÷2,n 为数据个数。  位置=(300+1)÷2=150.5,150、151位置上的相加除以2。
2) 四分位数:也称四分卫点,它是一组数据排序后处于25%和75%位置上
的值。通过3个点将全部数据等分为4 份,每部分包括25%
的数据。中
⎪⎪⎩⎪⎪⎨⎧⎪⎪⎭⎫  ⎝⎛+=+⎪⎭⎫ ⎝⎛+n 为为偶数X X n 为为奇数X M n n n e 122212
1)
(21.123514
16
2
120个=⨯-+=e M