二手数据的特点:搜集比较容易,采集数据成本低,能很快得到。局限性不是为特定研究问题产生有欠缺,需要评估。、
二手数据的评估:谁收集,目的,怎么搜集,什么时侯收集?
概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。操作简便,时效快,成本低,专业要求不很高。概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。提出精度要求。
数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求
实验中的若干问题:人的意愿,心理问题,道德问题
回答误差:理解误差,记忆误差,有意识误差
误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。选择合适改进的抽样框,设计好的调查问卷,调查过程的质量控制。
抽样误差因素:样本量大小,总体变异性大大 抽样方式选 组织形式
数据审核的目的:检查数据是否有错误,原始数据完整性准确性,二手适用性时效性。
数据筛选的目的:根据需要出符合特定条件的某类数据。
数据排序是按一定的顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,到解决问题的线索。
数据透视表作用:可以对数据表重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表
数据分布表的制作步骤:确定组数,确定组距,根据分组整理成频数分布表,上组限不在内不重不漏
直方图与条形图的差别:首先条形图是用条形的长度表示各类别频数的多少,宽度是固定的;直方图用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,高宽均有意义。其次由于分组数据具有连续性,直方图的各矩形通常是连续排
列,而条形图则是分开排列。最后条形图主要用于展示分类数据,直方图主要用于展示数值型数据。
茎叶图与直方图的区别:茎叶图既能给出数据的分布情况,又能保留原始数据的信息。直方图通常适用于批量数据,茎叶图小批量数据。
饼图与环形图差别:环形图中空洞,样本或总体中每一部分用环中的一段表示。饼图只能显示一个样本或总体各部分所占的比例 ,环形图可以同时绘制多个,有利比较研究。
好图形具备特征:显示数据,读者注意集中图形内容,避免歪曲,强调数据之间比较,服务明确目的,对图形统计描述与文字说明。
图形优劣准则:好图应当使复杂的观点简明、确切、高效阐述,最短时间内以最少的笔墨给读者提大信息,多维,表述数据真实情况。
制作统计表设计注意:合理安排表结构,包括表号总标题单位,上下两横线粗,中间细,必要注释、来源。
数据分布的特征三方面:数据分布的集中趋势,离散程度,形状
众数的特点:不受极端值影响,分布角度上看是具有明显集中趋势点的数值,众数可能不存在也可能有多个。
众数、中位数和平均数的关系:从分布角度看,众数M0是最高峰值,中位数Me是数据中间位置上值,平均数是全部数据的算术平均。左偏X<Me<Mo
众数、中位数和平均数的特点与应用场合:众数是一组数据的峰值,不受极端值影响,缺点是不唯一,在数据量较多时才有意义,数据量少时不宜,主要作分类数据的集中趋势测度值。  中位数是一组数据中间位置上的代表值,不受极端影响,数据分布偏斜程度较大时,中位数好,主要适合作顺序数据的集中趋势测度值。  平均数是对数值型数据计算的,利用了全部数据信息,应用广泛,数据呈对称或接近对称分布时3个代表值接近相等,此时选择平均数作为集中趋势代表值,其主要缺点是易受数据极端值的影响。对于偏态分布的数据,平均数的代表性较差。偏态程度较大数据用中位数或众数比平均好。
异众比率的应用场合:主要用于衡量众数对一组数据的代表程度,大,代表性差。主要适合分类数据的离散程度。顺序数据和数值型也可。
标准分数的性质:平均数为0,标准差为1
经验法则:一组数据对称分布时,约有68%的数据在平均数1个标准差范围内。 95% 99%
切比雪夫不等式:不对称 75% 2个标准差 89% 3 94 4 1-1/k2
离散程度的测量值应用场合:分类数据用异众,顺序数据四分位,数值数据方差标准差,不同样本数据离散系数。
偏态系数的用途:0对称,>1 <-1高偏 0.5-1 -1—0.5中偏,接近0,偏度低,正值右偏。
概率的古典定义:如果某一随机试验的结果有限,而且各个结果出现可能性相等,则某一事件A发生概率为该事件所包含的基本事件数m与样本空间中所包含的基本事件数n的比值。
概率的统计定义:在相同条件下随机试验n次,某事件A出现m次(m<n),则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为事件的概率。
概率的性质:非负,规范,可加
概率的加法法则:两个互斥事件和概率,等于两事件概率和。两任意随机事件和概率为
两事件分别概率减相交概率。
贝努力试验与二项分布:试验有两个结果,这种随机变量所服从的概率分布为二项分布。试验包含了n个相同的试验;每试验只有两个可能结果成或败;出现成或败的概率对每一次试验相同,且成败和为1;试验相互独立;成败可以计数,即试验结果对应一个离散型随机变量,具有上述特征的n次重复独立试验为n重贝努力试验。
正态分布曲线的性质:(1)f(x)>=0整个概率密度曲线都在x轴上方(2)曲线相对x=μ对称,在x=μ处最大值f(μ)=1/σ(3)曲线陡缓程度由σ决定,越大,越缓;(4x趋于无穷时,曲线以x轴为渐近线。
3σ准则:P(|x-μ|<=σ)=0.6836,2σ=0.9545,3σ=0.9973
独立性和互斥性的关系:互斥事件一定是相互依赖(不独立)的,但相互依赖的事件不一定是互斥的。不互斥事件可能是独立的,也可能是不独立的,然而独立事件不可能是互斥的。
统计推断的三个中心内容:抽样分布,参数估计和假设检验
中心极限定理:设从均值为μ,方差为σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽样分布近似服从均为μ,方差为σ2/n的正态分布。
置信区间的理解:1.某种方法构造所有区间中95%的区间包含总体参数的真值,5%不包括,用该方法构造的区间称为置信水平为95%的置信区间2.总体参数真值固定未知,而样本构造区间不固定,置信区间是随机区间因样本不同而不同不都包含总体参数真值。3.实际中只抽一个样本,可包可不包,真正意义是如果做了100次抽样,大概有95次到的区间包含真值,有5次到的区间不包真值。
评价估计量的标准:无偏 有效 一致性
在对两总体均值之差小样本估计对两总体和样本的假定:1.两总体服从正态分布2两随机样本独立地分别抽自两总体。
假设检验的步骤:1提出原假设H0和备择假设H12确定适当的检验统计量3确定显著性水平α和临界值及拒绝域4根据样本数据计算检验统计量的值P5将检验统计量值与临界值比较,作出拒绝或接受原假设的决策
假设检验和参数估计有什么相同点和不同点?参数估计和假设检验是统学推断的两个组成部分,都是利用样本对总体进行某种推断,然而推断的角度不同。参数估计讨论的是样本统计量估计总体参数的方法,总体参数μ在估计前是未知的。而在参数假设检验中,则是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。
两类错误控制:首先控制犯α错误原则,原因:统一原则,原假设常明确。
两类错误的关系:一定样本量n,减小α错误,增大β错误,同时减少可以增大样本量。
单侧检验中原、备择假设方向如何确定?原有的传统的放在原假设。
χ2统计量的步骤:1.用观察值f0减去期望值fe;2.(f0-fe)之差平方;3.将平方(f0-fe)2结果除以fe;43的结果加总。
一致性检验和独立性检验的区别:首先,两种检验抽取样本的方法或对观察值进行测定的方法有所不同,如果在各类别中分别进行,属于拟合优度检验,如果事先未分类,抽取样本后根据研究内容分类形成列联表就是独立性检验。其次,两者检验假设的内容有差异,似~
常假设各类别总体比例等于某个期望概率,而独立性检验中,原假设则假设两个变量之间相互独立。最后,计算期望频数时,在拟合优度检验中利用原假设中的期望概率,用观察频数乘以期望概率,直接得到期望频数,如果独立性检验,则假设两个变量的分类是独立的,因而两个水平的联合概率是两个单独的概率的乘积。
频率分布直方图和条形图的区别简述φcV相关系数各自的特点:φ2X2列联表,0-1范围,0完全相关|φ|=1完全相关,绝对值越大,相关程度越高, φ无上限;c大于2X2列联表,相互独立时 c=0,不可能大于1,最大值依赖于列联表的行数列数,且随着RC的增大而增大。V 0相关独立,1完全相关,1
误差分解:总误差(SST=组内误差(SSE+组间误差(SSA)
方差分析中的三个基本假定:每个总体都应该服从正态分布,各个总体的方差σ2必须相同,观测值是独立的。
方差分析中假设的提法:H0:u1=u2= 自变量对因变量没有显著影响 H1:u1,u2不全相等
多重比较前提、作用:对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。
要检验多个总体均值是否相等时,为什么不两两比而用方差分析?两两比烦销,增大犯I类错误的概率,降低置信水平。方差分析是同时考虑所有样本,排除了错误累积的概率,从而避免拒绝一个真实的原假设。
方差分析的基本思想:1.图形描述,散点图 2.误差分解 3.误差分析,显著性
方差分析的基本步骤:1.提出假设2.构造检验的统计量:1)计算各样本均值2)计算全部观测值的总均值3)计算各误差平方和 总平方和 组间平方和 组内平方和4)计算统计量3.统计决策 4.方差分析表 5.方差分析
关系强度R2的含义和作用:组间平方和占总平方和的比例大小R2=SSA/SST反映两个变量之间的关系强度
相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个,这种关系不确定的变量显然不能用函数关系进行描述,但变量之间存在一定的规律。相关与回归分析正是描述探索这类变量关系及其统计规律的方法。
相关分析的内容:变量之间是否存在关系,存在什么样的关系,关系强度如何,样本所反映的变量之间关系能否代表总体~
相关分析总体的两个假定:两变量之间线性关系,两变量都是随机变量。
相关系数的性质:1)取值范围在-1~+1 0-1正线性相关,反负相关,1完全正线性相关|r=1 y取值完全依赖于x,两者函数关系,r=0y取值与x无关,两者不存在线性相关关系