第二节直方图和箱线图直条图和直方图图片
共同步骤:将观测数据从小到大排列
一、 直方图
1. 作图方法
1 将观测数值从小到大排序
2 适当取略小于最小值x1*的数a和略大于最大值xn*的数b(a,b一般比观测值多一位)
a<x1*<x2<……<xn*<b
把(a,b)等分为L个子区间
*一般情况下,L为奇数且L∈[8,15]
3 计算每一区间上样本值的频率   
4 画图
横轴:区间
纵轴:每个区间频率÷长度(
2. 解图:每个小矩形面积等于该数据段数字出现频率
3. 看图
1 各矩形中点连线是否近似于正态分布
2 主体位于哪一范围之内,哪一范围中
数据数量最多
二、 样本分位数
1. 定义:设有容量为n的样本观察值x1.x2.x3……xn,样本p分位数(0<p<1)记为xp,则它具有如下两条性质:
1 至少有np个观察值小于或等于xp
2 至少有n(1-p)个观察值大于或等于xp
2. p分位数的求法
将x1.x2.x3……xn从小到大排序
1 若np不是整数,则只有一个数据满足定义中的两个要求,这一数据位于大于np的最小整数[
np]+1处。
2 若np为整数,则取[np]与[np]+1的中位数
   
综上xp=
   
特别,当p=0.5时,0.5分位数也记为M/    Q2—中位数/第二四分位数
            p=0.25时,0.25分位数记为Q1—第一四分位数
            p=0.75时,0.75分位数记为Q3—第三四分位数
三、 箱线图
1. 作图方法
1 将观测数值从小到大排序
2 画一水平数轴。标注Min、Q1、M、Q2、Max
3 在数轴上方画一个上下平行于数轴的矩形箱子,箱子左、右分别位于Q1、Q3上方,在M点上方画一垂直线段,线段位于箱子内部
4 自箱子左侧引一条水平线至Min,在同一水平高度自右侧引一条水平线至Max
                      *
   
    Min Q1      M  Q3 Max
2. 看图
1 中心位置:中位数所在的位置为数据集的中心
2 散布程度:分成四个区间,每个区间内数据个数各占约,区间较短时,表示落在该区间的点较集中。
3 对称性
中位数位于箱子中间,数据分布较对称
最小值离中位数的距离大于最大值到中位数的距离,数据分布向左倾斜
最小值离中位数的距离小于最大值到中位数的距离,数据分布向右倾斜
4 疑似异常值:某一数据不正常地大于或小于其他数据
判断方法:Q3-Q1=IQR,若数据小于Q1-1.5IQR或大于Q3+1.5IQR,则是疑似异常值
表示方法:*