实验5数据的描述性分析(二)
一、实验目的:
1.掌握定量数据的描述性统计分析中常用的指标
(1)集中趋势:众数、中位数median()、四分位数、百分位数quantile()、(加权)平均数(weigthted.)mean()
(2)分散程度:极差range()、半极差、方差var()、标准差sd()、变异系数、标准误
(3)分布形态:偏度系数、峰度系数
2.掌握R语言绘直方图、茎叶图和箱线图的方法。
二、实验内容:
练习:
要求:①完成练习并粘贴运行截图到文档相应位置(截图方法见下),并将所有自己输入文字的
字体颜设为(包括后面的思考及小结),②回答思考题,③简要书写实验小结。④修改本文档名为“本人完整学号姓名1”,其中1表示第1次实验,以后更改为2,3,...。如文件名为“1305543109张立1”,表示学号为1305543109的张立同学的第1次实验,注意文件名中没有空格及任何其它字符。最后连同数据文件、源程序文件等(如果有的话,本次实验没有),一起压缩打包发给课代表,压缩包的文件名同上。
截图方法:
法1:调整需要截图的窗口至合适的大小,并使该窗口为当前激活窗口(即该窗口在屏幕最前方),按住键盘Alt键(空格键两侧各有一个)不放,再按键盘右上角的截图键(通常印有“印屏幕”或“Pr Scrn”等字符),即完成截图。再粘贴到word文档的相应位置即可。
法2:利用QQ输入法的截屏工具。点击QQ输入法工具条最右边的“扳手”图标,选择其中的“截屏”工具。)
1.自行完成教材中相应的例题。
2.(习题3.7)画出习题3.3中小鸡增重的直方图 (1) 小区间的宽度为 0.lg,起点为 3.55g,终
点为4.95g。纵坐标是频数,并将频数标在直方图的上方(类似图 3.6(a));
(1)源代码:
hist(x,col="lightblue",borde="red",
+ xlab="小鸡增重量(g)",breaks=14,
+ labels=TRUE,xlim=c(3.55,4.55))
运行结果或截图:
(2) 将(1)中直方图的纵坐标改为频率,并将数据的概率密度曲线和正态分布密度曲线同时画在直方图上(类似图 3.6(b))。
源代码:
hist(C,freq=FALSE,breaks=c(3.55,3.65,3.75,3.85,3.95,4.05,4.15,4.25,4.35,4.45,4.55,
4.65,4.75,4.85,4.95), col="lightblue", border="red", labels=TRUE, xlim=c(3.55,4.95), ylim=c(0,1.5))
lines(density(C),col="blue",lwd=2)
x<-seq(from=3.55,to=4.95,by= .1)
lines(x,dnorm(x,mean(C),sd(C)),col="red",lwd=2)
运行结果或截图:
3.(习题3.11)计算习题3.3中小鸡增重数据的中位数、算术平均数,以及上四分位数和下四分数。
源代码:
> median(x)
> mean(x)
> quantile(x,probs=c(0.25,0.75))
运行结果或截图:
4.(习题3.16)计算习题3.3中小鸡增重数据的极差、四分位差、方差和标准差。
源代码:> x<-scan(file.choose())
Read 100 items
> max(x)-min(x)
>  R<-range(X)
错误: 不到对象'X'
>  R<-range(x)
>  R[2]-R[1]
> Q<-quantile(x,probs=c(0.25,0.75),names=F)
> Q[2]-Q[1]
> var(x)
> sd(x)
运行结果或截图:
5.(习题3.18)计算习题3.3中小鸡增重数据的偏度系数和峰度系数。结合习题3.7中的直方图,理解偏度系数和峰度系数的意义。
源代码:> source("E:/R语言/黄茂胜/R/chap03/skew.R")
> skew(X)
> source("E:/R语言/黄茂胜/R/chap03/kurt.R")
> kurt(X)
运行结果或截图:
         
6.(习题3.9)计算习题 3.1中饮料数据的众数。
源代码:
>  Lst <- scan(file.choose(), what = list(sex = "", type = ""))
> Ta <- table(Lst)
> drink <- margin.table(Ta, 2)
> max(drink);which.max(drink)
运行结果或截图:
7.(习题3.13)2015 年某大学经济管理学院共有学生 500 名,其中 18 岁的学生 110 名,19 岁的学生110 名,20 岁的学生 100 名,21 岁的学生 90 名,22 岁的学生 90 名。计算该学院学生的平均年龄。
源代码:
> x<-18:22
> f<-c(110,110,100,90,90)
> an(x,w=f)
运行结果或截图:
8.(习题3.14)有一项为期 10 年的抵押贷款(按复利计算),其中第1年的利率为 5% ,第2年为 7% ,第3 年为 9%,第4年为 11%,第5年为 13% ,第6 ~ 第10 年为 15%,试计算此贷款的年均利率。
源代码:> x<-c(5,7,9,11,13,15,15,15,15,15)/100
> m<-mean(log(x+1))
> x_bar<-exp(m)
> x_bar
[1] 1.11941
>
运行结果或截图:
该此贷款的年均利率为11.94%。
9.(习题3.15)假设在过去的 3个月,猪肉价格在 16.8元/500g ~ 20.4元/500g 之间变化。某学校食堂在这 3个月中共购买了 5次猪肉,其价格与购买金额如下表所示。计算该食堂购买猪肉的平均价格。
三个月内的猪肉价格和购买金额
购买
批次
价格
(元/500g)
购买金
额(元)
购买
批次
价格
(元/500g)
购买金
额(元)
1
18.0
21600
4
17.4
17400
2
20.4
10200
5
19.5
15600
3
16.8
46200
源代码:
> x<-c(18.0,20.4,16.8,17.4,19.5)
> f<-c(21600,10200,46200,17400,15600)
> (x_bar<-an(1/x,w=f))
运行结果或截图:
该食堂购买猪肉的平均价格为17.76/500g.
10.(习题3.21)为了估计一片林地木材的数据,需要随机地选择 15 × 15 m2 的面积,数出直径超过300 mm 树木的数量。现选择了 70 个这样的面积,直径超过 300 mm 树木的数量
如下表所示(数据存放在 tree.data 文件中)。
(1) 计算样本均值 X,用它估计该林地成材木材的数据;
(2) 计算样本标准差S,分别计算其树木落在区间 [ X-S,  X+S ],[ X-2S,  X+2S ],[ X-3S,  X+3S ]上的百分比,并与经验准则给出的对应区间的百分比做比较。
70 个15 × 15 m2 中直径超过 300 mm 树木的数量
7
8
6
4
9
11
9
9
9
10
9
8
11
5
8
5
8
8
7
8
3
5
8
7
10
7
8
9
8
11
10
8
9
8
9
9
7
8
13
8
9
6
7
9
9
7
9
5
6
5
6
9
8
8
4
4
7
7
8
9
10
2
7
10
8
10
6
7
7
8
(1)源代码:
> x<-scan(file.choose())
> mean(x)
运行结果或截图:
(2)源代码:
sd(X)
a<-mean(X)-sd(X); a
b<-mean(X)+sd(X); b
A<-table(cut(X,breaks=c(-Inf,a,b,Inf))); A
频率分布直方图和条形图的区别
prop.table(A)
i<-mean(X)-sd(X)*2; i
j<-mean(X)+sd(X)*2; j
B<-table(cut(X,breaks=c(-Inf,i,j,Inf))); B
prop.table(B)
k<-mean(X)-sd(X)*3; k
n<-mean(X)+sd(X)*3; n
C<-table(cut(X,breaks=c(-Inf,k,n,Inf))); C
prop.table(C)
运行结果或截图:
       
由计算结果可得,除了第一个区间为71%,与经验准则给出的百分比68%有一点偏差,基本符合经验准则给出的对应区间的百分比。
11.(习题3.22)在汽车的汽油时数和汽车油耗的测试中, 13 辆汽车分别在城市和乡村行驶 500km的路况下接受了检测,下表中的数据(存放在 car.data 文件中)记录了它们每百千米的耗油量。
(1) 运用均值、中位数和百分位数来评价在城市和乡村路况下汽车性能的差别;
(2) 画出两组数据的箱线图,比较不同路况下汽车性能是否有差别。
两种道路状况百公里耗油量(单位:L)
城市道路
乡村道路
城市道路
乡村道路
1
14.52
12.12
8
14.70
12.65
2
14.08
11.42
9
14.61
12.38
3
14.79
12.85
10
15.37
11.15
4
16.33
12.65
11
15.47
12.12
5
17.82
12.25
12
15.37
12.71
6
15.37
13.52
13
14.52
12.58
7
14.00
13.67
(1)源代码:
X<-read.table("car.data");X
lapply(X,mean)
lapply(X,median)
lapply(X,quantile)
运行结果或截图:
从计算结果可知,汽车在城市的耗油量普遍高于乡村路况,说明汽车在乡村路况下性能较好。
(2)源代码:
A<-c(14.52,14.08,14.79,16.33,17.82,15.37,14.00,14.70,14.61,15.37,15.47,15.37,14.52)
B<-c(12.12,11.42,12.85,12.65,12.25,13.52,13.67,12.65,12.38,11.15,12.12,12.71,12.58)
boxplot(A,B,names=c('A','B'),col=c(2,3))
运行结果或截图:
从中位数位置、四分位间距框的位置与高度来看,两者的耗油量是有一定差距的,说明在这两种路况下汽车性能是存在差别的。