《数据模型与决策》课程学习心得报告
时代在前进,人们的学习理念在不断更新,R语言的学习应用能够为我们提供自己创建自己需要的应用信息拥有可以提出问题和解决问题的机会。这次R语言学习心得体会总结可以帮助自己在问题解决的过程中得到学R语言、用R语言的实际体验,从而加深对学习的理解,促进自己学习素质的全面提高。本人在学习R语言的课程之后,深入了解R语言的学习意识与语言应用的设计意图,并且通过自己所学习的R语言的学习方法解决实际问题。
R语言是一个极其全面的统计研究和可进行交互式数据分析和探索的强大平台,拥有顶尖水准的制图工具。这一点后起之秀的Python显得比较单薄,特别是对于可视化这一部分,虽然Python有一些不错的可视化库,如Seaborn,Bokeh和Pygal。但相比于R,呈现的结果并不总是那么顺眼。所以靠着统计学吃饭的同学,R是必须掌握语言,Python作为爱好比较合适。在我所学习的R语言中,Rpackage起到了至关重要的作用:Rpackage就是R函数、数据、预编译代码以一种定义完善的格式组成的集合。可以说这个是最让人开心的一部分了,因为正是由于包的存在,使得编译人员可以通过可选模块的下载和安装来实现很多功能。目前来说,拥有2500多个包的用户贡献模块可以通过相关网址的下载。这些包提供了横跨各种领域、数量惊人
的新功能,包括分析地理数据、处理蛋白质质谱,甚至是心理测脸分析的功能。以下是我总结的学习心得。
一、R起源
R是S语言的一种实现。S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的RobertGentleman和RossIhaka及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可
自定义功能。R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的,在那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。
二、对R语言的理解
R语言是统计学家开发的,出生之初就决定了它的使命是统计计算和数据可视化,这算是R语言核心功能的两个大方向。
对于这两个方向而言,统计计算的学习,基础都在课堂理论与专业背景上,说实话,R语言只是提供了一个实现的平台而已,它并不该改变或者创造新的理论、模型。
而这些统计计算所使用的公式、用到的模型算法,大部分都被封装成一个个扩展包里,导入包之后,仅需调用对应函数、设置对应参数即可,这些函数与Excel里面的函数本无区别,无需恐惧。
至于参数的调优、模型的检验与优化,这些东西所依赖的知识背景,也基本都是来源于课堂学习和专业背景,与R软件的关系并不大,对于需要自己写算法的情况,你也仅是在函数的
基础上按照成熟的理论算法进行调优和计算,这与软件无关(除了基础语法之外),而与软件之外的专业背景和行业经验有关。
说到底,对于统计学习这一块,重要的是理论背景、业务经验、而真正需要R来实现的,仅仅是内置的扩展包函数、基础语法而已。
类比一下SPSS的学习,一个不懂统计学的人很难学好SPSS,尽管他知道各种功能模块和菜单(比如我),同样,一个不懂统计学和数学的人也难学好R语言,尽管他很熟悉R语言的基础语法和很多扩展包所能实现的功能。
三、R语言的数据决策应用
近年来,随着电子商务、社交网站、移动终端应用开发的兴起,企业对用户基本数据、行为数据、网络痕迹数据等信息的掌握逐渐成为其在信息领域的核心竞争力,“用数据说话、用数据决策”已成为企业未来发展的基石。然而,传统数据在全样抽取时存在时效性差、不适合处理实时数据的缺陷,因此,如何从数据中决策出有价值的信息就显得十分重要。
数据文件包括通用型文件如纯文本文件、Excel等,通过加载不同的功能模块,R软件还可以
读取多种数据文件。通过安装RODBC、RJDBC和RMySQL可以获取对ODBC、JDBC和Oracle数据源的访问能力。由于实际应用中往往需要对异构数据源进行决策,R软件提供的针对各种数据源的访问接口具有很强的适用性。
k-means是经典的基于划分的聚类方法,其基本思想是使聚类性能指标最小化。所用的聚类准则函数是聚类集中每个样本点到该类中心的距离平方之和,应使其最小化。为此,首先根据给定聚类数K,为每个聚类确定一个初始聚类中心;其次将样本集里的各个样本按最小距离原则分配到最邻近的聚类,并使用每个聚类中的样本均值作为新的聚类中心,如此重复直到聚类中心不发生变化;最后可获得K个聚类。R软件中可以用k-means()函数来进行聚类。聚类可视化采用判别投影绘制函数plotcluster(),把数据对象映射平面空间,展示聚类之间的异构性。
R软件提供的分类回归树函数有很多种,为简化获得的分类回归树模型,避免产生过度拟合,常采用的分类回归树函数为rpart(),rpart()可以建立一个分类回归树,并且可以选择最小误差的预测。利用rpart包中的bodyfat数据集建立分类回归树,然后用该分类回归树预测。社交软件源码
优秀的数据决策工具一方面要求丰富的数据决策功能,另一方面也需要优化的算法和用户体验,R软件具备构建实用性强的数据决策系统的各种条件,且具有开源的特点,交互方式提供可视化界面,还支持数据决策工作流的任务定义与执行,简化了编程人员的操作。此外,可通过自定义脚本来进行分析功能及其他诸如C语言、java语言的调用等。因此,R语言未来将在大数据的决策领域有更广泛的应用。
四、激发了我对统计软件的浓厚兴趣
以往我虽然接触过一些统计、概率方面的基础知识,但像这样系统全面的学习还是第一次通过这一课程,我学到了抽样调查、假设检验、回归分析和关于建立模型的知识.在课程学习中我对统计软件产生了强烈兴趣.在我看来数据分析是以统计学为基础的统计学提供了-套完整的科学方法论,而统计软件则是实现的手段在商业应用中,我们往往要面对大量庞杂的数据,这时如果没有统计软件的帮助是不可想象的.像教授在课程中介r绍的minitab软件就很符合我的需要.它具有很好的人机界面和完善的输出结果;功能全面,系统地集成了多种成熟的统计分析方法;有完善的数据定义、操作和管理功能;方便地生成各种统计图形和统计表格;使用方式简单,有完备的联机帮助功能;软件开放性好能方便地和其他软件进行数据交换,为了多加练习,我
在公司和家里电脑上都安装了mintab软件,初步尝试了对数据进行标准化处理、频数分布分析、描述性统计分析、多选项分析等等得出了计算数据和统计图形,可以看出数据的离散程度、集中趋势和分散程度,单变量的比重.在操作中,我深刻体会到要想熟练运用统计软件,熟练掌握和运用统计知识是基础,据此才能弄清楚数据分析的目的与对应的分析方法。
五、促使我思考模型预测在企业中的应用
我是一名就职于XX公司的管理人员,定价是公司日常管理的一-个重要组成部分,也是决定公司收益的关键环节公司的定价机制非常重要,因为通过它才能实现供给与需求的有效匹配这是一个动态的过程,非常复杂,而且由于XX业固有的价格不稳定性,使这一目标的实现变得更加困难.由于我们不可能获知具体的市场需求,即某一天的某一特定时间段究竟会有多少潜在顾客,因此我们只能根据在对既往数据的分析和模型预测的基础上推测市场需求这就对我们的数据分析能力、建模能力提出了很高的要求。就目前公司普遍采用延长提前出售时间并提供一定数量低价商品,再根据出售情况逐步提高商品价格的模式而言,怎样控制折扣率和出售的节奏,这真是一个非常具有挑战性的课题。据了解,目前国内大多数公司并不具备这方面的高级能力,而是借助既有的模型来进行操作,很难说是否能够实现效益的最大化.希望在不远的将来国内公司对数据分析和建模能力的掌握可以达到这个水准。