数据科学机器学习常见⾯试题答案,建议收藏导读:本⽂盘点了数据科学和机器学习⾯试中的常见问题的答案。
作者:Kartik Singh
翻译:王⾬桐
来源:数据派THU(ID:DatapiTHU)
技术的不断进步使得数据和信息的产⽣速度今⾮昔⽐,并且呈现出继续增长的趋势。此外,⽬
前对解释、分析和使⽤这些数据的技术⼈员需求也很⾼,这在未来⼏年内会呈指数增长。这些
新⾓⾊涵盖了从战略、运营到管理的所有⽅⾯。
因此,当前和未来的需求将需要更多的数据科学家、数据⼯程师、数据战略家和⾸席数据官这
样类似的⾓⾊。
本⽂将着眼于不同类型的⾯试问题。如果您计划向数据科学领域转⾏,这些问题⼀定会有所帮
助。
01
在统计学研究中,统计学中最常见的三个“平均值”是均值,中位数和众数。
1. 算术平均值
它是统计学中的⼀个重要概念。算术平均值也可称为平均值,它是通过将两个或多个数字/变量
相加,然后将总和除以数字/变量的总数⽽获得的数量或变量。
2. 中位数
中位数也是观察⼀组数据平均情况的⼀种⽅法。它是⼀组数字的中间数字。结果有两种可能
性,因为数据总数可能是奇数,也可能是偶数。
如果总数是奇数,则将组中的数字从最⼩到最⼤排列。中位数恰好是位于中间的数,两侧的数
量相等。如果总数是偶数,则按顺序排列数字并选择两个中间数字并加上它们然后除以2,它将
是该组的中位数。
3. 众数
众数也是观察平均情况的⽅法之⼀。众数是⼀个数字,指在⼀组数字中出现最多的数字。有些
数列可能没有任何众数;有些可能有两个众数,称为双峰数列。
4. 标准差(Sigma,s)
标准差⽤于衡量数据在统计数据中的离散程度。
5. 回归
回归是统计建模中的⼀种分析⽅法。这是衡量变量间关系的统计过程;它决定了⼀个变量和⼀
系列其他⾃变量之间关系的强度。
02
统计学的两个主要分⽀是描述性统计和推断性统计。
6. 描述性统计
描述性统计使⽤类似均值或标准差的指数来总结样本数据。
描述性统计⽅法包括展⽰、组织和描述数据。
7. 推断性统计
8. 统计的应⽤领域
结合数据分析,统计可以⽤于分析数据,并帮助企业做出正确的决策。预测性“分析”和“统计”对于分析当前数据和历史数据以预测未来事件⾮常有⽤。
统计数据可⽤于许多研究领域。以下列举了统计的应⽤领域:
科学
技术
商业
⽣物学
计算机科学
化学
⽀持决策
提供⽐较
解释已经发⽣的⾏为
预测未来
估计未知数量
9. 线性回归
线性回归是预测分析中使⽤的统计技术之⼀,该技术将确定⾃变量对因变量的影响强度。
10. 样本
在统计研究中,通过结构化和统⼀处理,样本是从统计总体中收集或处理的⼀组或部分数据,并且样本中的元素被称为样本点。
11. 抽样⽅法
聚类抽样:在聚类抽样⽅法中,总体将被分为组或集。
简单随机抽样:这种抽样⽅法仅仅遵循随机分配。
分层抽样:在分层抽样中,数据将分为组或分层。
系统抽样:根据系统抽样⽅法,每隔k个成员,从总体中抽取⼀个。
12. p值
当我们在统计中进⾏假设检验时,p值有助于我们确定结果的显著性。这些假设检验仅仅是为了检验关于总体假设的有效性。零假设是指假设和样本没有显著性差异,这种差异指抽样或实验本⾝造成的差异。
13. 数据科学
数据科学是数据驱动的科学,它还涉及⾃动化科学⽅法、算法、系统和过程的跨学科领域,以任何形式(结构化或⾮结构化)从数据中提取信息和知识。此外,它与数据挖掘有相似之处,它们都从数据中抽象出有⽤的信息。
数据科学包括数理统计以及计算机科学和应⽤。此外,结合了统计学、可视化、应⽤数学、计算机科学等各个领域,数据科学将海量数据转化为洞见。
同样,统计学是数据科学的主要组成部分之⼀。统计学是数学商业的⼀个分⽀,它包括数据的收集、分析、解释、组织和展⽰。
协⽅差和相关性是两个数学概念;这两种⽅法在统计学中被⼴泛使⽤。相关性和协⽅差都可以构建关系,并且还可测量两个随机变量之间的依赖关系。虽然这两者在数学上有相似之处,但它们含义并不同。
14. 相关性
相关性被认为是测量和估计两个变量间定量关系的最佳技术。相关性可以衡量两个变量相关程度的强弱。
15. 协⽅差
协⽅差对应的两个变量⼀同变化,它⽤于度量两个随机变量在周期中的变化程度。这是⼀个统计术语;它解释了⼀对随机变量之间的关系,其中⼀个变量的变化时,另⼀个变量如何变化。
04
16. R⾯试问题
R是数据分析软件,主要的服务对象是分析师、量化分析⼈员、统计学家、数据科学家等。
R提供的函数是:
均值
中位数
分布
协⽅差
回归
⾮线性模型
混合效果
⼴义线性模型(GLM)
⼴义加性模型(GAM)等等
在R控制台中输⼊命令(“Rcmdr”)将启动R Commander GUI。
使⽤R commander导⼊R中的数据,有三种⽅法可以输⼊数据。
你可以通过Data<- New Data Set 直接输⼊数据
从纯⽂本(ASCII)或其他⽂件(SPSS,Minitab等)导⼊数据
通过键⼊数据集的名称或在对话框中选择数据集来读取数据集
虽然R可以轻松连接到DBMS,但不是数据库
R不包含任何图形⽤户界⾯
虽然它可以连接到Excel / Microsoft Office,但R语⾔不提供任何数据的电⼦表格视图
在R中,在程序的任何地⽅,你必须在#sign前⾯加上代码⾏,例如:
减法
除法
注意运算顺序
要在R中保存数据,有很多⽅法,但最简单的⽅法是:
根据常⽤的⽅式保存数据。
你可以通过cor()函数返回相关系数,cov()函数返回协⽅差。
在R中,t.test()函数⽤于进⾏各种t检验。t检验是统计学中最常见的检验,⽤于确定两组的均值是否相等。
With()函数类似于SAS中的DATA,它将表达式应⽤于数据集。
BY()函数将函数应⽤于因⼦的每个⽔平。它类似于SAS中的BY。
R 有如下这些数据结构:
向量
矩阵
数组
数据框
通⽤的形式是:
Mymatrix< - matrix (vector,  nrow=r,  ncol=c , byrow=FALSE, dimnames = list ( char_vector_ rowname, char_vector_colnames)
在R中,缺失值由NA(Not Available)表⽰,不可能的值由符号NaN(not a number)表⽰。
为了重新整理数据,R提供了各种⽅法,转置是重塑数据集的最简单的⽅法。为了转置矩阵或数据框,可以使⽤t()函数。
通过⼀个或多个BY变量,使得折叠R中的数据变得容易。使⽤aggregate()函数时,BY变量应该在列表中。
05
机器学习是⼈⼯智能的⼀种应⽤,它为系统提供了⾃动学习和改进经验的能⼒,⽽⽆需明确的编程。此外,机器学习侧重于开发可以访问数据并⾃主学习的程序。
在很多领域,机器⼈正在取代⼈类。这是因为编程使得机器⼈可以基于从传感器收集的数据来执⾏任务。他们从数据中学习并智能地运作。
17. 机器学习中不同类型的算法技术
强化学习
统计员常用的excel公式
监督学习
⽆监督学习
半监督学习
转导
元学习
这是⾯试中提出的基本机器学习⾯试问题。监督学习是⼀个需要标记训练集数据的过程,⽽⽆监督学习则不需要数据标记。
18. ⽆监督学习
数据聚类
数据的降维表⽰
探索坐标和相关性
识别异常观测
19. 监督学习
分类
语⾳识别
回归
预测时间序列
注释字符串
20. 朴素贝叶斯
朴素贝叶斯的优点是:
分类器⽐判别模型更快收敛
它可以忽略特征之间的相互作⽤
朴素贝叶斯的缺点是:
不适⽤连续性特征
它对数据分布做出了⾮常强的假设
在数据稀缺的情况下不能很好地⼯作
朴素贝叶斯是如此的不成熟,因为它假设数据集中所有特征同等重要且独⽴。
06
21. 过拟合
这是⼀个受欢迎的机器学习⾯试问题。机器学习中的过拟合定义为:统计模型侧重于随机误差或噪声⽽不是探索关系,或模型过于复杂。
过拟合的⼀个重要原因和可能性是⽤于训练模型的标准与⽤于判断模型功效的标准不同。
我们可以通过以下⽅式避免过拟合:
⼤量数据
交叉验证
22. 五种常⽤的机器学习算法
决策树
概率⽹络
最近邻
⽀持向量机
神经⽹络
23. 机器学习算法的使⽤案例
欺诈检测