1.数据挖掘能做以下六种不同事情(分析⽅法):
  · 分类(Classification)
  · 估值(Estimation)
  · 预⾔(Prediction)
  · 相关性分组或关联规则(Affinity grouping or association rules)
  · 聚集(Clustering)
  · 描述和可视化(Des cription and Visualization)
  · 复杂数据类型挖掘(Text, Web ,图形图像,视频,⾳频等)
  2.数据挖掘分类
  以上六种数据挖掘的分析⽅法可以分为两类:直接数据挖掘;间接数据挖掘
  · 直接数据挖掘
  ⽬标是利⽤可⽤的数据建⽴⼀个模型,这个模型对剩余的数据,对⼀个特定的变量(可以理解成数据库中表的属性,即列)进⾏描述。
  · 间接数据挖掘
  ⽬标中没有选出某⼀具体的变量,⽤模型进⾏描述;⽽是在所有的变量中建⽴起某种关系。
  · 分类、估值、预⾔属于直接数据挖掘;后三种属于间接数据挖掘
  3.各种分析⽅法的简介
  · 分类(Classification)
  ⾸先从数据中选出已经分好类的训练集,在该训练集上运⽤数据挖掘分类的技术,建⽴分类模型,对于没有分类的数据进⾏分类。
  例⼦:
  a. 信⽤卡申请者,分类为低、中、⾼风险
  b. 分配客户到预先定义的客户分⽚
  注意:类的个数是确定的,预先定义好的
  · 估值(Estimation)
  估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,⽽估值处理连续值的输出;分类的类别是确定数⽬的,估值的量是不确定的。
  例⼦:
  a. 根据购买模式,估计⼀个家庭的孩⼦个数
  b. 根据购买模式,估计⼀个家庭的收⼊
  c. 估计real estate的价值
  ⼀般来说,估值可以作为分类的前⼀步⼯作。给定⼀些输⼊数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进⾏分类。例如:银⾏对家庭贷款业务,运⽤估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。
  · 预⾔(Prediction)
  通常,预⾔是通过分类或估值起作⽤的,也就是说,通过分类或估值得出模型,该模型⽤于对未知变量的预⾔。从这种意义上说,预⾔其实没有必要分为⼀个单独的类。预⾔其⽬的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过⼀定时间后,才知道预⾔准确性是多少。
  · 相关性分组或关联规则(Affinity grouping or association rules)
  决定哪些事情将⼀起发⽣。
  例⼦:
  a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)
  b. 客户在购买A后,隔⼀段时间,会购买B (序列分析)
  · 聚集(Clustering)
  聚集是对记录分组,把相似的记录在⼀个聚集⾥。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。数据库基本数据类型有哪些
  例⼦:
  a. ⼀些特定症状的聚集可能预⽰了⼀个特定的疾病
  b. 租VCD类型不相似的客户聚集,可能暗⽰成员属于不同的亚⽂化
  聚集通常作为数据挖掘的第⼀步。例如,"哪⼀种类的促销对客户响应?",对于这⼀类问题,⾸先对整个客户做聚集,将客户分组在各⾃的聚集⾥,然后对每个不同的聚集,回答问题,可能效果更好。
  · 描述和可视化(Des cription and Visualization)
  是对数据挖掘结果的表⽰⽅式。