的作用是什么?
这个其实要分两个部分看,第一是,第二是 ,分别对应不同的功能。 先放结论,在计算某项指标时,如果存在数据缺失的情况,优先使用(或推荐使用)方法;在没有其他方法可用的情况下,使用。
一、 对于“的提取和表示”而言,是指从原始数据中抽取特征值的过程。由于机器学习方法大多基于数学形态学的方法,因此首先需要将原始数据转换到数值向量中,这个过程就是。
二、对于分类问题,指的是根据给定的样本学习一个新的样本分类器的过程。而一个完整的机器学习系统通常由学习和测试两部分组成。
三、对于回归分析,即是利用学习方法对输入的数据进行拟合与预测的过程。输入的数据可以是数值型也可以是分类数据,输出结果通常为数值型。
四、对于聚类分析,即是根据样本的数据属性将其划分为若干类的过程。这里的划分可以是有监督的也可以是无监督的。
五、对于关联规则,指的是从大量交易的数据中挖掘出相关的规律。这些规律可以表现为事务与事务之间,或者项目与项目之间的依赖关系。
以上是对常见的几种机器学习算法的一个简单的介绍,下面来说明为什么在使用这些方法时的顺序问题。
以分类为例,一般来说先提取然后分类是比较合适的。理由如下: 在进行了之后,一般来说数据的特征已经得到了很好的表示,此时再使用分类算法进行学习,可以使得算法更容易学习到数据内部的规律; 反之,如果先进行分类,再提取特征。那么问题的关键在于如何确定分类器使用的参数。如果是训练集的话,测试集的结果不好控制,而且测试集本身的大小也会影响模型的结果;如果只是使用训练集,那么由于没有进行特征的提取,所得到模型的泛化能力会比较差。