机器学习之学习器的介绍

在机器学习过程中,我们需要构造一个学习器,用来学习训练集中的数据特征,并能准确地将新数据合理分类。学习器拥有越好的学习能力,那么这个学习算法就越准确。这就体现了学习器的重要性。

为了构造一个较好效果的学习器,我们应该从训练样本中间可能学出适用于所有潜在样本的普遍规律,这样在遇到新样本时才能准确地判断类别。然而,当一个学习器将样本学习得太好时,很可能学习到特别偏的特征,即泛化能力下降,这样的过拟合,被称为“过配”。产生过配的情况时由多种因素造成的。同样的,当一个学习器将样本学习得太差时,很可能不能学习到一些有用的特征,这样的欠拟合,被称为“欠配”。

举个例子:学习人的特性时,如果样本中,所有人的肤色为黄色。学习器很可能会认为黄色=人。如果新样本中出现白种人或黑种人,学习器的分类结果很可能是错误的,不认为白种人或黑种人是人。这种现象叫做过配。相反地,学习器也可能会认为有四肢的都是人。如果新样本中出现猪或者狗,学习器的分类结果很有可能也是错误的,认为猪或狗是人。

过配相对于欠配是不容易解决的。过配是机器学习中遇到的关键的障碍。当出现欠配情况时,可以多学习几遍样本,然而出现过配情况时,就要考虑算法本身了。实际上,过配的情况时不容避免的,我们所能做的只是缓解,或者说减小其风险。各类机器学习算法中都有一些缓解过配的措施,我们可以通过实际情况选择不同的算法。除此之外,当使用不同的参数配置同一种学习算法时,也会产生不同的模型。那么我们应该使用何种算法以及如何配置参数,这又是机器学习中的另一个问题——模型选择。