互联网资讯 / 人工智能 · 2023年12月12日 0

机器学习概念简介

机器学习的日常:要么在进行建模,要么在建模的路上。

在这个过程中,我们常常听到一些热衷于模型优化的人士时而感叹“怎么又出现过拟合了?”,时而又自我安慰道“找到偏差和方差的平衡点才是成功的关键”。

为了让非专业人士也能轻松理解机器学习的几个基本概念,今天我们来普及一下相关知识。

科普一下机器学习热门概念
泛化

如何评估一个每天都在练习的高中班级的学习成绩呢?

可以通过让他们参加一次考试来验证。

那么,如何判断一个新算法在机器学习领域的表现呢?

可以用新的数据集来测试它的效果。

这种能够在训练集之外的数据上保持良好表现的能力,被称为机器学习模型的泛化能力(Generalization)。

值得注意的是,模型的泛化能力弱也有多种表现形式。

过拟合与欠拟合

有些模型在提取数据特征的阶段就已经遇到障碍。

科普一下机器学习热门概念

它们在训练集上未能完全拟合数据,实际样本中的表现同样存在很大误差。

就像一个高中生每天都在用辅导书练习,但始终无法找到解题的规律,模拟考试表现不佳,真正的考试就更不用说了。

这种在训练集和测试集(实际样本)中都表现不佳的情况被称为欠拟合(Underfitting)。

这通常是由于模型复杂度过低造成的(即模型能力不足)。

而有些模型则在训练时表现良好:

科普一下机器学习热门概念

但在实际应用中却表现不佳。

这种在训练集上表现优异但在测试集上表现糟糕的现象称为过拟合(Overfitting)。

过拟合的原因可能是训练集质量不高,例如样本数量不足,或者训练数据中存在过多噪声(干扰数据)。

此外,模型复杂度也可能高于实际问题的复杂性,导致模型仅仅是死记硬背了训练数据的信息,而无法推广到未见过的新数据。

科普一下机器学习热门概念

无论模型的欠缺表现如何,最终都会在实际应用中导致泛化误差(Generalization Error)。

这种误差可以细分为两个方面:

误差(Error) = 偏差(Bias) + 方差(Variance)

偏差与方差

在机器学习领域,偏差(Bias)表示模型预测值与真实结果之间的偏离程度。

科普一下机器学习热门概念

而方差(Variance)则不涉及真实值,仅描述通过模型得出的预测值之间的分布情况。

科普一下机器学习热门概念

对于一个模型来说,偏差反映了模型本身的精确度,而方差则衡量了模型的稳定性。

科普一下机器学习热门概念

如果模型过于简单且参数较少,它可能具有高偏差和低方差的特征,导致欠拟合。

相反,如果模型复杂且参数众多,它将具有高方差和低偏差的特征,导致过拟合。

理想的机器模型应该同时追求较低的偏差和方差。

然而,在实际应用中,偏差和方差往往是相互制约的。

偏差与方差的权衡

我们可以看看这两个模型:

科普一下机器学习热门概念

右侧的模型明显比左侧复杂得多,因此其偏差较低,方差较高,二者正好相反。

这种偏差与方差之间的矛盾称为偏差-方差困境(Bias-Variance Dilemma):

科普一下机器学习热门概念

在改进算法时,减少偏差会增加方差,反之亦然。

因此,我们需要找到一个合适的平衡点,以避免因高偏差导致的欠拟合,以及因高方差造成的过拟合。

这种偏差与方差之间的权衡(Bias and Variance Trade-off),实际上也可以看作是模型复杂度的权衡。

为何要介绍这些概念?

简而言之,是为了使计算机能够具备人类的概括能力。

例如,如果我们希望通过某地房屋面积与房价之间的关系,帮助房屋售卖者选择更合适的售价,那么哪种函数最为合适呢?

科普一下机器学习热门概念

第一个函数明显存在欠拟合,未能从数据中提取出规律,更不用说预测新房价了。

第三个函数则是过拟合,参数过多,导致模型的通用性降低,预测效果显著下降。

第二个函数基本上拟合了样本数据,形成了一般规律,同时也能保证对新数据的预测能力。

从大量数据中提取规律,这就是模型的泛化能力。

模型的泛化能力越高,其通用性也就越强,能够完成的任务范围也就越广。

然而,即便是像人工神经网络(ANN)这样优秀的机器学习模型,目前依然受到偏差与方差权衡的限制。

算法工程师们提出了多种方法,如正则化(Regularization)、套袋法(Bagging)、贝叶斯方法(Bayesian),以期让模型更好地概括旧数据并预测新数据。

最终的目标是构建一个机器学习模型,其能力能够无限接近于当前最强的通用模型——人类大脑。