机器学习概念简介

机器学习的日常：要么在进行建模，要么在建模的路上。

在这个过程中，我们常常听到一些热衷于模型优化的人士时而感叹“怎么又出现过拟合了？”，时而又自我安慰道“找到偏差和方差的平衡点才是成功的关键”。

为了让非专业人士也能轻松理解机器学习的几个基本概念，今天我们来普及一下相关知识。

科普一下机器学习热门概念
泛化

如何评估一个每天都在练习的高中班级的学习成绩呢？

可以通过让他们参加一次考试来验证。

那么，如何判断一个新算法在机器学习领域的表现呢？

可以用新的数据集来测试它的效果。

这种能够在训练集之外的数据上保持良好表现的能力，被称为机器学习模型的泛化能力（Generalization）。

值得注意的是，模型的泛化能力弱也有多种表现形式。

过拟合与欠拟合

有些模型在提取数据特征的阶段就已经遇到障碍。

科普一下机器学习热门概念

它们在训练集上未能完全拟合数据，实际样本中的表现同样存在很大误差。

就像一个高中生每天都在用辅导书练习，但始终无法找到解题的规律，模拟考试表现不佳，真正的考试就更不用说了。

这种在训练集和测试集（实际样本）中都表现不佳的情况被称为欠拟合（Underfitting）。

这通常是由于模型复杂度过低造成的（即模型能力不足）。

而有些模型则在训练时表现良好：

科普一下机器学习热门概念

但在实际应用中却表现不佳。

这种在训练集上表现优异但在测试集上表现糟糕的现象称为过拟合（Overfitting）。

过拟合的原因可能是训练集质量不高，例如样本数量不足，或者训练数据中存在过多噪声（干扰数据）。

此外，模型复杂度也可能高于实际问题的复杂性，导致模型仅仅是死记硬背了训练数据的信息，而无法推广到未见过的新数据。

科普一下机器学习热门概念

无论模型的欠缺表现如何，最终都会在实际应用中导致泛化误差（Generalization Error）。

这种误差可以细分为两个方面：

误差（Error） = 偏差（Bias） + 方差（Variance）

偏差与方差

在机器学习领域，偏差（Bias）表示模型预测值与真实结果之间的偏离程度。

科普一下机器学习热门概念

而方差（Variance）则不涉及真实值，仅描述通过模型得出的预测值之间的分布情况。

科普一下机器学习热门概念

对于一个模型来说，偏差反映了模型本身的精确度，而方差则衡量了模型的稳定性。

科普一下机器学习热门概念

如果模型过于简单且参数较少，它可能具有高偏差和低方差的特征，导致欠拟合。

相反，如果模型复杂且参数众多，它将具有高方差和低偏差的特征，导致过拟合。

理想的机器模型应该同时追求较低的偏差和方差。

然而，在实际应用中，偏差和方差往往是相互制约的。

偏差与方差的权衡

我们可以看看这两个模型：

科普一下机器学习热门概念

右侧的模型明显比左侧复杂得多，因此其偏差较低，方差较高，二者正好相反。

这种偏差与方差之间的矛盾称为偏差-方差困境（Bias-Variance Dilemma）：

科普一下机器学习热门概念

在改进算法时，减少偏差会增加方差，反之亦然。

因此，我们需要找到一个合适的平衡点，以避免因高偏差导致的欠拟合，以及因高方差造成的过拟合。

这种偏差与方差之间的权衡（Bias and Variance Trade-off），实际上也可以看作是模型复杂度的权衡。

为何要介绍这些概念？

简而言之，是为了使计算机能够具备人类的概括能力。

例如，如果我们希望通过某地房屋面积与房价之间的关系，帮助房屋售卖者选择更合适的售价，那么哪种函数最为合适呢？

科普一下机器学习热门概念

第一个函数明显存在欠拟合，未能从数据中提取出规律，更不用说预测新房价了。

第三个函数则是过拟合，参数过多，导致模型的通用性降低，预测效果显著下降。

第二个函数基本上拟合了样本数据，形成了一般规律，同时也能保证对新数据的预测能力。

从大量数据中提取规律，这就是模型的泛化能力。

模型的泛化能力越高，其通用性也就越强，能够完成的任务范围也就越广。

然而，即便是像人工神经网络（ANN）这样优秀的机器学习模型，目前依然受到偏差与方差权衡的限制。

算法工程师们提出了多种方法，如正则化（Regularization）、套袋法（Bagging）、贝叶斯方法（Bayesian），以期让模型更好地概括旧数据并预测新数据。

最终的目标是构建一个机器学习模型，其能力能够无限接近于当前最强的通用模型——人类大脑。

ad

近期文章

互联网资讯 / 人工智能 · 2023年12月12日 0

机器学习概念简介

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年12月12日 0

You may also like...

思特奇提升“新IT架构”能力，助力中国联通合作伙伴大会实现运营商智慧未来

拼多多财报揭示的“三高”效应

31家超市企业赴长沙支持帮扶步步高

发表评论 取消回复

发表评论取消回复