机器学习是一门理论与实践相结合的技术学科。在申请与机器学习相关的职位时,我们常常会遇到各种机器学习问题和知识点。
算法理论的基础不仅涉及基本概念和数学基础,还涵盖了机器学习和深度学习的相关内容。今天,我想向大家推荐一个优秀的开源资源,涵盖了算法理论基础的面试题汇总。
首先,这里是这份开源面试题汇总的链接:
该资源的作者是 SladeSal 和 tcandzq,基于 2020 年校园招聘中各类算法问题的总结与个人理解。目前已获得超过 900 个赞。
资源内容包括:
基础概念、数学、数据预处理、机器学习、深度学习、自然语言处理、推荐、风控、评价指标

接下来,让我们快速浏览一下详细内容!
1. 基础概念
基础概念部分涵盖 5 个主题:方差与偏差、生成模型与判别模型、先验概率与后验概率、频率概率、自动机器学习(AutoML)。每个主题均包含若干常见且高频出现的面试题。

问题的解释来自于对面试题的简要总结,言简意赅,易于理解。
2. 数学
数学部分包含 12 个主题:数据质量、最大公约数、牛顿法、拟牛顿法、概率密度分布、平面曲线的切线与法线、导数、中值定理、泰勒公式、欧拉公式、矩阵、概率论。

3. 数据预处理
数据预处理部分共包括 5 个主题:数据平衡、异常值处理、缺失值处理、特征选择、特征提取。数据预处理是机器学习算法的重要环节。

这一部分的总结非常详尽,后面还有进一步展开!关于连续特征的常用处理方法,作者用一张图进行了归纳:

4. 机器学习
机器学习部分涵盖 9 个主题:聚类、线性回归、逻辑回归、决策树、贝叶斯、随机森林、集成学习、FM/FFM、支持向量机(SVM)。这部分内容详实,核心面试题总结得很到位。
例如,关于支持向量机的面试题非常丰富,涵盖了多个方面。众所周知,支持向量机是一种通过监督学习对数据进行二元分类的广义线性分类器,其决策边界是通过最大化边距来求解的超平面。
关于 KKT 条件、引入拉格朗日优化方法后的损失函数解释、核函数的作用及其种类和应用场景,作者都有详细的阐释。

5. 深度学习
深度学习部分包含 8 个主题:Dropout、Batch Normalization、反向传播过程、嵌入层、Softmax、梯度消失与爆炸、残差网络、注意力机制(Attention)。

6. 自然语言处理
自然语言处理部分涵盖 8 个主题:GloVe、Word2Vec、条件随机场(CRF)、LDA、长短期记忆网络(LSTM)、门控循环单元(GRU)、BERT、文本相似度计算。

7. 推荐系统
推荐部分包括 8 个主题:DIN、DeepFM、YouTubeNet、Wide & Deep、MLR、神经网络全家桶、XDeepFM、Recall。
8. 风控
风控部分包含 2 个主题:孤立森林、评分卡。
9. 评价指标
评价指标部分包括 5 个主题:二分类、多分类、回归指标、聚类指标、排序指标。
总的来说,这是一份出色的算法理论基础面试资源,作者对常见的大厂面试题进行了良好的归纳与总结。这将帮助大家更好地梳理和理解相关知识,以便在机器学习的笔试和面试中更加从容应对。
目前该项目仍在不断补充与完善中。
