本文共 6288 字,大约阅读时间需要 20 分钟。
优点:
是许多强大的非线性模型的基础;
线性回归模型十分容易理解,结果具有很好的可解释性,有利于决策分析;
蕴含机器学习中的很多重要思想。
能解决回归问题。
缺点:
对于非线性数据或者数据特征间具有相关性多项式回归难以建模.;
难以很好地表达高度复杂的数据。
岭回归和Lasso回归之间存在一些差异,基本上可以归结为L2和L1正则化的性质差异:
优点:
缺点:
算法优点:
(1)简单,易于理解,易于实现,无需估计参数。
(2)训练时间为零。它没有显示的训练,不像其它有监督的算法会用训练集train一个模型(也就是拟合一个函数),然后验证集或测试集用该模型分类。KNN只是把样本保存起来,收到测试数据时再处理,所以KNN训练时间为零。
(3)KNN可以处理分类问题,同时天然可以处理多分类问题,适合对稀有事件进行分类。
(4)特别适合于多分类问题(multi-modal,对象具有多个类别标签), KNN比SVM的表现要好。
(5)KNN还可以处理回归问题,也就是预测。
(6)和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感。
算法缺点:
(1)计算量太大,尤其是特征数非常多的时候。每一个待分类文本都要计算它到全体已知样本的距离,才能得到它的第K个最近邻点。
(2)可理解性差,无法给出像决策树那样的规则。
(3)是慵懒散学习方法,基本上不学习,导致预测时速度比起逻辑回归之类的算法慢。
(4)样本不平衡的时候,对稀有类别的预测准确率低。当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。
(5)对训练数据依赖度特别大,对训练数据的容错性太差。如果训练数据集中,有一两个数据是错误的,刚刚好又在需要分类的数值的旁边,这样就会直接导致预测的数据的不准确。
优点:
缺点:
优点:
实时预测:速度非常快,可以实时使用;
可通过大型数据集进行扩展;
对无关特征不敏感;
具有高维数据的良好性能(特征数量很大)。
缺点:
朴素贝叶斯的应用范围:
可用于文本分类(可以预测多个类别,并且不介意处理不相关的特征)、垃圾邮件过滤(识别垃圾邮件)、情感分析(在社交媒体分析中识别正面和负面情绪),推荐系统(用户下一步将购买什么)。
优点:
离群值的影响较小;
SVM适用于极端情况下的二元分类。
缺点:
SVM的应用范围:
Bag of words应用程序(许多特征和列),语音识别数据,图像分类(非线性数据),医学分析(非线性数据),文本分类(许多特征)。
优点:
缺点:
优点:
缺点:
优点:
缺点:
优点:
缺点:
经典的关联规则挖掘算法包括Apriori算法和FP-growth算法。
Apriori算法多次扫描交易数据库,每次利用候选频繁zd集产生频繁集;而FP-growth则利用树形结构,无需产生候选频繁集而是直接得到频繁集,大大减少扫描交易数据库的次数,从而提高了算法的效率。但是Apriori的算法扩展性较好,专可以用于并行计算等领域。
Apriori Algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也属被称为购物蓝分析 (Market Basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。
Apriori算法是一种挖掘关联规则的算法,用于挖掘其内含的、未知的却又实际存在的数据关系,其核心是基于两阶段频集思想的递推算法 。
Apriori算法分为两个阶段:
1)寻找频繁项集
2)由频繁项集找关联规则
缺点:
优点:
缺点:
PCA算法应用:
优点:
缺点:
XGBoost的应用领域:
可用于任何分类问题。如果特征太多、数据集太大、存在离群值和缺失值,并且不想进行太多特征工程,则XGBoost特别有用。它几乎赢得了所有比赛的胜利,因此这是解决任何分类问题时必须牢记的一种算法。
Adaboost是一种加和模型,每个模型都是基于上一次模型的错误率来建立的,过分关注分错的样本,而对正确分类的样本减少关注度,逐次迭代之后,可以得到一个相对较好的模型。该算法是一种典型的boosting算法,其加和理论的优势可以使用Hoeffding不等式得以解释。
优点就是具有很高精度的特性。这种算法可以使用各种方法构建子分类器,Adaboost算法提供的是框架。同时,当使用简单分类器时,计算出的结果是可以理解的,并且弱分类器的构造极其简单。而简单也是其中一个特点,不用做特征筛选。最后就是不易发生overfitting。而缺点只有一个,那就是对outlier比较敏感。
分类 | 小分类 | 算法 | 计算复杂性 | 解释性 | 缺失值影响 |
监督学习 Supervised Learning | 回归 Regression | 线性回归 Linear Regression | 低 | 容易 | 敏感 |
弹性网络回归 ElasticNet Regression | |||||
多项式回归 Ploynominal Regression | |||||
岭回归 Ridge Regression | |||||
Lasso回归 | |||||
分类 Classification | K邻近算法(KNN) | 高 | 一般 | 一般 | |
逻辑回归 Logistic Regression | 低 | 容易 | 敏感 | ||
朴素贝叶斯 NBA Naive Bayesian Algorithm | 中 | 容易 | 较不敏感 | ||
支持向量机 SVM | 中 | 容易 | 敏感 | ||
决策树 Decision Tree | 低 | 容易 | 不敏感 | ||
随机森林 Random Forest | 低 | 容易 | 不敏感 | ||
无监督学习 Unsupervised Learning | 聚类 Clustering | Fuzzy C-Means | |||
Means Shift | |||||
K-Means | 低 | 容易 | 一般 | ||
DBSCAN | |||||
层次聚类 Agglomerative | |||||
关联规则学习 Association Rule Learning | FP Growth | ||||
Apriori | |||||
Euclat | |||||
降维 Dimensionality Reduction Algorithm | LDA | ||||
SVD | |||||
LSA | |||||
PCA | |||||
t-SNE | |||||
集成学习 Ensemble Learning | Boosting | XGBoost | |||
LightGBM | |||||
CatBoost | |||||
AdaBoosting | 低 | 容易 | 不敏感 | ||
神经网络和 深度学习 Neural Network and Deep Learning | CNN | 高 | 困难 | 不敏感 | |
RNN | |||||
强化学习 Reinforcement Learning | Q-Learning | ||||
DQN | |||||
SARSA | |||||
A3C | |||||
Genetic Algorithm |
转载地址:http://hpvdi.baihongyu.com/