统计学习的分类

统计学习的分类_第1张图片


文章目录

    • 一 .基本分类
      • 1.1监督学习
      • 1.2无监督学习
      • 1.3强化学习
      • 1.4半监督学习与主动学习
    • 二.按模型分类
      • 2.1概率模型与非概率模型
      • 2.2线性模型与非线性模型
      • 2.3参数化模型与非参数化模型
    • 三.按算法分类
      • 3.1在线学习
      • 3.2批量学习
    • 四.按技巧分类
      • 4.1贝叶斯学习
      • 4.2核方法
    • Q1.什么是过拟合?
    • Q2.正则化项一般形式?
    • Q3.交叉验证方式?
    • Q4.什么是泛化能力?


一 .基本分类

1.1监督学习

监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

1.2无监督学习

无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据吗,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

1.3强化学习

强化学习(reinforcement learning)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。

1.4半监督学习与主动学习

半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据,因为标注数据的构建往往需要人工,成本较高,未标注数据的收集不需要太多成本。半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。

主动学习(active learning)是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。通常的监督学习使用给定的标注数据,往往是随机得到的,可以看作是“被动学习”主动学习的目标是找出对学习最有帮助的实例让教师标注,以较小的代价,达到较好的学习效果。

半监督学习和主动学习更接近监督学习。

二.按模型分类

2.1概率模型与非概率模型

统计学习的模型可以分为概率模型(probabilistic model)和非概率模型(non-probabilistic model)或者确定性模型(deterministic model)。在监督学习中,概率模型取条件概率分布形式 P ( y ∣ c ) P(y|c) P(yc),非概率模型取函数形式 y = f ( z ) y= f(z) y=f(z),其中 z z z是输入, y y y 是输出。在无监督学习中,概率模型取条件概率分布形式 P ( z ∣ x ) P(z|x) P(zx)或P ( x ∣ z ) (x|z) (xz),非概率模型取函数形式 z = g ( x ) z=g(x) z=g(x),其中 x x x是输入, z z z是输出。在监督学习中,概率模型是生成模型,非概率模型是判别模型。

决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型是概率模型。感知机、支持向量机、k 近邻、AdaBoost、k 均值、潜在语义分析,以及神经网络是非概率模型。逻辑斯谛回归既可看作是概率模型,又可看作是非概率模型。

2.2线性模型与非线性模型

统计学习模型,特别是非概率模型,可以分为线性模型(linear model)和非线性模型(non-linear model)。如果函数 y = f ( z ) y=f(z) y=f(z) z = g ( x ) z=g(x) z=g(x)是线性函数,则称模型是线性模型,否则称模型是非线性模型。

感知机、线性支持向量机、k 近邻、k 均值、潜在语义分析是线性模型。核函数支持向量机、AdaBoost、神经网络是非线性模型。
深度学习(deep learning)实际是复杂神经网络的学习,也就是复杂的非线性模型的学习。

2.3参数化模型与非参数化模型

统计学习模型又可以分为参数化模型(parametric model)和非参数化模型(non-parametric model)。参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。

感知机、朴素贝叶斯、逻辑斯谛回归、k 均值、高斯混合模型是参数化模型。决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配是非参数化模型。

三.按算法分类

3.1在线学习

在线学习是指每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。

在线学习可以是监督学习,也可以是无监督学习,强化学习本身就拥有在线学习的特点

3.2批量学习

批量学习一次接受所有数据,学习模型,之后进行预测。

四.按技巧分类

4.1贝叶斯学习

贝叶斯学习(Bayesian learning),又称为贝叶斯推理(Bayesian inference),是统计学、机器学习中重要的方法。其主要想法是,在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。将模型、未观测要素及其参数用变量表示,使用模型的先验分布是贝叶斯学习的特点。

朴素贝叶斯、潜在狄利克雷分配的学习属于贝叶斯学习。

4.2核方法

核方法(kernel method)是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。有一些线性模型的学习方法基于相似度计算,更具体地,向量内积计算。核方法可以把它们扩展到非线性模型的学习,使其应用范围更广泛。

核函数支持向量机,以及核 PCA、核k均值属于核方法。


Q1.什么是过拟合?

如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合(over-fitting)。过拟合是指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。可以说模型选择旨在避免过拟合并提高模型的预测能力。

Q2.正则化项一般形式?

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Q3.交叉验证方式?

(1)简单交叉验证
简单交叉验证方法是∶首先随机地将已给数据分为两部分,一部分作为训练集,另一部分作为测试集(例如,70%的数据为训练集,30%的数据为测试集);然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
(2)S 折交叉验证
应用最多的是S折交叉验证(S-fold cross validation),方法如下∶首先随机地将已给数据切分为S个互不相交、大小相同的子集;然后利用S一1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。
(3)留一交叉验证
S折交叉验证的特殊情形是 S = N,称为留一交叉验证(leave-one-out cross validation),往往在数据缺乏的情况下使用。这里,N 是给定数据集的容量。

Q4.什么是泛化能力?

学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。

监督学习的应用主要在三个方面∶分类问题、标注问题和回归问题。


你可能感兴趣的