贝叶斯分类器原理——学习笔记

贝叶斯分类器原理

  • 简介
    • 一、逆概率推理与贝叶斯公式
      • 1、确定性推理与概率推理
      • 2、贝叶斯公式
    • 二、贝叶斯分类的原理
    • 三、概率估计
      • 1、先验概率的估计
      • 2、类条件概率的估计
    • 四、贝叶斯分类的错误率
    • 五、常用贝叶斯分类器
      • 1、最小错误率贝叶斯分类器
      • 2、最小风险贝叶斯分类器
      • 3、朴素贝叶斯分类器
    • 结语
    • 参考

简介

贝叶斯分类器作为模式识别经典算法之一,有着极其重要的地位和用途,对贝叶斯定理进行近似求解。

一、逆概率推理与贝叶斯公式

1、确定性推理与概率推理

贝叶斯分类器原理——学习笔记_第1张图片

2、贝叶斯公式

贝叶斯公式就是解决逆概率推理问题。从已知结果出发,判断某类情况是导致结果发生的原因的概率。贝叶斯公式:
贝叶斯分类器原理——学习笔记_第2张图片
表示结果A在条件Bi下分别产生的概率之和。

二、贝叶斯分类的原理

解决不确定统计分类的问题。已知每个类别的样本取得不同特征向量的概率,实现依据某个待识别样本的特征向量计算该样本属于每一个类别的概率。此时对应关系如下:

贝叶斯分类 贝叶斯公式
每类样本的整体出现概率 先验概率P(wi)
每个类中样本取得某个具体特征向量的概率 类条件概率P(x,wi)
要计算的样本取得某一个具体特征向量时属于每一类的概率 后验概率P(wi,x)

在这里插入图片描述
分类决策规则:根据计算得到的后验概率对样本进行分类

如上所述,贝叶斯分类是从结果出发找原因,因此在训练过程中先验概率和类条件概率必须已知
当先验概率未知时,可以令其概率相等,或按某一类属性在样本集中的出现频率作为先验概率,再用新获得的信息对先验概率进行修正;
当类条件概率未知时,往往需要从数据统计中估计。
因为贝叶斯分类是概率分类,因此分类决策存在错误率

三、概率估计

1、先验概率的估计

将先验概率看作常量
(1)若样本为随机抽样的样本,可以使用某一类属性在样本集中的出现频率作为先验概率:P(wi)=ni/N
(2)将所有类别看作均匀分布:P(wi)=1/c
将先验概率看作概率分布:P(wi)=∫ P(wi|x)
任意设定先验概率初值,在已知类条件概率的情况下,计算训练集中属于某一类的所有样本的后验概率,再将其数学期望用于更新后验概率。

2、类条件概率的估计

(1)参数估计:假定具有某种特定的分布形式,如正态分布、二项分布…再用已经具有类型标签的训练集对概率分布的参数进行估计
(2)非参数估计:在不知道或布加迪分布形式的基础上,直接用样本集中的信息,估计样本的概率分布情况。这种情况下得到的概率通常是一个数值模型
在类条件概率的估计中,通常使用参数估计,概率模型的训练过程就是参数估计过程。频率主义学派认为参数虽然未知,但是客观性存在的固定值,因此可以通过最优化似然函数等来确定参数值。贝叶斯学派认为参数是未观察到的随机变量,其本身也可有分部,因此假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
最常用的方法就是频率主义学派的极大似然估计法和贝叶斯学派的贝叶斯估计
(1)极大似然估计:通常是对数似然估计。(略)
(2)贝叶斯估计:
①待估计参数是Θi的先验概率分布为P(Θi);
②该类样本集xi的联合概率密度分布P(xi|Θi)是Θi的函数;
③求取Θi的后验概率P(Θi|xi);
④Θi的估计值为后验概率下的数学期望Θi=∫ Θi P(Θi|xi)
不同的类条件概率估计方法产生不同的类条件概率,导致不同的判别函数,也就产生不同的分类决策边界。

四、贝叶斯分类的错误率

分类器的错误率:分类错误概率的数学期望
例:最小错误分类器的错误率:即将样本划分到后验概率大的那一类,但样本本身不属于那一类的概率。(最小错误贝叶斯分类器见后文,常见贝叶斯分类器)
贝叶斯分类的错误率(两类)等于属于第一类w1的样本错误分类到w2的错误率加上属于第二类w2的样本错误分类到w1的概率。
贝叶斯分类器原理——学习笔记_第3张图片

五、常用贝叶斯分类器

1、最小错误率贝叶斯分类器

分类决策规则:将样本划分到后验概率大的一类中去。

若P(wi|x)=maxP(wj|x),则x∈wi
有最大后验概率:P(error|x)=ΣP(wj|x)-maxP(wj|x),因此最大后验概率等价于最小错误率
=>若P(x|wi)P(wi)=max[P(x|wj)P(wj)] ,则x∈wi
分类决策边界为使错误率最小的点

注意的是,最小错误率贝叶斯分类器是线性分类器,但分类决策边界不一定是线性的,分界点为后验概率相同的点。
贝叶斯分类器原理——学习笔记_第4张图片

2、最小风险贝叶斯分类器

决策:将待识别的样本x归类到wi中
损失λij:把真实属于wj的样本x,错误分类到wi类的损失
条件风险R(αi|x) = E[λij] = ∑λijP(wj|x)
分类决策规则:若 R(αk|x) = min R(αi|x),则x∈wk

3、朴素贝叶斯分类器

朴素贝叶斯分类器解决的是类条件概率未知的情况。
类条件概率的估计可以根据某类样本在各个维度上的特征值来估计概率分布情况,该概率分布为各个维度上的联合概率分布
朴素贝叶斯分类器就是假设各个维度完全独立地对分类结果产生影响
此时的一维概率密度估计:P(x|wi)=∏P(xk|wi)

然而,实际工程实践中,样本特征往往无法满足独立条件,一般可以采用特征分组的方法,适当考虑一部分属性间的相互依赖信息,每组包含少量相关特征,保证各组之间相互独立,从而不需要进行完全联合概率计算,又不至于忽略掉比较强的属性依赖。基于这种思想,产生了另一种分类器,即半朴素贝叶斯分类器

结语

贝叶斯分类器在模式识别领域有着极其广泛的应用,特别是在信息检索领域。
朴素贝叶斯分类器假定所有属性之间完全独立,虽然在实际应用中,假设很难成立,但应用上,朴素贝叶斯分类器又通常具有很好的性能。

参考

学习时参考北京理工大学《人工智能之模式识别》公开课
书本参考:《机器学习》周志华

你可能感兴趣的